Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß.
Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt.
Zweitens bin ich beim Studium der Überanpassung bei der Klassifizierung zu dem Schluss gekommen, dass auch Datensätze mit einer geringen Anzahl von Merkmalen überanpassbar sind. Wenn wir keine Merkmale haben, die mit dem Klassenetikett korrelieren, findet auf jeden Fall eine Überanpassung statt. Deshalb frage ich mich jetzt, wozu die automatische Klassifizierung gut ist, wenn wir nicht die richtigen Features für ein Klassenlabel finden können. Im Falle einer Dokumentklassifizierung würde dies bedeuten, dass ein Thesaurus mit Wörtern, die sich auf die Etiketten beziehen, manuell erstellt wird, was sehr zeitaufwendig ist. Ich denke, was ich damit sagen will, ist, dass es sehr schwierig ist, ein verallgemeinertes Modell zu erstellen, ohne die richtigen Funktionen von Hand auszuwählen.
Auch wenn die experimentellen Ergebnisse nicht zeigen, dass die Ergebnisse eine geringe oder keine Überanpassung aufweisen, wird dies bedeutungslos. Gibt es eine Möglichkeit, dies zu messen?
quelle
svm
Hat diese also standardmäßig die Regularisierungsparameter C ? Und ich bin mir nicht sicher , was Variablen , die von dieser kontrollierten C , Sie meinen , diese Schlupfvariablen ?Ich werde mit der zweiten und letzten Frage beginnen.
Das Problem der Verallgemeinerung ist offensichtlich wichtig, denn wenn die Ergebnisse des maschinellen Lernens nicht verallgemeinert werden können, sind sie völlig nutzlos.
Die Methoden zur Gewährleistung der Verallgemeinerung stammen aus der Statistik. Wir gehen normalerweise davon aus, dass Daten aus einer Wahrscheinlichkeitsverteilung generiert werden, die ihren Ursprung in der Realität hat. Wenn Sie beispielsweise ein Mann sind, der im Jahr 2000 geboren wurde, gibt es eine Wahrscheinlichkeitsverteilung für Gewicht / Größe / Augenfarbe, wenn Sie 10 Jahre alt sind. Diese Verteilung ergibt sich aus dem verfügbaren Genpool im Jahr 2000, möglichen Umweltfaktoren usw. Wenn Wir haben viele Daten, wir können etwas über diese zugrunde liegenden Verteilungen sagen, zum Beispiel, dass sie mit hoher Wahrscheinlichkeit Gauß oder multinomial sind. Wenn wir ein genaues Bild der Verteilung haben, können wir bei gegebener Größe, Gewicht und Augenfarbe eines 10-jährigen Kindes im Jahr 2010 eine gute Annäherung an die Wahrscheinlichkeit erhalten, dass das Kind männlich ist. Und wenn die Wahrscheinlichkeit nahe bei 0 oder 1 liegt, können wir einen guten Eindruck davon bekommen, was der Sex der Kinder wirklich ist.
Nun zurück zu SVM. Wenn Sie keine Kerne verwenden oder Kerne verwenden, die in endlich dimensionale Räume abgebildet werden, ist die sogenannte Vapnik-Chervonenkis-Dimension, die ein Maß für die Komplexität des Hypothesenraums ist, endlich, und mit dieser und genügend Übungsbeispielen können Sie dies mit high erreichen Die Wahrscheinlichkeit, dass der Fehler auf dem Test-Set nicht viel größer ist als der Fehler auf dem Training-Set. Wenn Sie Kernel verwenden, die auf unendlich dimensionale Merkmalsräume abgebildet werden, ist auch die Vapnik-Chervonenkis-Dimension unendlich, und was noch schlimmer ist, die Trainingsbeispiele allein können keine gute Verallgemeinerung garantieren, egal wie viele. Glücklicherweise erweist sich die Größe des Randes einer SVM als guter Parameter, um die Verallgemeinerung sicherzustellen. Mit großem Spielraum und Trainingsset können Sie sicherstellen, dass der Testfehler auch nicht viel größer als der Trainingsfehler ist.
quelle
Es gibt mindestens zwei Hauptquellen für Überanpassungen, die Sie in Betracht ziehen könnten.
Überanpassung durch einen Algorithmus, der zu viel aus den verfügbaren Trainingsmustern abgeleitet hat. Dies lässt sich am besten durch Verwendung eines Maßes für die Verallgemeinerungsfähigkeit des Modells empirisch verhindern. Die Kreuzvalidierung ist eine solche beliebte Methode.
Überanpassung, da die zugrunde liegende Verteilung unterabgetastet ist. In der Regel können Sie nur dann etwas dagegen unternehmen, wenn Sie mehr Daten erfassen oder Ihrem Modell Domänenwissen über das Problem hinzufügen können.
Bei 120 Stichproben und einer großen Anzahl von Merkmalen ist es sehr wahrscheinlich, dass Sie von 2 verunglimpft werden und möglicherweise auch zu 1 neigen.
Sie können etwas gegen 1 unternehmen, indem Sie die Auswirkung der Modellkomplexität auf die Test- und Trainingsfehler sorgfältig beobachten.
quelle