Textklassifizierungsprobleme sind in der Regel sehr hochdimensional (viele Features) und hochdimensionale Probleme sind wahrscheinlich linear trennbar (da Sie alle d + 1-Punkte in einem d-dimensionalen Raum mit einem linearen Klassifikator trennen können, unabhängig davon, wie die Punkte lauten gekennzeichnet sind). Lineare Klassifikatoren, ob Ridge-Regression oder SVM mit einem linearen Kernel, dürften also gut abschneiden. In beiden Fällen wird die Komplexität des Klassifikators durch den Ridge-Parameter oder C für die SVM (als tdc-Erwähnung +1) gesteuert und eine Überanpassung vermieden, indem die Muster der einzelnen Klassen durch große Ränder getrennt werden (dh die Entscheidungsfläche verläuft entlang der SVM) Mitte der Lücke zwischen den beiden Punktesammlungen). Um jedoch eine gute Leistung zu erzielen, müssen die Kamm- / Regularisierungsparameter richtig eingestellt werden (ich verwende eine einmalige Kreuzvalidierung, da sie billig ist).
Der Grund, warum die Gratregression gut funktioniert, ist, dass nichtlineare Methoden zu leistungsfähig sind und es schwierig ist, eine Überanpassung zu vermeiden. Es mag einen nichtlinearen Klassifikator geben, der eine bessere Verallgemeinerungsleistung bietet als das beste lineare Modell, aber es ist zu schwierig, diese Parameter unter Verwendung der uns vorliegenden endlichen Stichprobe von Trainingsdaten abzuschätzen. Je einfacher das Modell in der Praxis ist, desto weniger Probleme haben wir bei der Schätzung der Parameter, sodass die Tendenz zur Überanpassung geringer ist und wir in der Praxis bessere Ergebnisse erzielen.
Ein weiteres Problem ist die Feature-Auswahl. Die Ridge-Regression vermeidet eine Überanpassung, indem die Gewichte reguliert werden, um sie klein zu halten. Die Modellauswahl ist einfach, da Sie nur den Wert eines einzelnen Regressionsparameters auswählen müssen. Wenn Sie versuchen, eine Überanpassung zu vermeiden, indem Sie den optimalen Satz von Merkmalen auswählen, wird die Modellauswahl schwierig, da für jedes Merkmal ein Freiheitsgrad (eine Art) besteht, mit dem Sie das Merkmalauswahlkriterium überanpassen können Am Ende stehen eine Reihe von Funktionen zur Verfügung, die für diese bestimmte Datenprobe optimal sind, jedoch eine schlechte Generalisierungsleistung bieten. Wenn Sie die Feature-Auswahl nicht durchführen und die Regularisierung nicht verwenden, kann dies häufig zu einer besseren Prognoseleistung führen.
Ich verwende oft Bagging (bilden Sie ein Komitee von Modellen, die auf bootstraped Samples aus dem Trainingssatz trainiert wurden) mit Ridge-Regression-Modellen, was häufig zu einer Leistungsverbesserung führt. Da alle Modelle linear sind, können Sie sie kombinieren, um ein einziges lineares Modell zu bilden Es gibt also keine Leistungseinbußen im Betrieb.
Die Ridge-Regression ist, wie der Name schon sagt, eher eine Methode zur Regression als zur Klassifikation. Vermutlich verwenden Sie einen Schwellenwert, um ihn in einen Klassifikator zu verwandeln. In jedem Fall lernen Sie einfach einen linearen Klassifikator, der durch eine Hyperebene definiert ist. Der Grund, warum es funktioniert, ist, dass die vorliegende Aufgabe im Wesentlichen linear trennbar ist - dh eine einfache Hyperebene ist alles, was zum Trennen der Klassen erforderlich ist. Der "ridge" -Parameter ermöglicht es, in Fällen zu arbeiten, die nicht vollständig linear trennbar sind, oder bei Problemen, bei denen der Rang fehlt (in diesem Fall wäre die Optimierung degeneriert).
In diesem Fall gibt es keinen Grund, warum andere Klassifizierer ebenfalls keine gute Leistung erbringen sollten, vorausgesetzt, sie wurden korrekt implementiert. Zum Beispiel findet die SVM die "optimale Trennungs-Hyperebene" (dh die Hyperebene, die den Rand oder die Lücke zwischen den Klassen maximiert). Der
C
Parameter des SVM ist ein Kapazitätssteuerungsparameter, der dem Kammparameter analog ist und einige Fehlklassifizierungen (Ausreißer) zulässt. Unter der Annahme, dass der Parameterauswahlprozess sorgfältig durchgeführt wurde, würde ich erwarten, dass die beiden Methoden auf einem solchen Datensatz fast genau die gleichen Ergebnisse liefern.quelle