Ich unterrichte mich derzeit selbst in der Klassifizierung und beschäftige mich speziell mit drei Methoden: Unterstützung von Vektormaschinen, neuronalen Netzwerken und logistischer Regression. Ich versuche zu verstehen, warum die logistische Regression jemals besser abschneiden würde als die beiden anderen.
Nach meinem Verständnis der logistischen Regression besteht die Idee darin, eine logistische Funktion an die gesamten Daten anzupassen. Wenn meine Daten also binär sind, sollten alle meine Daten mit der Bezeichnung 0 dem Wert 0 (oder in der Nähe davon) zugeordnet werden, und alle meine Daten mit dem Wert 1 sollten dem Wert 1 (oder in der Nähe davon) zugeordnet werden. Da die logistische Funktion kontinuierlich und reibungslos ist, müssen für die Ausführung dieser Regression alle meine Daten an die Kurve angepasst werden. Datenpunkten nahe der Entscheidungsgrenze wird keine größere Bedeutung beigemessen, und alle Datenpunkte tragen unterschiedlich stark zum Verlust bei.
Bei Unterstützungsvektormaschinen und neuronalen Netzen sind jedoch nur die Datenpunkte in der Nähe der Entscheidungsgrenze wichtig. Solange sich ein Datenpunkt auf derselben Seite der Entscheidungsgrenze befindet, trägt er zum selben Verlust bei.
Warum sollte die logistische Regression die Unterstützung von Vektormaschinen oder neuronalen Netzen jemals übertreffen, da sie "Ressourcen verschwendet", wenn versucht wird, eine Kurve an viele unwichtige (leicht zu klassifizierende) Daten anzupassen, anstatt sich nur auf die schwierigen Daten zu konzentrieren, die die Entscheidung umgeben Grenze?
Antworten:
Einige Analysten gehen davon aus, dass die logistische Regression eine Linearität der Vorhersageeffekte auf der Skala der logarithmischen Quoten voraussetzt. Dies traf nur zu, als DR Cox 1958 das Logistikmodell erfand, als es nicht möglich war, das Modell mithilfe von Tools wie Regressionssplines zu erweitern. Die einzige echte Schwäche der logistischen Regression besteht darin, dass Sie angeben müssen, welche Interaktionen im Modell zulässig sein sollen. Für die meisten Datensätze wird dies zu einer Stärke, da die additiven Haupteffekte im Allgemeinen viel stärkere Prädiktoren als Interaktionen sind und Methoden des maschinellen Lernens, die Interaktionen die gleiche Priorität einräumen, instabil und schwer zu interpretieren sein können und größere Stichproben als eine logistische Regression zur Vorhersage erfordern Gut.
quelle
Sie haben Recht, als Klassifikator ist die logistische Regression häufig schlecht (insbesondere im Vergleich zu anderen Algorithmen). Dies bedeutet jedoch nicht, dass die logistische Regression vergessen und nie untersucht werden sollte, da sie zwei große Vorteile hat:
Probabilistische Ergebnisse. Frank Harrell (+1) hat dies in seiner Antwort sehr gut erklärt.
quelle