Wann ist eine logistische Regression sinnvoll?

12

Ich unterrichte mich derzeit selbst in der Klassifizierung und beschäftige mich speziell mit drei Methoden: Unterstützung von Vektormaschinen, neuronalen Netzwerken und logistischer Regression. Ich versuche zu verstehen, warum die logistische Regression jemals besser abschneiden würde als die beiden anderen.

Nach meinem Verständnis der logistischen Regression besteht die Idee darin, eine logistische Funktion an die gesamten Daten anzupassen. Wenn meine Daten also binär sind, sollten alle meine Daten mit der Bezeichnung 0 dem Wert 0 (oder in der Nähe davon) zugeordnet werden, und alle meine Daten mit dem Wert 1 sollten dem Wert 1 (oder in der Nähe davon) zugeordnet werden. Da die logistische Funktion kontinuierlich und reibungslos ist, müssen für die Ausführung dieser Regression alle meine Daten an die Kurve angepasst werden. Datenpunkten nahe der Entscheidungsgrenze wird keine größere Bedeutung beigemessen, und alle Datenpunkte tragen unterschiedlich stark zum Verlust bei.

Bei Unterstützungsvektormaschinen und neuronalen Netzen sind jedoch nur die Datenpunkte in der Nähe der Entscheidungsgrenze wichtig. Solange sich ein Datenpunkt auf derselben Seite der Entscheidungsgrenze befindet, trägt er zum selben Verlust bei.

Warum sollte die logistische Regression die Unterstützung von Vektormaschinen oder neuronalen Netzen jemals übertreffen, da sie "Ressourcen verschwendet", wenn versucht wird, eine Kurve an viele unwichtige (leicht zu klassifizierende) Daten anzupassen, anstatt sich nur auf die schwierigen Daten zu konzentrieren, die die Entscheidung umgeben Grenze?

Karnivaurus
quelle
5
LR gibt Ihnen Wahrscheinlichkeitsschätzungen, während SVM binäre Schätzungen gibt. Dies macht LR auch dann nützlich, wenn zwischen den Klassen keine getrennte Hyperebene besteht. Außerdem müssen Sie die Komplexität der Algorithmen und andere Merkmale wie Anzahl der Parameter und Empfindlichkeit berücksichtigen.
Bar
1
Verwandte: stats.stackexchange.com/questions/127042/…
Sycorax sagt Reinstate Monica

Antworten:

28

(Y=1|X) für zwingende Argumente zugunsten des probabilistischen Denkens.

Y

Y

Einige Analysten gehen davon aus, dass die logistische Regression eine Linearität der Vorhersageeffekte auf der Skala der logarithmischen Quoten voraussetzt. Dies traf nur zu, als DR Cox 1958 das Logistikmodell erfand, als es nicht möglich war, das Modell mithilfe von Tools wie Regressionssplines zu erweitern. Die einzige echte Schwäche der logistischen Regression besteht darin, dass Sie angeben müssen, welche Interaktionen im Modell zulässig sein sollen. Für die meisten Datensätze wird dies zu einer Stärke, da die additiven Haupteffekte im Allgemeinen viel stärkere Prädiktoren als Interaktionen sind und Methoden des maschinellen Lernens, die Interaktionen die gleiche Priorität einräumen, instabil und schwer zu interpretieren sein können und größere Stichproben als eine logistische Regression zur Vorhersage erfordern Gut.

Frank Harrell
quelle
6
+1. Um ehrlich zu sein, ich habe SVMs nie als nützlich empfunden. Sie sind sexy, aber sie trainieren und punkten nur langsam - meiner Erfahrung nach - und haben viele Möglichkeiten, mit denen Sie spielen müssen (einschließlich des Kernels). Neuronale Netze haben sich als nützlich erwiesen, aber auch viele Optionen und Anpassungen. Die logistische Regression ist einfach und liefert einigermaßen gut kalibrierte Ergebnisse. Die Kalibrierung ist wichtig für den Einsatz in der Praxis . Der Nachteil ist natürlich, dass es linear ist und daher nicht für clusterartige, klumpige Daten sowie andere Methoden wie Random Forest geeignet ist.
Wayne
1
Gute Antwort. By the way, können Sie daran interessiert sein zu wissen , dass vor kurzem der Maschinen Lernenden kommen , um zu pass ihre Phantasie Methoden in traditionelle Frameworks wie Maximum - Likelihood bestraft - und es stellt sich die Phantasie Methoden Arbeit viel besser , wenn dies geschehen ist. Betrachten Sie XGBoost, den wahrscheinlich effektivsten Algorithmus zur Steigerung des Baumensembles, den es gibt. Die Mathematik ist hier: xgboost.readthedocs.io/en/latest/model.html . Es sollte für einen traditionellen Statistiker recht vertraut sein, und Sie können Modelle für viele gängige statistische Zwecke mit den üblichen Verlustfunktionen ausstatten.
Paul
5

Sie haben Recht, als Klassifikator ist die logistische Regression häufig schlecht (insbesondere im Vergleich zu anderen Algorithmen). Dies bedeutet jedoch nicht, dass die logistische Regression vergessen und nie untersucht werden sollte, da sie zwei große Vorteile hat:

  1. Probabilistische Ergebnisse. Frank Harrell (+1) hat dies in seiner Antwort sehr gut erklärt.

  2. Y=1X1=12X2,...Xp

TrynnaDoStat
quelle
5
Die scheinbar schlechte Leistung als Klassifikator resultiert aus der Verwendung einer falschen Genauigkeitsbewertung und ist kein Problem der logistischen Regression.
Frank Harrell
@FrankHarrell: Ich habe in letzter Zeit einige Experimente durchgeführt und ich würde sagen, dass die logistische Regression Daten mit einer viel geringeren Freiheit einfügt als andere Methoden. Sie müssen Interaktionen hinzufügen und mehr Funktionen entwickeln, um beispielsweise die Flexibilität einer zufälligen Gesamtstruktur oder eines GAM zu erreichen. (Flexibilität ist natürlich das Drahtseil, das den Abgrund der Überanpassung überquert.)
Wayne
3
@wayne Diese weniger Freiheit, wie Sie sagen, ist in vielen Fällen sehr hilfreich, weil sie Stabilität bietet
rapaio
3
Die Annahme, dass Interaktionsterme weniger wichtig sind als additive Terme, erhöht nicht nur die Flexibilität, sondern Sie können die Annahmen auf viele Arten lockern. Ich füge mehr dazu in meiner ursprünglichen Antwort hinzu.
Frank Harrell
2
@rapaio: Ja, Flexibilität ist gefährlich, sowohl in Bezug auf Überanpassung als auch auf andere Weise. Es ist ein Domain- / Nutzungsproblem: Sind Ihre Daten verrauscht oder ist es wirklich "klumpig / clusterartig", wenn ich diesen Begriff verwenden darf?
Wayne