Ich habe selbst maschinell gelernt. Ich bin auf diesen Abschnitt der Wikipedia-Seite über logistische Regression gestoßen , in dem behauptet wird
Weil das Modell als verallgemeinertes lineares Modell (siehe unten) für 0 ausgedrückt werden kann
Es scheint mir, dass ich ein logistisches Regressions-Setup in ein lineares Regressions-Setup umwandeln kann. Aber ich kann nicht sehen, wie das geht. Ich verstehe nicht, was bedeutet. Vielleicht ist das der Trick?
regression
logistic
Kirakun
quelle
quelle
Antworten:
Die Sigmoidfunktion im logistischen Regressionsmodell schließt die Verwendung der engen algebraischen Parameterschätzung wie bei gewöhnlichen kleinsten Quadraten (OLS) aus. Stattdessen werden nichtlineare Analysemethoden wie Gradientenabstieg oder Newtonsche Methode verwendet, um die Kostenfunktion des Formulars zu minimieren :
Entsprechend können wir die Wahrscheinlichkeitsfunktion maximieren als:
Der Satz, den Sie zitieren, bezieht sich jedoch meines Erachtens auf den relativ linearen Teil der Sigmoidfunktion:
Das logistische Regressionsmodell lautet:
oder,
Daher ist dies "nah genug" an einem OLS-Modell ( ), um als solches geeignet zu sein und die Parameter in geschlossener Form zu schätzen, vorausgesetzt, die Wahrscheinlichkeit von (denken Sie an die Bernoulli-Modellierung der Antwortvariablen in der logistischen Regression) liegt nicht nahe bei oder . Mit anderen Worten, während in Gl. * hält sich von den asymptotischen Regionen fern.y =Θ⊤X + ϵ y = 1 0 1 Log(p( Y.= 1 )1- -p( Y.= 1 ))
Siehe zum Beispiel diesen interessanten Eintrag in Statistical Horizons , den ich mit dem
mtcars
Datensatz in R testen wollte . Die Variable für das Automatikgetriebeam
ist binär, sodass wir sie über Meilen pro Gallone zurückführen könnenmpg
. Können wir vorhersagen, dass ein Automodell aufgrund seines Gasverbrauchs ein Automatikgetriebe hat?Wenn ich weitermache und nur das Problem mit OLS-Schätzungen durchpflüge, erhalte ich eine Vorhersagegenauigkeit von nur auf diesem einzelnen Prädiktor basiert. Und rate was? Ich erhalte genau die gleiche Verwirrungsmatrix und Genauigkeitsrate, wenn ich eine logistische Regression anpasse.75 %
Die Sache ist, dass die Ausgabe von OLS nicht binär, sondern kontinuierlich ist und versucht, die realen binären Werte zu schätzen. Sie liegen typischerweise zwischen und , ähnlich wie Wahrscheinlichkeitswerte, obwohl sie nicht wie bei der logistischen Regression streng begrenzt sind ( Sigmoidfunktion).y 0 1
Hier ist der Code:
Die Frequenz von automatischen v manuellen Autos ist ziemlich ausgewogen, und das OLS-Modell ist als Perzeptron gut genug:
quelle
Sie interpretieren die von Ihnen zitierte Aussage falsch. Ein verallgemeinertes lineares Modell (normalerweise durch maximale Wahrscheinlichkeit geschätzt) ist kein Problem der kleinsten Quadrate *.
Siehe zum Beispiel die Wikipedia-Seite Verallgemeinertes lineares Modell .
Die Wahrscheinlichkeit wird jedoch häufig als Folge linearer Approximationen der kleinsten Quadrate gelöst - iterativ neu gewichtete kleinste Quadrate (ähnlich einem üblichen Ansatz für nichtlineare Probleme der kleinsten Quadrate).
In der Praxis wird daher häufig eine Folge von Problemen mit gewichteten kleinsten Quadraten gelöst, um die Parameterschätzungen zu erhalten. Diese werden erhalten, indem mit einer ungefähren Schätzung begonnen wird (es gibt einige Standardmethoden, um diese zu erhalten) und dann Arbeitsantwortwerte und Gewichte für eine lineare Annäherung an das Modell konstruiert werden, das durch gewichtete kleinste Quadrate angepasst wird, wodurch neue Schätzungen erhalten werden, die wiederum verwendet werden die Arbeitsantwortwerte und -gewichte zu aktualisieren; Dieser Zyklus wird mehrmals wiederholt.
Dies ist nicht die einzige Möglichkeit, diese Modelle anzupassen, sondern eine, die von einer Reihe von Statistikpaketen verwendet wird.
* (NB nicht zu verwechseln mit einem allgemeinen linearen Modell , dessen Schätzung als Form der kleinsten Quadrate oder mit verallgemeinerten kleinsten Quadraten gegossen werden kann)
quelle