Ich verstehe, dass einer der Gründe, warum die logistische Regression häufig zur Vorhersage der Klickraten im Web verwendet wird, darin besteht, dass gut kalibrierte Modelle erstellt werden. Gibt es dafür eine gute mathematische Erklärung?
regression
logistic
lsankar4033
quelle
quelle
Antworten:
Ja.
Der vorhergesagte Wahrscheinlichkeitsvektor aus der logistischen Regression erfüllt die Matrixgleichungp
Dabei ist die Entwurfsmatrix und y der Antwortvektor. Dies kann als eine Sammlung linearer Gleichungen angesehen werden, die sich aus jeder Spalte der Entwurfsmatrix X ergeben .X. y X.
Spezialisiert auf die Intercept-Spalte (die eine Zeile in der transponierten Matrix ist) ist die zugehörige lineare Gleichung
Die vorhergesagte Gesamtwahrscheinlichkeit des Durchschnitts ist also gleich dem Durchschnitt der Antwort.
Allgemeiner ist für eine binäre Merkmalsspalte die zugehörige lineare Gleichungxij
Die Summe (und damit der Durchschnitt) der vorhergesagten Wahrscheinlichkeiten entspricht also der Summe der Antworten, selbst wenn sie sich auf die Datensätze spezialisiert haben, für diexij=1
quelle
Ich denke, ich kann Ihnen eine leicht verständliche Erklärung wie folgt geben:
m
Da das Ziel des Trainings darin besteht, die Verlustfunktion zu minimieren, lassen Sie uns ihre partielle Ableitung in Bezug auf jeden Parameter bewertenθj (Die detaillierte Ableitung finden Sie hier ):
∂J.( θ )∂θj=1m∑i=1m[hθ(x(i))−y(i)]x(i)j
∑i=1mhθ(x(i))x(i)j=∑i=1my(i)x(i)j
And setting it to zero yeils:
That means that if the model is fully trained, the predicted probabilities we get for the training set spread themselves out so that for each feature the sum of the weighted (all) values of that feature is equal to the sum of the values of that feature of the positive samples.
The above fits every feature so as the biasα . Setting x0 as 1 and α as θ0 yeilds:
∑i=1mhθ(x(i))x(i)0=∑i=1my(i)x(i)0
Then we get:
∑i=1mhθ(x(i))=∑i=1my(i)
Where hθ(x(i)) is the predicted probability of the fully trained model for the ith sample. And we can write the function in a compact way:
∑i=1mp(i)=∑i=1my(i)
Wir können offensichtlich sehen, dass die logistische Regression gut kalibriert ist.
Referenz: Log-lineare Modelle und bedingte Zufallsfelder von Charles Elkan
quelle