Warum erzeugt die logistische Regression gut kalibrierte Modelle?

Ich verstehe, dass einer der Gründe, warum die logistische Regression häufig zur Vorhersage der Klickraten im Web verwendet wird, darin besteht, dass gut kalibrierte Modelle erstellt werden. Gibt es dafür eine gute mathematische Erklärung?

regression logistic lsankar4033
quelle

logistische Regression zur Vorhersage von Wahrscheinlichkeiten -> die zu kalibrierten Vorhersagen führen, wenn sie nicht überanpassen. Während die meisten Modelle des maschinellen Lernens keine Wahrscheinlichkeiten vorhersagen, sondern eine Klasse - und es gibt eine gewisse Verzerrung der aus diesen Vorhersagen abgeleiteten

Pseudowahrscheinlichkeiten

Ich hätte die Frage klären sollen, aber meine Frage war eher, warum LR für die Vorhersage von Wahrscheinlichkeiten so nützlich ist.

lsankar4033

Es ist erwähnenswert, dass Sie einfach eine logistische Regression an die Ausgabe eines schlecht kalibrierten Klassifikators anpassen können, um ein kalibriertes Modell zu erhalten. Dies nennt man Platt Scaling en.wikipedia.org/wiki/Platt_scaling

generic_user

Antworten:

Ja.

Der vorhergesagte Wahrscheinlichkeitsvektor aus der logistischen Regression erfüllt die Matrixgleichung $p$

{X.}^{t} (p - - y) = 0

$X^t(p - y) = 0$

Dabei ist die Entwurfsmatrix und der Antwortvektor. Dies kann als eine Sammlung linearer Gleichungen angesehen werden, die sich aus jeder Spalte der Entwurfsmatrix . $X$ $y$ $X$

Spezialisiert auf die Intercept-Spalte (die eine Zeile in der transponierten Matrix ist) ist die zugehörige lineare Gleichung

\sum_{ich} (p_{ich} - - y_{ich}) = 0

$\sum_i( p_i - y_i) = 0$

Die vorhergesagte Gesamtwahrscheinlichkeit des Durchschnitts ist also gleich dem Durchschnitt der Antwort.

Allgemeiner ist für eine binäre Merkmalsspalte die zugehörige lineare Gleichung $x_{ij}$

\sum_{i} x_{i j} (p_{i} - y_{i}) = \sum_{i ∣ x_{i j} = 1} (p_{i} - y_{i}) = 0

$\sum_i x_{ij}(p_i - y_i) = \sum_{i \mid x_{ij} = 1}(p_i - y_i) = 0$

Die Summe (und damit der Durchschnitt) der vorhergesagten Wahrscheinlichkeiten entspricht also der Summe der Antworten, selbst wenn sie sich auf die Datensätze spezialisiert haben, für die $x_{ij} = 1$

Matthew Drury
quelle

p

$p$

1 / (1 + \exp (- x))

$1/(1+\exp(-x))$

Ja, p hat diese Form. Die erste Gleichung ergibt sich aus dem Setzen der Ableitung der Verlustfunktion auf Null.

Matthew Drury

Dies betrifft nur die Kalibrierung im Großen, was nicht das ist, was wir wollen: die Kalibrierung im Kleinen.

Frank Harrell

@FrankHarrell Möchtest du das näher erläutern? Ich habe diese Begriffe noch nie gehört.

Matthew Drury

Die Wahrscheinlichkeitsprognoseliteratur des US-Wetterdienstes 1950 hat eine lange Geschichte - hier wurde erstmals der Brier-Score verwendet. Calibration-in-the-Small bedeutet, dass bei Betrachtung der vorhergesagten Risiken von 0,01, 0,02, ..., 0,99 jedes dieser Risiken genau ist, dh für alle Zeiten, in denen das vorhergesagte Risiko 0,4 betrug, das Ergebnis etwa 0,4 von betrug die Zeit. Ich nenne "Kalibrierung im Winzling" den nächsten Schritt: Für Männer, bei denen die Vorhersage 0,4 war, war das Ergebnis 0,4 der Zeit vorhanden, dann für Frauen.

Frank Harrell

Ich denke, ich kann Ihnen eine leicht verständliche Erklärung wie folgt geben:

J. (θ) = - - \frac{1}{m} \sum_{ich = 1}^{m} [y^{(ich)} Log (h_{θ} (x^{(ich)})) + (1 - - y^{(ich)}) Log (1 - - h_{θ} (x^{(ich)}))]]

$J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right]$
m

y^{(i)}

$y^{(i)}$

h_{θ} (x^{(i)})

$h_{\theta}(x^{(i)})$ die vorhergesagte Wahrscheinlichkeit der i-ten Stichprobe:

\frac{1}{1 + \exp [- α - \sum_{j} θ_{j} x_{j}^{(i)}]}

$\frac{1}{1+\exp[-\alpha -\sum_j \theta_j x^{(i)}_j]}$ . (Beachten Sie die Voreingenommenheit

α

$\alpha$ Hier)

Da das Ziel des Trainings darin besteht, die Verlustfunktion zu minimieren, lassen Sie uns ihre partielle Ableitung in Bezug auf jeden Parameter bewerten $\theta_j$ (Die detaillierte Ableitung finden Sie hier ):

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{1}{m} \sum_{i = 1}^{m} [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)}

$\frac{\partial J(\theta)}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$
And setting it to zero yeils:

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{j}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{j}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_j^{(i)}=\sum_{i=1}^m y^{(i)}\,x_j^{(i)}$

That means that if the model is fully trained, the predicted probabilities we get for the training set spread themselves out so that for each feature the sum of the weighted (all) values of that feature is equal to the sum of the values of that feature of the positive samples.

The above fits every feature so as the bias $\alpha$ . Setting $x_0$ as 1 and $\alpha$ as $\theta_0$ yeilds:

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{0}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{0}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_0^{(i)}=\sum_{i=1}^m y^{(i)}\,x_0^{(i)}$ Then we get:

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)=\sum_{i=1}^m y^{(i)}$ Where

h_{θ} (x^{(i)})

$h_\theta\left(x^{(i)}\right)$ is the predicted probability of the fully trained model for the ith sample. And we can write the function in a compact way:

\sum_{i = 1}^{m} p^{(i)} = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m p^{(i)} =\sum_{i=1}^m y^{(i)}$

Wir können offensichtlich sehen, dass die logistische Regression gut kalibriert ist.

Referenz: Log-lineare Modelle und bedingte Zufallsfelder von Charles Elkan

Lerner Zhang
quelle