Warum wird die logistische Regressionshypothese als Wahrscheinlichkeitsfunktion angesehen?

7

Warum wird die logistische Regressionshypothese als Wahrscheinlichkeitsfunktion angesehen?

Ich verstehe, dass wir es verwenden, um 0 oder 1 vorherzusagen, aber warum kann eine Funktion (die Hypothese), die Zahlen zwischen 0 und 1 ausgibt, als Wahrscheinlichkeitsfunktion betrachtet werden?

Ist das eine Heuristik?

user_anon
quelle
Dieser Beitrag kann hilfreich sein. Überprüfen Sie die akzeptierte Antwort. stats.stackexchange.com/questions/229645/…
Haitao Du

Antworten:

9

Nein, es ist nicht nur eine Heuristik.

Die logistische Regression ist ein besonderer Fall eines verallgemeinerten linearen Modells (GLM), in diesem Fall für einen Prozess, bei dem die Antwortvariable bedingt Bernoulli (oder allgemeiner Binomial ) ist.

Ein GLM enthält eine Spezifikation eines Modells für das bedingte Mittel der Antwort. Im Fall einer Bernoulli-Variablen ist ihr bedingter Mittelwert der Parameterpi, das ist explizit die Wahrscheinlichkeit, dass die Antwort, Yi ist 1. Es wird anhand eines oder mehrerer Prädiktoren modelliert. Hier ist das Modell für den Mittelwert für einen einzelnen Prädiktor:xi::

P(Yi=1|xi)=exp(β0+β1xi)1+exp(β0+β1xi)

Es ist also (absichtlich) ein Modell für die Wahrscheinlichkeit, dass die Antwort ist1gegeben angesichts des Wertes der Prädiktoren.

Die Form der Verknüpfungsfunktion η=log(p/(1p)) (und seine Umkehrung p=exp(η)/(1+exp(η))) ist auch kein Zufall - der Logit-Link (was ihn zur logistischen Regression macht) ist die natürliche (oder kanonische ) Link-Funktion für eine Binomialantwort. Andere Auswahlmöglichkeiten für die Verknüpfungsfunktion sind möglich (und sie werden auch Modelle für die Wahrscheinlichkeit einer 1 sein). Andere gebräuchliche Optionen für eine Binomialantwort sind das Probit und das komplementäre Log-Log, aber die Logistik ist bei weitem die häufigste.

Glen_b -State Monica
quelle
Korrigieren Sie mich, wenn ich falsch liege, aber die Funktion sollte eine richtige Bewertungsregel sein. In solchen Fällen spiegelt es die Wahrscheinlichkeit wider.
Cagdas Ozgenc
@Cagdas Das Kriterium, das bei der Schätzung von GLMs optimiert wird, ist die Wahrscheinlichkeit (obwohl MLE als Sonderfall der optimalen Score-Schätzung angesehen werden kann). Gießen Sie hier die Modellierung von Bernoulli-Variablen als Prognoseproblem?
Glen_b -Rate State Monica