Logistische Regressionsausgabe und Wahrscheinlichkeit [doppelt]

9

Wie ist die Interpretation der Zahl, die die logistische Regressionsfunktion ausgibt?

Die logistische Funktion

f(x)=11+eg(x)

(wobei eine lineare Funktion ist) soll eine kontinuierliche Variable (oder allgemeiner eine ganze Reihe vollständig geordneter Variablen) zwischen 0 und 1 abbilden.g

Ich habe immer angenommen, dass es die Wahrscheinlichkeit ist, in den einen oder anderen Satz aufgenommen zu werden. Der Bereich ist (naja, vielleicht nicht 0 und 1), was eine Wahrscheinlichkeit ist. Und ehrlich gesagt alles zwischen 0 und 1, was könnte es anders sein als eine Wahrscheinlichkeit.[0,1]

Aber als ich die Kurve betrachtete, begann ich zu zweifeln. Ich fragte mich, ob es unbedingt als Wahrscheinlichkeit zu interpretieren ist. Es sieht aus wie eine Wahrscheinlichkeit, aber ist es wirklich? Nur weil sie den gleichen Bereich teilen, heißt das nicht, dass sie gleich sind. Wenn , bedeutet das wirklich, dass von kleiner als ?f(x)=.7575%ff(x)

Dies könnte in zwei Richtungen gehen:

  • Angenommen, es handelt sich um eine Wahrscheinlichkeit oder genauer um die Wahrscheinlichkeit einer "wahren", "1" oder "positiven" Klassifizierung eines Punkts in der Domäne. Wie ist das gerechtfertigt?

  • Angenommen, nicht. Was ist es dann genau und warum? Wie weit ist es von einer Wahrscheinlichkeit entfernt (numerisch und konzeptionell)?

Eine andere Möglichkeit, dies zu sagen, ist das Besondere an . Warum nicht eine monoton ansteigende ungerade (ungefähr ) Funktion mit demselben Bereich wie oder (sehr nahe, aber nicht gleich der logistischen Funktion)1/(1+eg(x))y=1/2

f(x)=tan1(g(x))+π/2π
f(x)=erf(g(x))=2πxet2 dt

3 sigmoidartige Funktionen

oder offen gesagt ?

f(x)=0,if g(x)<01,if g(x)>=0
Mitch
quelle
3
Die logistische Regression soll der bedingten Wahrscheinlichkeit , aber es ist natürlich möglich, dass das Modell falsch spezifiziert ist. p(Y=1|X=x)
Gung - Reinstate Monica
1
@gung aber was sind die Gründe für eine solche Annahme? Nur die Tatsache, dass der Sigmoidwert zwischen Null und 1 liegt?
Yurii
@ Yurii, welche Annahme? Wenn die Beziehung krummlinig ist, Sie jedoch keinen krummlinigen Term einschließen, würden sich die angepassten Wahrscheinlichkeiten von den tatsächlichen Wahrscheinlichkeiten unterscheiden.
Gung - Reinstate Monica
@gung die Annahme ist, dass logistische Regression bedingte Wahrscheinlichkeit erzeugen wird, die Sie erwähnt haben
Yurii

Antworten:

4

Wie ist die Interpretation der Zahl, die die logistische Regressionsfunktion ausgibt?

Die logistische Regression, wie sie in den letzten Jahrzehnten verstanden wurde, wird explizit als Modell für Bernoulli- oder Binomialdaten (mit Erweiterungen in andere Fälle wie Multinomialdaten) verwendet, wobei das Modell für den Parameter tatsächlich eine Wahrscheinlichkeit ist.p

Die logistische Regression hat jedoch ihren Ursprung in der Modellierung des zeitlichen Wachstums eines Anteils [1] (der kontinuierlich sein kann), sodass sie in ihren Ursprüngen eine enge Verbindung zu nichtlinearen Modellen aufweist, die zu logistischen Wachstumskurven passen

Und ehrlich gesagt alles zwischen 0 und 1, was könnte es anders sein als eine Wahrscheinlichkeit.

Nun, etwas zwischen 0 und 1 könnte ein Modell sein, ein kontinuierlicher Bruchteil wie der Anteil von Substanz A in einer Mischung von Dingen. Kann eine logistische Regression so etwas modellieren? Das Modell für den Mittelwert macht Sinn, aber das Modell für die Varianz macht nicht unbedingt Sinn; In der logistischen Regression hat die Varianzfunktion die Form . Dies hängt direkt mit der Varianz eines Bernoulli zusammen.μ(1μ)

Man könnte jedoch (zum Beispiel) in Betracht ziehen, etwas wie ein Beta (dessen Varianzfunktion proportional zu ) durch ein quasi-binomiales Modell zu approximieren ; dann würden wir nicht unbedingt eine Wahrscheinlichkeit als solche modellieren, aber wir würden wahrscheinlich immer noch die logistische Regression verwenden, um dies zu tun.μ(1μ)

Während es fast immer als Modell für eine Wahrscheinlichkeit gedacht ist, muss es nicht unbedingt sein.

Angenommen, es handelt sich um eine Wahrscheinlichkeit oder genauer um die Wahrscheinlichkeit einer "wahren", "1" oder "positiven" Klassifizierung eines Punkts in der Domäne. Wie ist das gerechtfertigt?

Ich verstehe die Frage hier nicht. Wenn es explizit ein Modell für in einem Bernoulli ist, welche zusätzliche Rechtfertigung suchen Sie? Natürlich kann die Link-Funktion falsch sein (obwohl dies keine große Schwierigkeit ist - da andere Links verwendet werden könnten - würden wir keine logistische Regression mehr durchführen).p

[1]: Cramer, JS (2002),
"The Origins of Logistic Regression",
Tinbergen Institute, Dezember
http://papers.tinbergen.nl/02119.pdf

Glen_b -State Monica
quelle
1
Ich denke, ich versuche zu verstehen, warum andere ähnlich geformte Kurven keine Maßstäbe für die Wahrscheinlichkeit sind. Wie oder die CDF der normalen Kurve? f(2x)=tanh(x)+12
Mitch
1
Die Verwendung der CDF einer normalen Kurve ist explizit keine logistische Regression, da keine logistische Funktion verwendet wird. Modelle, die die normale CDF verwenden, werden als Probit bezeichnet. Eine weitere Art von -obit-Modell ist der Robit, der die Cauchy-CDF verwendet.
Sycorax sagt Reinstate Monica
@Mitch Sie sind! Die Probit-Link-Funktion wird beispielsweise häufig anstelle des Logits in Bernoulli (/ binomial) glms verwendet (und ist nicht die einzige; viele Statistikpakete bieten die Komplementär-Log-Log-Link-Funktion, bei der es sich um ein weiteres PDF handelt). Ich bin mir ziemlich sicher, dass Ihre bearbeitete Frage jetzt ein Duplikat ist.
Glen_b -State Monica