Ich bin etwas neu in der Verwendung der logistischen Regression und ein bisschen verwirrt von einer Diskrepanz zwischen meinen Interpretationen der folgenden Werte, die ich für gleich gehalten hätte:
- potenzierte Beta-Werte
- vorhergesagte Wahrscheinlichkeit des Ergebnisses anhand von Beta-Werten.
Hier ist eine vereinfachte Version des von mir verwendeten Modells, bei dem Unterernährung und Versicherung beide binär sind und der Wohlstand kontinuierlich ist:
Under.Nutrition ~ insurance + wealth
Mein (tatsächliches) Modell gibt für Versicherungen einen potenzierten Beta-Wert von 0,8 zurück, den ich folgendermaßen interpretieren würde:
"Die Wahrscheinlichkeit, für eine versicherte Person unterernährt zu sein, ist das Achtfache der Wahrscheinlichkeit, für eine nicht versicherte Person unterernährt zu sein."
Wenn ich jedoch die Wahrscheinlichkeitsdifferenz für Einzelpersonen durch Eingabe der Werte 0 und 1 in die Versicherungsvariable und den Mittelwert für das Vermögen berechne, beträgt die Unterernährungsdifferenz nur 0,04. Das wird wie folgt berechnet:
Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
(1+exp(β0 + β1*Insurance + β2*wealth))
Ich würde es wirklich begrüßen, wenn jemand erklären könnte, warum diese Werte unterschiedlich sind und was eine bessere Interpretation (insbesondere für den zweiten Wert) sein könnte.
Weitere Änderungen zur Klärung
Nach meinem Verständnis ist die Wahrscheinlichkeit, dass eine nicht versicherte Person unterernährt ist (wobei B1 der Versicherung entspricht):
Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
(1+exp(β0 + β1*0+ β2*wealth))
Während die Wahrscheinlichkeit, dass eine versicherte Person unterernährt ist, ist:
Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
(1+exp(β0 + β1*1+ β2*wealth))
Die Wahrscheinlichkeit, für eine nicht versicherte Person unterernährt zu sein, ist im Vergleich zu einer versicherten Person:
exp(B1)
Gibt es eine Möglichkeit, zwischen diesen Werten (mathematisch) zu übersetzen? Ich bin immer noch ein bisschen verwirrt von dieser Gleichung (wo ich wahrscheinlich einen anderen Wert in der RHS haben sollte):
Prob(Ins) - Prob(Unins) != exp(B)
Die Frage ist für Laien, warum sich die Wahrscheinlichkeit, unterernährt zu werden, nicht so stark ändert, wie es die Odds Ratio angibt. In meinen Daten ist Prob (Ins) - Prob (Unins) = .04, wobei der potenzierte Beta-Wert .8 ist (also warum ist der Unterschied nicht .2?)
Antworten:
Es erscheint mir selbstverständlich, dass sei denn, . Mir ist also weniger klar, was die Verwirrung sein könnte. Was ich sagen kann ist, dass die linke Seite (LHS) des (nicht) Gleichheitszeichens die Wahrscheinlichkeit einer Unterernährung darstellt, während die RHS die Wahrscheinlichkeit einer Unterernährung darstellt. Bei alleiniger ist die Quote , der multiplikative Faktor, mit dem Sie von der Quote ( ) zur Quote ( ) wechseln können .
Lassen Sie mich wissen, wenn Sie zusätzliche / abweichende Informationen benötigen.
Update:
Ich denke, dies ist hauptsächlich ein Problem, das darin besteht, die Wahrscheinlichkeiten und Chancen und ihre Beziehung zueinander nicht zu kennen. Nichts davon ist sehr intuitiv. Sie müssen sich hinsetzen und eine Weile damit arbeiten und lernen , in diesen Begriffen zu denken. es ist für niemanden selbstverständlich.
Das Problem ist, dass absolute Zahlen für sich genommen sehr schwer zu interpretieren sind. Sagen wir, ich erzählte Ihnen von einer Zeit, als ich eine Münze hatte, und fragte mich, ob sie fair war. Also drehte ich ein paar um und bekam 6 Köpfe. Was bedeutet das? Ist 6 viel, ein bisschen ungefähr richtig? Es ist schrecklich schwer zu sagen. Um dieses Problem zu lösen, möchten wir den Zahlen einen Kontext geben. In einem Fall wie diesem gibt es zwei offensichtliche Möglichkeiten, um den erforderlichen Kontext bereitzustellen: Ich könnte die Gesamtzahl der Flips angeben, oder ich könnte die Anzahl der Schwänze angeben. In beiden Fällen verfügen Sie über ausreichende Informationen, um einen Sinn für 6 Köpfe zu ergeben, und Sie können den anderen Wert berechnen, wenn der von mir angegebene nicht der von Ihnen bevorzugte ist. Die Wahrscheinlichkeit ist die Anzahl der Köpfe geteilt durch die Gesamtanzahl der Ereignisse. Die Quote ist das Verhältnis der Anzahl der Köpfe zur Anzahl derNicht-Köpfe (intuitiv wollen wir die Anzahl der Schwänze sagen, was in diesem Fall funktioniert, aber nicht, wenn es mehr als 2 Möglichkeiten gibt). Mit der Quote ist es möglich, beide Zahlen anzugeben, z. B. 4 bis 5. Dies bedeutet, dass auf lange Sicht 4-mal pro 5-mal, wenn dies nicht der Fall ist, etwas passiert. Wenn die Gewinnchancen auf diese Weise angezeigt werden, werden sie als " Las Vegas-Gewinnchancen " bezeichnet. In der Statistik teilen wir jedoch in der Regel durch und sagen, dass die Gewinnchancen für Standardisierungszwecke 0,8 betragen (dh 4/5 = 0,8). Wir können auch zwischen den Quoten und Wahrscheinlichkeiten konvertieren:
Es ist wichtig, aus all diesen Gleichungen zu erkennen, dass Wahrscheinlichkeiten, Chancen und Quotenverhältnisse nicht auf einfache Weise gleich sind. Nur weil die Wahrscheinlichkeit um 0,04 steigt, heißt das noch lange nicht , dass die Quote oder das Quotenverhältnis etwa 0,04 betragen sollte! Darüber hinaus reichen die Wahrscheinlichkeiten von , während die Wahrscheinlichkeit (die Ausgabe aus der logistischen Regressionsgleichung) von und die Wahrscheinlichkeit und die Wahrscheinlichkeitsverhältnisse von reichen können. . Dieser letzte Teil ist von entscheidender Bedeutung: Aufgrund des begrenzten Bereichs von Wahrscheinlichkeiten sind Wahrscheinlichkeiten nicht linear , aber die Chancen können linear sein. Das heißt, als (zum Beispiel)[0,1] (−∞,+∞) (0,+∞)
wealth
steigt die Wahrscheinlichkeit von Unterernährung in konstanten Schritten, steigt die Wahrscheinlichkeit von Unterernährung in variierenden Mengen, die Wahrscheinlichkeit steigt jedoch um einen konstanten Betrag und die Wahrscheinlichkeit steigt um einen konstanten multiplikativen Faktor. Für einen bestimmten Satz von Werten in Ihrem logistischen Regressionsmodell kann es einen Punkt geben, an dem für einige gegebene und , aber es wird überall anders ungleich sein. xx'(Auch wenn es im Zusammenhang mit einer anderen Frage geschrieben wurde, ist meine Antwort hier enthält viele Informationen über die logistische Regression , die ausführlicher in dem Verständnis LR und damit zusammenhängenden Fragen für Sie hilfreich sein kann.)
quelle
Nun, die Antwort ist einfach, wenn Sie bereit sind, alle Variablen konstant zu halten und eine Variable zu variieren. Es wird jedoch ein wenig kompliziert, sobald jede Variable variiert. Sie können folgenden Beitrag betrachten, es kann helfen http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/
quelle
Odds Ratio OR = Exp (b) übersetzt in Wahrscheinlichkeit A = SQRT (OR) / (SQRT (OR) +1), wobei Wahrscheinlichkeit A die Wahrscheinlichkeit von Ereignis A ist und OR das Verhältnis von eintretendem Ereignis A / nicht eintretendem Ereignis A ist (oder) durch Versicherung exponiert / nicht exponiert wie in der obigen Frage). Es dauerte eine ganze Weile, bis ich es gelöst hatte. Ich bin mir nicht sicher, warum diese Formel nicht bekannt ist.
Es gibt ein Beispiel. Angenommen, es sind 10 Personen an der Universität zugelassen. 7 von ihnen sind Männer. Also, für jeden Mann ist es 70% Wahrscheinlichkeit, zugelassen zu werden. Die Quoten für Männer sind 7/3 = 2.33 und nicht 3/7 = 0.43. Das Odds Ratio (OR) beträgt 2,33 / 0,43 = 5,44, was bedeutet, dass Männer eine 5,44-fach höhere Chance haben, als Frauen zugelassen zu werden. Finden wir die Eintrittswahrscheinlichkeit für den Menschen aus OR: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7
Update Dies gilt nur, wenn die Anzahl der zugelassenen Männer oder Frauen der Anzahl der Bewerber entspricht. Mit anderen Worten, es ist kein ODER. Wir können nicht herausfinden, ob der Wahrscheinlichkeitsgewinn (oder -verlust) vom Faktor abhängt, ohne zusätzliche Informationen zu kennen.
quelle