Analyse der logistischen Regressionskoeffizienten

12

Hier ist eine Liste der logistischen Regressionskoeffizienten (der erste ist ein Achsenabschnitt)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Ich finde es seltsam, wie niedrig der Achsenabschnitt ist und ich einen Koeffizienten habe, der eigentlich gleich 0 ist. Ich bin mir nicht ganz sicher, wie ich das interpretieren würde. Bedeutet die 0, dass die spezifische Variable überhaupt keine Auswirkung auf das Modell hat? Aber das Abfangen, das durch die Eingabe einer eigenen Spalte gemacht wird, ist plötzlich wirklich wichtig? Oder sind meine Daten nur Mist und das Modell kann nicht richtig passen.

shiu6rewgu
quelle
2
Was ist der Bereich oder die Standardabweichung Ihrer anderen Variablen? Gibt es einen großen Unterschied zwischen der Standardabweichung der Variablen mit Nullschätzung und den anderen? Sie können einen Koeffizienten von Null erwarten, wenn die Standardabweichung im Vergleich zu den anderen klein ist (numerische Genauigkeit). Intercept bedeutet im Grunde auch, dass Sie Variablen haben, die große Durchschnittswerte haben (von Null entfernt). Das Zentrieren Ihrer Variablen würde einen interpretierbareren Abschnitt ergeben und die Betas für die anderen Variablen nicht ändern (iterativer Algorithmusfehler beiseite).
Wahrscheinlichkeitslogik
1
Wenn Sie 1027 von allen Werten der sechsten Variablen subtrahieren würden, wäre Ihr Achsenabschnitt ziemlich nahe bei 0. Würden Sie sich dadurch besser fühlen? :-)
whuber
4
Wenn Sie eine Liste mit Koeffizienten wie diesen anzeigen, die überhaupt keinen Zusammenhang haben, wird wahrscheinlich gesagt: "Joe hat 31, ist das nicht viel?" ohne zu sagen 31 was . 31 Autos? Viel. 31 Kinder? Ein verdammt viel! 31 Dollar? Nicht viel.
Peter Flom - Reinstate Monica
1
In Bezug auf den Koeffizienten Null: Ich könnte dies als ein Artefakt betrachten, bei dem alle Ihre Koeffizienten in XL eingefügt werden, bevor sie hier eingefügt werden. Dies scheint mit der hohen Anzahl von Dezimalstellen übereinzustimmen, die wir im Allgemeinen sehen. Vielleicht war eine dieser XL-Zellen so eingestellt, dass sie auf ganze Zahlen rundete und die Null ergab. Ich habe solche Dinge erlebt.
Rolando2
Vielen Dank für Ihren Beitrag! Ich schätze jeden einzelnen von euch sehr! Viele meiner Fragen wurden beantwortet
shiu6rewgu

Antworten:

16


logit=β0+β1x1+β2x2+...+βkxk
e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797
Die Wahrscheinlichkeit, mit der Menschen zu tun haben, ist für gewöhnlich viel einfacher.

9.8×103050/(1+0)), gibt uns wieder 0. Ihre Ausgabe sagt Ihnen also, dass Ihr Ereignis (was auch immer es ist) einfach nicht auftritt, wenn alle Ihre Variablen gleich 0 sind. Natürlich hängt es davon ab, wovon wir sprechen, aber ich finde nichts zu bemerkenswert Dies. Eine logistische Standardregressionsgleichung (zum Beispiel ohne quadratischen Term) setzt zwangsläufig voraus, dass die Beziehung zwischen einer Kovariate und der Erfolgswahrscheinlichkeit eine der beiden ist monoton zunimmt oder monoton abnimmt. Das bedeutet, dass es immer größer und größer (oder kleiner und kleiner) wird. Wenn Sie also weit genug in eine Richtung gehen, werden Sie zu Zahlen kommen, die so klein sind, dass mein Computer sie nicht von 0 unterscheiden kann Natur des Tieres. Wenn Sie für Ihr Modell wirklich weit gehen, werden Ihre kovariaten Werte 0 sein.

Was den Koeffizienten 0 betrifft, bedeutet dies, dass diese Variable keine Auswirkung hat, wie Sie vorschlagen. Nun ist es ziemlich vernünftig, dass eine Variable keinen Effekt hat. Trotzdem erhalten Sie im Grunde nie einen Koeffizienten von genau 0. Ich weiß nicht, warum er in diesem Fall auftrat. Die Kommentare bieten einige mögliche Vorschläge. Ich kann eine andere anbieten, nämlich, dass diese Variable möglicherweise nicht variiert. Zum Beispiel, wenn Sie eine Variable hatten, die für Sex codiert, aber nur Frauen in Ihrer Stichprobe. Ich weiß nicht, ob das die richtige Antwort ist (R gibt NAin diesem Fall beispielsweise zurück , aber die Software unterscheidet sich) - es ist nur ein weiterer Vorschlag.

gung - Wiedereinsetzung von Monica
quelle
2
Beachten Sie, dass Sie die Wahrscheinlichkeit auf die Basis zehn bringen können, indem Sie die natürlichen Log-Chancen mit multiplizieren3067003746010460
10

Interpretation des Abschnitts

Sie können sich eine logistische Regression vorstellen, die Ihnen eine hintere Wahrscheinlichkeit gibt, eine „1“ zu sein. Der Achsenabschnitt stellt eine Priorisierung von Kategorien dar, die aus dem Datensatz abgeleitet wurden: Insbesondere handelt es sich um die empirische Schätzung von log (p (Y = 1) / p (Y = 0) für sich, wenn das Modell nur einen Achsenabschnitt für die Fälle in hat Die Referenzklassen, wenn es kategoriale Kovariaten gibt, und für Fälle, in denen die Kovariaten allgemeiner (aber weniger interpretierbar) bei 0 sind mit allen Kovariaten bei 0. Auch hier kann es dort keine Beobachtungen, so ist es nicht wert , sich Gedanken über die Intercept - Wert ist. Diese Diskussion ziemlich klar.

Aufgrund dieser praktischen Trennung der Bedenken zwischen den Parametern können Sie das Ungleichgewicht der Kategorien korrigieren, indem Sie an einer besser ausbalancierten Stichprobe trainieren und nur den Achsenabschnitt anpassen . Siehe King und Zeng für eine gründliche Diskussion.

Conjugateprior
quelle
Der Link zu "dieser Diskussion" scheint gestorben zu sein. Haben Sie eine Chance, diesen Link wiederherzustellen?
Alexey Grigorev
1
@ alexey-grigorev Ich habe den UCLA-Link
conjugateprior
und erhielt eine Gegenstimme. Sehr komisch.
Conjugateprior