Ich hatte einige Fragen zur Interpretation von Quotenverhältnissen für kontinuierliche Variablen in der logistischen Regression. Ich denke, dies sind grundlegende Fragen zur logistischen Regression (und wahrscheinlich zur Regression im Allgemeinen), und obwohl ich mich ein wenig schäme, dass ich die Antworten nicht kenne, werde ich meinen Stolz schlucken und sie fragen, damit ich sie kenne die Zukunft!
Hier ist meine Situation ... Ich sehe mir eine Stichprobe von Jugendlichen an, die im Rahmen ihrer Probezeit an einem Ausbildungsprogramm für berufliche und berufliche Fähigkeiten teilgenommen haben. Ich wollte wissen, inwieweit das Alter, in dem sie aus dem Programm entlassen wurden, eine Beschäftigung sechs Monate nach ihrer Entlassung aus dem Programm vorhersagte.
(Denken Sie auch daran, dass das Modell andere Prädiktoren enthält, aber ich habe sie ausgeschlossen, da sie statistisch nicht signifikant sind und ich dies so klar wie möglich halten möchte.)
Prädiktor: Alter der Entlassung aus dem Trainingsprogramm (Durchschnittsalter = 17,4, SD = 1,2, Bereich 14,3-20,5)
Ergebnis: Angestellt oder nicht (Angestellt = 1, Nicht beschäftigt = 0)
Ergebnis: Odds Ratio 3,01 (p <0,005) (Ich habe die Güte der Anpassungsstatistiken usw. ausgeschlossen, weil ich nur nach Antworten zur Interpretation des Odds Ratio suche. Ich fühle mich wohl mit der Bewertung der Modellanpassung, CIs , usw.)
In Worte gefasst: Mit zunehmendem Alter um ein Jahr steigt die Wahrscheinlichkeit, sechs Monate nach der Entlassung beschäftigt zu werden, um drei Einheiten.
Fragen:
1) Wenn ich sage: "Wenn das Alter um ein Jahr zunimmt ...", was ist der Ausgangspunkt für das Alter?
Beginnt das Alter bei Null? Beispiel: "Mit zunehmendem Alter von 0 [dh dem niedrigsten Alter, wenn Sie dieses Modell in einem Diagramm platzieren] ..."
Beginnt das Alter mit dem niedrigsten Alter unter den Altersgruppen in der Stichprobe? Zum Beispiel: "Mit zunehmendem Alter von 14,3 ..."
ODER
Beginnt das Alter mit dem Durchschnittsalter der Stichprobe? Zum Beispiel "Mit zunehmendem Alter von 17,4 ...",
2) Würde mir die Zentrierung helfen, dieses Ergebnis zu interpretieren, ODER ist das nur bei der Interpretation des y-int effektiv? Wenn es helfen würde, dachte ich daran, entweder das niedrigste Alter im Bereich von allen anderen Altersgruppen in der Stichprobe zu zentrieren oder zu subtrahieren. Irgendwelche Vorschläge?
3) Ist es schließlich angebracht zu sagen, dass ein 17-jähriger Jugendlicher im Vergleich zu einem 14-jährigen Jugendlichen neunmal häufiger beschäftigt ist? Ich frage, weil ich weiß, dass die logistische Regression eine sigmoidale Beziehung voraussetzt, und ich bin gespannt, ob diese Erhöhung der Gewinnchancen um 3 Einheiten zu irgendeinem Zeitpunkt entlang der Regressionslinie konsistent bleibt.
Vielen Dank!
Aaron
quelle
Antworten:
1) Da es sich um ein Quotenverhältnis handelt , spielt es keine Rolle, wo Sie anfangen. Die Chancen für einen 18-Jährigen sind dreimal so hoch wie für einen 17-Jährigen. Oder die Chancen für einen 17-Jährigen sind 1/3 der eines 18-Jährigen. Gleiche Sache. Wenn Sie die Wahrscheinlichkeit ermitteln möchten, dass eine Person eines bestimmten Alters beschäftigt wird, können Sie die Formel mit den Parameterschätzungen (nicht den OPs) verwenden. Oder Sie können das Programm erhalten, mit dem Sie es für Sie erledigen.
2) Ob das Zentrieren hilft, ist Ansichtssache. Ich finde zentrierte Modelle nicht klarer, aber einige Leute tun es.
3) Die Chancen sind nicht genau die gleichen wie "wahrscheinlich" (obwohl viele Leute so sprechen, als ob sie es wären) und die Chancen für einen 17-Jährigen wären 27-mal so hoch wie für einen 14-Jährigen.
Schließlich wäre ich bei diesem Modell vorsichtig. Das Modell geht davon aus, dass der OP zwischen 14 und 15, 15 und 16 usw. gleich ist. Das scheint mir unwahrscheinlich, basierend auf dem, was ich über das Thema weiß.
quelle
Die durchschnittliche Wahrscheinlichkeit, sich für eine Person in das Trainingsproblem einzuschreiben, beträgt das #-fache der Wahrscheinlichkeit für eine andere Person, die ein Jahr jünger / älter ist, nachdem alle anderen Variablen konstant gehalten wurden.
Das ist meine Meinung.
quelle