Ich versuche, das Konzept der Überdispersion in der logistischen Regression in den Griff zu bekommen. Ich habe gelesen, dass Überdispersion auftritt, wenn die beobachtete Varianz einer Antwortvariablen größer ist als von der Binomialverteilung erwartet.
Aber wenn eine Binomialvariable nur zwei Werte (1/0) haben kann, wie kann sie dann einen Mittelwert und eine Varianz haben?
Ich kann den Mittelwert und die Varianz der Erfolge aus x Bernoulli-Versuchen berechnen. Aber ich kann mich nicht mit dem Konzept eines Mittelwerts und einer Varianz einer Variablen befassen, die nur zwei Werte haben kann.
Kann jemand einen intuitiven Überblick geben über:
- Das Konzept eines Mittelwerts und einer Varianz in einer Variablen, die nur zwei Werte haben kann
- Das Konzept der Überdispersion in einer Variablen, die nur zwei Werte haben kann
Antworten:
Eine binomische Zufallsvariable mit Versuchen und Erfolgswahrscheinlichkeit p kann mehr als zwei Werte annehmen. Die binomiale Zufallsvariable repräsentiert die Anzahl der Erfolge in diesen N - Studien, und kann in der Tat nehmen N + 1 unterschiedliche Werte ( 0 , 1 , 2 , 3 , . . . , N ). Wenn also die Varianz dieser Verteilung unter den Binomialannahmen größer ist als zu erwarten (vielleicht gibt es beispielsweise überschüssige Nullen), ist dies ein Fall von Überdispersion.N. p N. N.+ 1 0 , 1 , 2 , 3 , . . . , N.
Eine Überdispersion ist für eine Bernoulli-Zufallsvariable ( ) nicht sinnvoll.N=1
Im Kontext einer logistischen Regressionskurve können Sie eine "kleine Schicht" oder Gruppierung durch einen engen Bereich von Prädiktorwerten als Realisierung eines Binomialversuchs betrachten (möglicherweise haben wir 10 Punkte in der Schicht mit einer bestimmten Anzahl von Erfolge und Misserfolge). Auch wenn wir nicht wirklich mehrere Versuche bei jedem Prädiktorwert haben und Proportionen anstelle von Rohzählungen betrachten, würden wir dennoch erwarten, dass der Anteil jeder dieser "Schichten" nahe an der Kurve liegt. Wenn diese "Schichten" dazu neigen, weit von der Kurve entfernt zu sein, gibt es zu viel Variabilität in der Verteilung. Indem Sie die Beobachtungen gruppieren, erstellen Sie Realisierungen von binomialen Zufallsvariablen, anstatt die 0/1-Daten einzeln zu betrachten.
Das folgende Beispiel stammt aus einer anderen Frage auf dieser Site. Nehmen wir an, die blauen Linien repräsentieren den erwarteten Anteil über den Bereich der Prädiktorvariablen. Die blauen Zellen zeigen beobachtete Fälle an (in diesem Fall Schulen). Dies stellt eine grafische Darstellung, wie Überdispersion kann aussehen. Beachten Sie, dass es Fehler bei der Interpretation der Zellen des folgenden Diagramms gibt, aber es gibt eine Vorstellung davon, wie sich eine Überdispersion manifestieren kann.
quelle
Wie bereits von anderen angemerkt, gilt die Überdispersion bei einer Bernoulli (0/1) -Variablen nicht, da in diesem Fall der Mittelwert notwendigerweise die Varianz bestimmt. Im Kontext der logistischen Regression bedeutet dies, dass Sie bei einem binären Ergebnis keinen Dispersionsparameter schätzen können. (NB Dies bedeutet nicht, dass Sie mögliche Korrelationen zwischen Beobachtungen ignorieren können, nur weil Ihr Ergebnis binär ist!)
Wenn Ihr Ergebnis andererseits eine Reihe von Proportionen ist, können Sie einen Dispersionsparameter (der zwar oft größer als eins ist, aber auch kleiner als eins sein kann) schätzen, indem Sie die Pearson-Chi-Quadrat-Statistik (oder die Abweichung) teilen ) durch die verbleibenden Freiheitsgrade.
Denken Sie daran, dass die logistische Regression mit einem rein binären Ergebnis nur ein Sonderfall des allgemeineren logistischen Regressionsmodells ist, bei dem der Binomialindex eins überschreiten kann (und je nach Beobachtung variieren kann). Die Frage, ob Sie ein logistisches Regressionsmodell anpassen oder nicht, hängt daher nicht mit der Frage zusammen, ob Ihre Daten überstreut sind.
quelle