Überdispersion in der logistischen Regression

14

Ich versuche, das Konzept der Überdispersion in der logistischen Regression in den Griff zu bekommen. Ich habe gelesen, dass Überdispersion auftritt, wenn die beobachtete Varianz einer Antwortvariablen größer ist als von der Binomialverteilung erwartet.

Aber wenn eine Binomialvariable nur zwei Werte (1/0) haben kann, wie kann sie dann einen Mittelwert und eine Varianz haben?

Ich kann den Mittelwert und die Varianz der Erfolge aus x Bernoulli-Versuchen berechnen. Aber ich kann mich nicht mit dem Konzept eines Mittelwerts und einer Varianz einer Variablen befassen, die nur zwei Werte haben kann.

Kann jemand einen intuitiven Überblick geben über:

  1. Das Konzept eines Mittelwerts und einer Varianz in einer Variablen, die nur zwei Werte haben kann
  2. Das Konzept der Überdispersion in einer Variablen, die nur zwei Werte haben kann
luciano
quelle
1
Addiere 20 Werte von , wobei 10 0 und 10 1 sind . Können Sie dies durch 20 teilen? Können Sie die sd berechnen y ? y01y
Sycorax sagt Reinstate Monica
Schön ausgedrückt, ich glaube, das ist Mittelwert = 0,5, Standardabweichung = 0,11.
Luciano
Angenommen, meine Antwortvariable hatte 100 Erfolge und 5 schlägt fehl. Ist dies wahrscheinlich überstreut?
Luciano
luciano, du brauchst mehr als eine realisierung des experimentes, um festzustellen, ob es überdispers ist.
Underminer

Antworten:

10

Eine binomische Zufallsvariable mit Versuchen und Erfolgswahrscheinlichkeit p kann mehr als zwei Werte annehmen. Die binomiale Zufallsvariable repräsentiert die Anzahl der Erfolge in diesen N - Studien, und kann in der Tat nehmen N + 1 unterschiedliche Werte ( 0 , 1 , 2 , 3 , . . . , N ). Wenn also die Varianz dieser Verteilung unter den Binomialannahmen größer ist als zu erwarten (vielleicht gibt es beispielsweise überschüssige Nullen), ist dies ein Fall von Überdispersion. N.pN.N.+10,1,2,3,...,N.

Eine Überdispersion ist für eine Bernoulli-Zufallsvariable ( ) nicht sinnvoll.N=1

Im Kontext einer logistischen Regressionskurve können Sie eine "kleine Schicht" oder Gruppierung durch einen engen Bereich von Prädiktorwerten als Realisierung eines Binomialversuchs betrachten (möglicherweise haben wir 10 Punkte in der Schicht mit einer bestimmten Anzahl von Erfolge und Misserfolge). Auch wenn wir nicht wirklich mehrere Versuche bei jedem Prädiktorwert haben und Proportionen anstelle von Rohzählungen betrachten, würden wir dennoch erwarten, dass der Anteil jeder dieser "Schichten" nahe an der Kurve liegt. Wenn diese "Schichten" dazu neigen, weit von der Kurve entfernt zu sein, gibt es zu viel Variabilität in der Verteilung. Indem Sie die Beobachtungen gruppieren, erstellen Sie Realisierungen von binomialen Zufallsvariablen, anstatt die 0/1-Daten einzeln zu betrachten.

Das folgende Beispiel stammt aus einer anderen Frage auf dieser Site. Nehmen wir an, die blauen Linien repräsentieren den erwarteten Anteil über den Bereich der Prädiktorvariablen. Die blauen Zellen zeigen beobachtete Fälle an (in diesem Fall Schulen). Dies stellt eine grafische Darstellung, wie Überdispersion kann aussehen. Beachten Sie, dass es Fehler bei der Interpretation der Zellen des folgenden Diagramms gibt, aber es gibt eine Vorstellung davon, wie sich eine Überdispersion manifestieren kann.

Beispiel für Überdispersion

Underminer
quelle
1
Aber ich interessiere mich für Überdispersion im Kontext der logistischen Regression. Für jeden Wert einer Prädiktorvariablen in der logistischen Regression gibt es keine n Versuche, sondern nur einen Versuch. Und das Ergebnis dieses einen Prozesses ist entweder Erfolg oder
Misserfolg
Ich habe gerade einen Absatz hinzugefügt, um die Intuition hinter Überdispersion im Kontext der linearen Regression anzusprechen.
Underminer
1
Underminer, ich versuche mir vorzustellen, was Sie mit diesem Satz meinen: "Wenn diese" Scheiben "dazu neigen, weit von der Kurve entfernt zu sein, gibt es zu viel Variabilität in der Verteilung." Ich denke, Sie meinen Folgendes: Auf dem Slice auf der Kurve, auf dem eine Erfolgswahrscheinlichkeit von 0,1 bis 0,3 angegeben ist, gibt es viele Erfolge, und auf dem Slice auf der Kurve, auf dem eine Erfolgswahrscheinlichkeit von 0,7 bis 0,9 angegeben ist, gibt es viele von schlägt fehl. Ist es das, was du meinst und würde dies eine Überdispersion darstellen?
Luciano
1
@ Luciano Das ist die richtige Idee. Beachten Sie jedoch, dass es ein Gleichgewicht von "Schnitten" geben muss, die zu weit über und zu weit unter der Kurve liegen, damit die Anpassung überhaupt erfolgt ist. Es kann also realistischer sein zu sagen, dass ein Slice um 0,7 zu ​​viele Erfolge hat (vielleicht 100%) und das nächste Slice um 0,75 zu wenig (50%) hat, als 0,80 zu viele (100%) usw. Also gibt es mehr Varianz beobachtet als erwartet.
Underminer
Ich habe dich gut erklärt
Luciano
7

Wie bereits von anderen angemerkt, gilt die Überdispersion bei einer Bernoulli (0/1) -Variablen nicht, da in diesem Fall der Mittelwert notwendigerweise die Varianz bestimmt. Im Kontext der logistischen Regression bedeutet dies, dass Sie bei einem binären Ergebnis keinen Dispersionsparameter schätzen können. (NB Dies bedeutet nicht, dass Sie mögliche Korrelationen zwischen Beobachtungen ignorieren können, nur weil Ihr Ergebnis binär ist!)

Wenn Ihr Ergebnis andererseits eine Reihe von Proportionen ist, können Sie einen Dispersionsparameter (der zwar oft größer als eins ist, aber auch kleiner als eins sein kann) schätzen, indem Sie die Pearson-Chi-Quadrat-Statistik (oder die Abweichung) teilen ) durch die verbleibenden Freiheitsgrade.

Denken Sie daran, dass die logistische Regression mit einem rein binären Ergebnis nur ein Sonderfall des allgemeineren logistischen Regressionsmodells ist, bei dem der Binomialindex eins überschreiten kann (und je nach Beobachtung variieren kann). Die Frage, ob Sie ein logistisches Regressionsmodell anpassen oder nicht, hängt daher nicht mit der Frage zusammen, ob Ihre Daten überstreut sind.

Phil Schumm
quelle