Das Phänomen der "Überdispersion" in einem GLM tritt immer dann auf, wenn wir ein Modell verwenden, das die Varianz der Antwortvariablen einschränkt, und die Daten eine größere Varianz aufweisen, als es die Modellbeschränkung zulässt. Dies tritt häufig bei der Modellierung von Zähldaten mit einem Poisson-GLM auf und kann durch bekannte Tests diagnostiziert werden. Wenn Tests ergeben, dass statistisch signifikante Hinweise auf eine Überdispersion vorliegen, wird das Modell in der Regel verallgemeinert, indem eine breitere Verteilungsfamilie verwendet wird, die den Varianzparameter von der unter dem ursprünglichen Modell auftretenden Einschränkung befreit. Im Fall einer Poisson-GLM ist es üblich, entweder auf eine negativ-binomische oder eine quasi-Poisson-GLM zu verallgemeinern.
Diese Situation ist schwanger mit einem offensichtlichen Einwand. Warum überhaupt mit einem Poisson GLM beginnen? Man kann direkt mit den breiteren Verteilungsformen beginnen, die einen (relativ) freien Varianzparameter haben, und es ermöglichen, dass der Varianzparameter an die Daten angepasst wird, wobei Überdispersionstests vollständig ignoriert werden. In anderen Situationen, in denen wir Datenanalysen durchführen, verwenden wir fast immer Verteilungsformulare, die mindestens die ersten beiden Momente freigeben. Warum also hier eine Ausnahme machen?
Meine Frage: Gibt es einen guten Grund, mit einer Verteilung zu beginnen, die die Varianz festlegt (z. B. die Poisson-Verteilung) und dann einen Überdispersionstest durchzuführen? Wie ist dieser Vorgang mit dem vollständigen Überspringen dieser Übung und dem direkten Übergang zu allgemeineren Modellen (z. B. Negativ-Binomial, Quasi-Poisson usw.) zu vergleichen? Mit anderen Worten, warum nicht immer eine Verteilung mit einem freien Varianzparameter verwenden?
quelle
Antworten:
Im Prinzip stimme ich tatsächlich zu, dass es in 99% der Fälle besser ist, einfach das flexiblere Modell zu verwenden. Nach alledem sind hier zweieinhalb Argumente dafür, warum Sie es vielleicht nicht tun.
(1) Weniger flexibel bedeutet effizientere Schätzungen. Da die Varianz - Parameter sind in der Regel weniger stabil als mittlere Parameter sein, Ihre Annahme fester Mittelwert-Varianz - Beziehung kann stabilisieren Standardfehler mehr.
(2) Modellprüfung. Ich habe mit Physikern zusammengearbeitet, die glauben, dass verschiedene Messungen durch Poisson-Verteilungen aufgrund der theoretischen Physik beschrieben werden können. Wenn wir die Hypothese ablehnen, dass Mittelwert = Varianz ist, haben wir Beweise gegen die Poisson-Verteilungshypothese. Wie in einem Kommentar von @GordonSmyth ausgeführt, gibt es Hinweise darauf, dass wichtige Faktoren fehlen , wenn Sie Grund zu der Annahme haben, dass eine bestimmte Messung einer Poisson-Verteilung folgen sollte .
quelle
Obwohl dies meine eigene Frage ist, werde ich auch meine eigenen zwei Cent als Antwort posten, damit wir die Anzahl der Perspektiven auf diese Frage erhöhen. Hier geht es darum, ob es sinnvoll ist, Daten zunächst mit einer Ein-Parameter-Verteilung zu versehen. Wenn Sie eine Ein-Parameter-Verteilung verwenden (z. B. das Poisson-GLM oder ein Binomial-GLM mit festem Versuchsparameter), ist die Varianz kein freier Parameter und muss stattdessen eine Funktion des Mittelwerts sein. Dies bedeutet, dass es nicht ratsam ist, eine Ein-Parameter-Verteilung an Daten anzupassen, wenn Sie nicht sicher sind, ob die Varianz der Struktur dieser Verteilung entspricht.
Das Anpassen von Ein-Parameter-Verteilungen an Daten ist fast immer eine schlechte Idee: Daten sind häufig unübersichtlicher als von vorgeschlagenen Modellen angegeben, und selbst wenn theoretische Gründe zu der Annahme bestehen, dass ein bestimmtes Ein-Parameter-Modell erhalten werden kann, ist dies häufig der Fall stammen tatsächlich aus einer Mischung dieser Ein-Parameter-Verteilung mit einer Reihe von Parameterwerten. Dies entspricht häufig einem breiteren Modell, z. B. einer Zwei-Parameter-Verteilung, die eine größere Freiheit für die Varianz ermöglicht. Wie nachstehend erläutert, gilt dies für den Poisson-GLM im Fall von Zähldaten.
Wie in der Frage ausgeführt, ist es in den meisten statistischen Anwendungen üblich, Verteilungsformen zu verwenden, bei denen zumindest die ersten beiden Momente frei variieren können. Dies stellt sicher, dass das angepasste Modell es den Daten ermöglicht, den abgeleiteten Mittelwert und die Varianz zu diktieren, anstatt dass diese durch das Modell künstlich eingeschränkt werden. Wenn dieser zweite Parameter verwendet wird, verliert das Modell nur einen Freiheitsgrad. Dies ist ein geringfügiger Verlust im Vergleich zu dem Vorteil, dass die Varianz anhand der Daten geschätzt werden kann. Man kann diese Argumentation natürlich erweitern und einen dritten Parameter hinzufügen, um die Anpassung der Schiefe zu ermöglichen, einen vierten, um die Anpassung der Kurtosis zu ermöglichen, usw.
Mit einigen äußerst geringfügigen Ausnahmen ist ein Poisson-GLM ein schlechtes Modell: Nach meiner Erfahrung ist die Anpassung einer Poisson-Verteilung zum Zählen von Daten fast immer eine schlechte Idee. Bei Zähldaten ist die Varianz der Daten im Verhältnis zur Poisson-Verteilung sehr häufig überstreut. Sogar in Situationen, in denen die Theorie auf eine Poisson-Verteilung hinweist, ist das beste Modell oft eine Mischung aus Poisson-Verteilungen, bei denen die Varianz zu einem freien Parameter wird. In der Tat ist im Fall von Zähldaten die Negativ-Binomial-Verteilung eine Poisson-Mischung mit einer Gammaverteilung für den RatenparameterSelbst wenn theoretische Gründe zu der Annahme bestehen, dass die Zählungen gemäß dem Prozess einer Poisson-Verteilung eintreffen, ist es häufig so, dass es zu einer „Überdispersion“ kommt und die Negativ-Binomial-Verteilung viel besser passt.
Das Anpassen eines Poisson-GLM zum Zählen von Daten und das anschließende Durchführen eines statistischen Tests zur Überprüfung auf "Überstreuung" ist ein Anachronismus und wird kaum empfohlen. Bei anderen Formen der statistischen Analyse beginnen wir nicht mit einer Verteilung mit zwei Parametern, sondern wählen willkürlich eine Varianzbeschränkung aus und testen diese Einschränkung, um zu versuchen, einen Parameter aus der Verteilung zu entfernen. Auf diese Weise erstellen wir ein umständliches Hybridverfahren, das aus einem ersten Hypothesentest für die Modellauswahl und dem tatsächlichen Modell (entweder Poisson oder eine breitere Verteilung) besteht. In vielen Zusammenhängen hat sich gezeigt, dass diese Art der Erstellung von Hybridmodellen aus einem ersten Modellauswahl-Test zu schlechten Gesamtmodellen führt.
Eine analoge Situation, in der eine ähnliche Hybridmethode angewendet wurde, besteht in T-Tests der mittleren Differenz. Früher wurde in Statistikkursen empfohlen, zunächst den Levene-Test (oder auch nur einige sehr viel einfachere "Faustregeln") zu verwenden, um die Varianzgleichheit zwischen zwei Populationen zu überprüfen, und dann, wenn die Daten diesen Test "bestanden" haben Verwenden Sie den Student-T-Test, der die gleiche Varianz annimmt. Wenn die Daten den Test "nicht bestanden" haben, würden Sie stattdessen den Welch-T-Test verwenden. Dies ist eigentlich eine wirklich schlechte Prozedur (siehe zB hier und hier). Es ist viel besser, nur den letzteren Test zu verwenden, der keine Annahme über die Varianz macht, als einen umständlichen Verbindungstest zu erstellen, der einen vorläufigen Hypothesentest zusammenfasst und diesen dann zur Auswahl des Modells verwendet.
Bei Zähldaten erhalten Sie im Allgemeinen gute erste Ergebnisse, wenn Sie ein Zwei-Parameter-Modell anpassen, z. B. ein Negativ-Binomial- oder Quasi-Poisson-Modell. (Beachten Sie, dass letztere keine reelle Verteilung ist, aber dennoch ein vernünftiges Zwei-Parameter-Modell liefert.) Wenn überhaupt eine weitere Verallgemeinerung erforderlich ist, wird in der Regel die Null-Inflation hinzugefügt, wenn eine übermäßige Anzahl von Nullen vorliegt in den Daten. Die Beschränkung auf ein Poisson-GLM ist eine künstliche und sinnlose Modellwahl, die durch Tests auf Überdispersion nicht wesentlich verbessert wird.
Okay, hier sind die kleinen Ausnahmen: Die einzigen wirklichen Ausnahmen zu den oben genannten sind zwei Situationen:
(1) Sie haben äußerst starke a priori theoretische Gründe für die Annahme, dass die Annahmen für die Ein-Parameter-Verteilung erfüllt sind, und ein Teil der Analyse besteht darin, dieses theoretische Modell anhand der Daten zu testen. oder
(2) Aus einem anderen (seltsamen) Grund besteht der Zweck Ihrer Analyse darin, einen Hypothesentest für die Varianz der Daten durchzuführen. Daher möchten Sie diese Varianz tatsächlich auf diese hypothetische Einschränkung beschränken und dann diese Hypothese testen.
Diese Situationen sind sehr selten. Sie entstehen in der Regel nur dann, wenn a priori fundierte theoretische Kenntnisse über den Mechanismus der Datenerzeugung vorliegen und der Zweck der Analyse darin besteht, diese zugrunde liegende Theorie zu testen. Dies kann in einem äußerst begrenzten Anwendungsbereich der Fall sein, in dem Daten unter streng kontrollierten Bedingungen (z. B. in der Physik) generiert werden.
quelle