Was ist Quasi-Binomialverteilung (im Kontext von GLM)?

30

Ich hoffe, jemand kann einen intuitiven Überblick darüber geben, was Quasibinomialverteilung ist und was sie bewirkt. Diese Punkte interessieren mich besonders:

  1. Wie sich das Quasibinom von der Binomialverteilung unterscheidet.

  2. Wenn die Antwortvariable eine Proportion ist (Beispielwerte sind 0,23, 0,11, 0,78, 0,98), wird ein Quasibinomialmodell in R ausgeführt, ein Binomialmodell jedoch nicht.

  3. Warum Quasibinomialmodelle verwendet werden sollten, wenn eine TRUE / FALSE-Antwortvariable überdispers ist.

Luciano
quelle

Antworten:

20
  1. Der Unterschied zwischen der Binomialverteilung und der Quasibinomialverteilung ist in ihren Wahrscheinlichkeitsdichtefunktionen (pdf) zu sehen, die diese Verteilungen charakterisieren.

    Binomial pdf:

    P(X=k)=(nk)pk(1-p)n-k

    Quasi-Binomial-PDF:

    P(X=k)=(nk)p(p+kϕ)k-1(1-p-kϕ)n-k

    ϕ|ϕ|Mindest{p/n,(1-p)/n}

    (Beachten Sie, dass der Mittelwert der Quasi-Binomialverteilung Und nicht selbst ist.)pi=0nn!ϕi(nk)!p

  2. Ich bin mir nicht sicher, ob die glm-Funktion in R im Quasibinomial-Modus Gewichte hinzufügt, um dies zu berücksichtigen.

  3. Der Zweck des zusätzlichen Parameters besteht darin, die zusätzliche Varianz in den Daten zu schätzen. Jedes verallgemeinerte lineare Modell (GLM) nimmt eine Verteilungsannahme für das Ergebnis / die Antwort vor und maximiert die Wahrscheinlichkeit der Daten, die auf dieser Verteilung basieren. Es ist eine Entscheidung, die der Analyst trifft, und wenn Sie der Meinung sind, dass Sie mehr Varianz in Ihren Daten berücksichtigen müssen, können Sie die quasi-binomiale Verzerrung wählen, um die Antwort für Ihren glm zu modellieren. Eine gute Möglichkeit zu testen, ob ein Quasi-Binomial-Modell anstelle eines Binomial-Modells angepasst werden muss, besteht darin, ein Quasi-Binomial-Modell anzupassen und zu prüfen, ob dasϕParameter ϕ 0 ist.ϕ

Alejandro Ochoa
quelle
2
Exzellenter Alejandro, wie kann ich jetzt testen, ob der Parameter ϕ 0 ist?
Juanchi
2
Man beachte , dass in Rmit glm.fit, binomialund quasibinomialsind genau die gleiche, mit der Ausnahme , dass quasibinomial(1) die ganzen Zahl Prüfung entfernt, und (2) gibt einen AIC von NA. Weitere Informationen finden Sie in dieser Antwort .
Miguelmorin
-1 Diese Art der "Quasi-Binomial" -Verteilung scheint mit den quasi-Binomial-Wahrscheinlichkeiten im Zusammenhang mit glms völlig unabhängig zu sein. Es ist daher schwer zu erkennen, warum sie so viele positive Stimmen erhalten hat.
Jarle Tufto
14

ϕ

Es gibt eine Verteilung, die zu einer solchen Spezifikation passt (die offensichtliche - ein skaliertes Binomial), aber das ist nicht unbedingt das Ziel, wenn ein Quasi-Binomial-Modell angepasst wird; Wenn Sie zu Daten passen, die noch 0-1 sind, kann sie nicht binomial skaliert werden.

ϕ

Wenn die Antwortvariable eine Proportion ist (Beispielwerte sind 0,23, 0,11, 078, 0,98), wird ein Quasibinomialmodell in R ausgeführt, ein Binomialmodell jedoch nicht

Meiner Erinnerung nach kann ein Binomialmodell in R mit Proportionen * ausgeführt werden, aber Sie müssen es richtig eingerichtet haben.

* Es gibt drei verschiedene Möglichkeiten, R Binomialdaten zuzuweisen, die mir bekannt sind. Ich bin mir ziemlich sicher, dass das einer ist.

Glen_b - Setzen Sie Monica wieder ein
quelle
In welcher Beziehung steht dies zur Quasilikelihood-Schätzung?
tim.farkas
2
+1 (aber ich würde gerne eine umfassendere Antwort sehen!). Die folgenden drei Möglichkeiten zum Einrichten von binomialem GLM mit Proportionen sind wahrscheinlich: stats.stackexchange.com/a/26779/28666 ? Ein Link könnte hilfreich sein. Inwiefern bezieht sich das, was Sie über "Quasibinomial" gesagt haben, das keine Distribution ist, auf die zweite Antwort in diesem Thread?
Amöbe sagt Reinstate Monica
1
@amoeba Sie können eine Verteilung dafür schreiben, wie in meiner Antwort angegeben (ein skaliertes Binom), aber das kann keine Verteilung für Zähldaten sein (Quasibinom ist nicht auf allen ganzen Zahlen, es sei denn, der Dispersionsparameter ist 1) oder für kontinuierliche Daten ( es ist diskret!). Im Allgemeinen wird es aufgrund seiner Varianzstruktur für die Zählung von Daten verwendet (in diesem Fall gibt es jedoch keine solche Verteilung in der Exponentialfamilie)
Glen_b -Reinstate Monica