Wann sollten robuste Standardfehler in der Poisson-Regression verwendet werden?

10

Ich verwende für Zähldaten ein Poisson - Regressionsmodell und frag mich , ob es Gründe gibt , nicht den robusten Standardfehler für die Parameterschätzungen zu benutzen? Ich bin besonders besorgt, da einige meiner Schätzungen ohne Robustheit nicht signifikant sind (z. B. p = 0,13), aber mit Robustheit signifikant sind (p <0,01).

In SAS ist dies unter Verwendung der wiederholten Anweisung in proc genmod(z repeated subject=patid;. B. ) verfügbar . Ich habe http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm als Beispiel verwendet, in dem ein Artikel von Cameron und Trivedi (2009) zur Unterstützung der Verwendung robuster Standardfehler zitiert wird.

Kara
quelle

Antworten:

6

Wenn Sie den Verdacht haben, dass Ihre Fehler heteroskedastisch sind, sollten Sie im Allgemeinen robuste Standardfehler verwenden. Die Tatsache, dass Ihre Schätzungen nicht signifikant werden, wenn Sie keine robusten SEs verwenden, legt die Notwendigkeit robuster SEs nahe (beweist dies jedoch nicht)! Diese SEs sind "robust" gegenüber der Verzerrung, die Heteroskedastizität in einem verallgemeinerten linearen Modell verursachen kann.

Diese Situation ist jedoch etwas anders, da Sie sie auf die Poisson-Regression legen.

Poisson hat eine bekannte Eigenschaft, dass es die Dispersion zwingt, gleich dem Mittelwert zu sein, unabhängig davon, ob die Daten dies unterstützen oder nicht. Bevor ich robuste Standardfehler betrachte, würde ich eine negative binomiale Regression versuchen, die nicht unter diesem Problem leidet. Es gibt einen Test (siehe Kommentar), um festzustellen, ob die resultierende Änderung der Standardfehler signifikant ist.

Ich weiß nicht genau, ob die Änderung, die Sie sehen (die Umstellung auf robuste SEs verengt das CI), eine Unterstreuung impliziert, aber es scheint wahrscheinlich. Schauen Sie sich das entsprechende Modell an (ich denke, negatives Binomial, aber ein schnelles Googeln schlägt auch Quasi-Poisson für Unterdispersion vor?) Und sehen Sie, was Sie in dieser Einstellung erhalten.

Ari B. Friedman
quelle
Gute Antwort! Typischerweise führt Heteroskedastizität bei OLS nicht dazu, dass die Parameter unvoreingenommen sind (lediglich ineffizient). Dies gilt jedoch nicht für verallgemeinerte lineare Modelle . Referenzen finden Sie in diesem Beitrag von Dave Giles . Ich glaube nicht, dass ich den Vuong-Test dafür gesehen habe (für Vergleiche von nicht verschachtelten Null-Inflations-Modellen habe ich ihn vorgeschlagen). Poisson ist im Neg verschachtelt. Binomialmodell, so dass man einen Likelihood-Ratio-Test für den Dispersionsparameter verwenden kann.
Andy W
Vielen Dank für Ihre Antwort. Ich habe die negative binomiale Regression versucht, bin aber auf die Warnung gestoßen: "Das relative hessische Konvergenzkriterium von 0,0046138565 ist größer als die Grenze von 0,0001. Die Konvergenz ist fraglich." Beachten Sie, dass meine Antwortvariable eine Zählung mit Werten zwischen 0 und 4 ist. Gibt es eine Transformation der abhängigen oder unabhängigen Variablen, die die Konvergenz unterstützen würde? Oder was macht man in diesem Fall?
Kara
Auch in Bezug auf die kleineren nicht robusten SEs - in meiner Analyse sehe ich, dass es die robusten SEs sind, die kleiner sind, und hier liegt die Bedeutung (nicht in den nicht robusten Ergebnissen). Aus diesem Grund möchte ich vorsichtig sein, ob die robusten Ergebnisse gemeldet werden sollen oder nicht - ich möchte diese Methode nicht nur wegen signifikanter p-Werte wählen! Danke noch einmal!
Kara
@AndyW Ich habe meine Notizen überprüft und Vuong ist in der Tat für ZI gegen Poisson. Aktualisierter Beitrag. Kara Ich habe die Umkehrung verpasst. Möglicherweise sind die Daten nicht ausreichend verteilt. In diesem Fall ist der NBD möglicherweise auch die Lösung :-)
Ari B. Friedman,
@kara Es ist schwierig, Ihr Nichtkonvergenzproblem in Kommentaren zu diagnostizieren. Ich würde eine neue Frage dazu mit so vielen Informationen wie möglich versuchen.
Ari B. Friedman
1

Ich werde Analysen unter Verwendung modellbasierter und robuster Standardfehler unterscheiden, indem ich letztere als "GEEs" bezeichne, was tatsächlich eine austauschbare Definition ist. Neben Scortchis fantastischer Erklärung:

GEEs können in kleinen Proben, dh 10-50 Probanden, "voreingenommen" sein: (Lipsitz, Laird und Harrington, 1990; Emrich und Piedmonte, 1992; Sharples und Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte und Williams, 1994; Gunsolley, Getchell und Chinchilli, 1995; Sherman und le Cessie, 1997.) Wenn ich sage, dass GEEs voreingenommen sind, meine ich, dass die Standardfehlerschätzung aufgrund kleiner oder null Zellzahlen entweder konservativ oder antikonservativ sein kann abhängig davon, welche angepassten Werte dieses Verhalten aufweisen und wie konsistent sie mit dem Gesamttrend des Regressionsmodells sind.

Wenn das parametrische Modell korrekt angegeben ist, erhalten Sie im Allgemeinen immer noch korrekte Standardfehlerschätzungen von den modellbasierten CIs, aber der Sinn der Verwendung von GEE besteht darin, dieses sehr große "Wenn" zu berücksichtigen. Mit GEEs kann der Statistiker lediglich ein Arbeitswahrscheinlichkeitsmodell für die Daten angeben, und die Parameter (anstatt im streng parametrischen Rahmen interpretiert zu werden) werden als eine Art "Sieb" betrachtet, das unabhängig von der zugrunde liegenden, unbekannten Datenerzeugung reproduzierbare Werte erzeugen kann Mechanismus. Dies ist das Herz und die Seele der semiparametrischen Analyse, für die ein GEE ein Beispiel ist.

GEEs behandeln auch nicht gemessene Kovariationsquellen in den Daten, selbst wenn eine unabhängige Korrelationsmatrix angegeben wird. Dies liegt an der Verwendung einer empirischen und nicht einer modellbasierten Kovarianzmatrix. Bei der Poisson-Modellierung könnten Sie beispielsweise an Fruchtbarkeitsraten von Lachs interessiert sein, der aus verschiedenen Strömen entnommen wurde. Die von weiblichen Fischen geernteten Eizellen haben möglicherweise eine zugrunde liegende Poisson-Verteilung, aber genetische Variationen, die aus gemeinsamer Erblichkeit und verfügbaren Ressourcen in bestimmten Strömen bestehen, können dazu führen, dass Fische in diesen Strömen ähnlicher sind als in anderen Strömen. Das GEE gibt korrekte Populationsstandard-Fehlerschätzungen an, solange die Stichprobenrate mit ihrem Bevölkerungsanteil übereinstimmt (oder auf andere Weise geschichtet ist).

AdamO
quelle
1

Sie testen die Null der Äquidispersion. Es ist eine einfache zusätzliche OLS-Regression. Auf Seite 670 finden Sie eine Beschreibung von Cameron und Trivedi. Bei großer Überdispersion sind die Standardfehler sehr entleert, daher wäre ich sehr vorsichtig bei Ergebnissen, die bei Überdispersion von einem nicht robusten VCE abhängen. Bei Unterdispersion ist das Gegenteil der Fall, was sich wie das Szenario anhört, in dem Sie sich befinden.

Dimitriy V. Masterov
quelle