Derzeit habe ich Probleme, das richtige Modell für schwierige Zähldaten (abhängige Variable) zu finden. Ich habe verschiedene Modelle ausprobiert (für meine Art von Daten sind Modelle mit gemischten Effekten erforderlich), z. B. lmer
undlme4
(mit einer logarithmischen Transformation), sowie verallgemeinerte lineare Modelle mit gemischten Effekten mit verschiedenen Familien, z. B. Gaußscher oder negativer Binomialzahl.
Ich bin mir jedoch nicht sicher, wie ich die resultierenden Anfälle richtig diagnostizieren soll. Zu diesem Thema habe ich im Web sehr unterschiedliche Meinungen gefunden. Ich denke, die Diagnose der linearen (gemischten) Regression ist recht einfach. Sie können die Residuen (Normalität) analysieren und die Heteroskedastizität untersuchen, indem Sie angepasste Werte im Vergleich zu Residuen darstellen.
Wie machen Sie das für die verallgemeinerte Version? Konzentrieren wir uns vorerst auf eine negative binomische (gemischte) Regression. Ich habe hier ganz entgegengesetzte Aussagen zu den Residuen gesehen:
Bei der Prüfung von Residuen auf Normalität in verallgemeinerten linearen Modellen wird in der ersten Antwort darauf hingewiesen, dass die einfachen Residuen für eine GLM nicht normalverteilt sind. Ich denke das ist klar. Dann wird jedoch darauf hingewiesen, dass Pearson- und Abweichungsreste ebenfalls nicht normal sein sollen. Die zweite Antwort besagt jedoch, dass Abweichungsreste normal verteilt werden sollten (kombiniert mit einer Referenz).
Dass Abweichungsreste normal verteilt sein sollten, wird jedoch in der Dokumentation zu ? Glm.diag.plots (aus dem
boot
Paket von R ) angedeutet .In diesem Blog-Beitrag untersuchte der Autor zunächst die Normalität der von mir angenommenen Pearson-Residuen für ein NB-Regressionsmodell mit gemischten Effekten. Wie erwartet (meiner ehrlichen Meinung nach) erwiesen sich die Residuen nicht als normal und der Autor ging davon aus, dass dieses Modell schlecht passt. Wie in den Kommentaren angegeben, sollten die Residuen jedoch nach einer negativen Binomialverteilung verteilt werden. Meiner Meinung nach kommt dies der Wahrheit am nächsten, da GLM-Residuen andere Verteilungen als die normalen haben können. Ist das richtig? Wie kann man hier nach Dingen wie Heteroskedastizität suchen?
Der letzte Punkt (Darstellung von Residuen gegen Quantile der geschätzten Verteilung) wird in Ben & Yohai (2004) hervorgehoben . Derzeit scheint dies der richtige Weg für mich zu sein.
Kurz gesagt: Wie können Sie die Modellanpassungen von verallgemeinerten linearen (gemischten) Regressionsmodellen unter besonderer Berücksichtigung von Residuen richtig untersuchen?
quelle
glm.diag.plots
sagt, es ist für jackknifed Abweichungsrest (ich vermute, dass Unterscheidung wichtig ist). Außerdem haben Sie Zähldaten . Vielleicht möchten Sie sich auf diese Tatsache konzentrieren. ZB sollen Zählungen (in gewissem Sinne) heteroskedastisch sein. Diagnosediagramme für die Zählungsregression sollten für Sie hilfreich sein (obwohl sie den Aspekt der gemischten Effekte nicht berücksichtigen).Antworten:
Diese Antwort basiert nicht auf meinem Wissen, sondern zitiert, was Bolker et al. (2009) schrieb in einem einflussreichen Artikel in der Zeitschrift Trends in Ecology and Evolution . Da der Artikel nicht offen zugänglich ist (obwohl nach ihm gesucht wird) Google Scholar als erfolgreich erweisen könnte), dachte ich, ich zitiere wichtige Passagen, die hilfreich sein könnten, um Teile der Fragen zu beantworten Es stellt die besten komprimierten Informationen zu GLMMs (einschließlich Diagnose) in einer sehr einfachen und leicht verständlichen Schreibweise dar. Wenn diese Antwort aus irgendeinem Grund nicht geeignet ist, werde ich sie einfach löschen Nützliche Informationen zu diagnostischen Fragen sind in hervorgehobenfett .
Seite 127:
Seite 129, Kasten 1:
Seite 133, Kasten 4:
Residuendiagramme sollten verwendet werden, um die Überdispersion zu bewerten, und transformierte Varianzen sollten kategorienübergreifend homogen sein. Nirgends in dem Artikel wurde erwähnt, dass Residuen normalverteilt sein sollen.
Ich denke, der Grund, warum es kontrastierende Aussagen gibt, spiegelt wider, dass GLMMs (Seite 127-128) ...
Und hier sind einige vollständige Beispiele mit GLMMs, einschließlich Diagnose.
Mir ist klar, dass diese Antwort eher ein Kommentar ist und als solcher behandelt werden sollte. Aber im Kommentarbereich kann ich keinen so langen Kommentar hinzufügen. Auch da ich glaube, dass dieses Papier für diese Diskussion von Wert ist (aber leider hinter einer Pay-Wall), dachte ich, dass es nützlich wäre, hier wichtige Passagen zu zitieren.
Zitierte Artikel:
[15] - GP Quinn, MJ Keough (2002): Experimentelles Design und Datenanalyse für Biologen, Cambridge University Press.
[16] - MJ Crawley (2002): Statistical Computing: Eine Einführung in die Datenanalyse mit S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Mixed-Effects-Modelle in S und S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Bedingte ähnliche Informationen für Modelle mit gemischten Effekten. Biometrika, 92, S. 351–370.
[50] - A. Gelman, J. Hill (2006): Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Eine Einführung in die Ökologische Statistik, Sinauer Associates.
[65] - FJ Harrell (2001): Regressionsmodellierungsstrategien, Springer.
[66] - JK Lindsey (1997): Anwenden verallgemeinerter linearer Modelle, Springer.
[67] - W. Venables, BD Ripley (2002): Moderne angewandte Statistik mit S, Springer.
quelle
Dies ist eine alte Frage, aber ich dachte, es wäre nützlich, diese vom OP vorgeschlagene Option 4 hinzuzufügen, die jetzt im DHARMa R-Paket verfügbar ist (erhältlich bei CRAN, siehe hier ).
Das Paket macht die visuellen Restkontrollen, die von der akzeptierten Antwort vorgeschlagen werden, viel zuverlässiger / einfacher.
Aus der Paketbeschreibung:
quelle