Restdiagnoseplots für glm-Modelle interpretieren?

33

Ich suche nach Richtlinien zur Interpretation von Residuendiagrammen von glm-Modellen. Insbesondere Poisson-, Negativ-Binomial- und Binomial-Modelle. Was können wir von diesen Darstellungen erwarten, wenn die Modelle "korrekt" sind? (Wir erwarten beispielsweise, dass die Varianz mit zunehmendem prognostizierten Wert zunimmt, wenn es sich um ein Poisson-Modell handelt.)

Ich weiß, dass die Antworten von den Modellen abhängen. Hinweise (oder allgemeine Punkte zu berücksichtigen) werden hilfreich / geschätzt.

Tal Galili
quelle

Antworten:

16

Ich denke, dies ist einer der schwierigsten Teile bei der Regressionsanalyse. Ich habe auch Probleme mit den meisten Interpretationen (insbesondere binomische Diagnosen sind verrückt!).

Ich bin gerade auf diesen Beitrag gestoßen http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, der auch http://statmaster.sdu.dk/courses/st111/module04/index.html verlinkt hat # ABSCHNITT00020000000000000000

Was mir am meisten hilft, ist die Darstellung der Residuen gegen jeden prädiktiven Parameter, der UND nicht im Modell enthalten ist. Dies gilt auch für diejenigen, die zuvor aus Gründen der Multikolinearität fallengelassen wurden. Für diese Boxplots sind bedingte Streudiagramme und normale Streudiagramme großartig. Dies hilft, mögliche Fehler zu erkennen

In "Forest Analytics with R" (UseR Series) finden Sie einige gute Erklärungen zur Interpretation von Residuen für Modelle mit gemischten Effekten (und auch für Glms). Gut gelesen http://www.springer.com/statistics/life+sciences+medicine+%26+health/book/978-1-4419-7761-8

Vor einiger Zeit habe ich über eine Website nachgedacht, auf der Restmuster gesammelt werden können, die Benutzer als "in Ordnung" und als "nicht in Ordnung" einstufen können. aber diese website habe ich nie gefunden;)

Jens
quelle
8

Ich würde die in folgenden Abschnitten beschriebenen Methoden vorschlagen:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Es gibt einige verschiedene Ideen, die sich jedoch hauptsächlich auf die Simulation von Daten beschränken, bei denen Sie die wahre Beziehung kennen und diese Beziehung auf Ihrer Analyse der realen Daten basiert. Anschließend vergleichen Sie die Diagnose Ihrer Realdaten mit der Diagnose der simulierten Datensätze. Die vis.testFunktion im TeachingDemos-Paket für R implementiert eine Variation von 1 der Vorschläge im Artikel. Lesen Sie das gesamte Papier (nicht nur meine sehr kurze Zusammenfassung), um es besser zu verstehen.

Greg Snow
quelle
Ich denke, das ist ein guter Vorschlag, um Muster zu sehen, die in Streu- oder anderen Darstellungen vom Zufall abweichen, aber das ist nicht das einzige Ziel, wenn Residuen angezeigt werden. Häufig sind wir an bestimmten Abweichungen vom Zufall interessiert (z. B. Heteroskedastizität, falsch spezifizierte Nichtlinearität im Modell, ausgelassene Variablen, Ausreißer oder hohe Hebelwerte usw.). Vergleiche mit zufällig generierten Daten helfen nicht wirklich herauszufinden, warum die Residuen weder zufällig sind noch Abhilfe schaffen.
Andy W
@AndyW, ich denke, wir interpretieren die ursprüngliche Frage anders. Meine Antwort bringt den Forscher dazu, ihn wissen zu lassen, ob es noch etwas gibt, wonach er suchen muss, oder ob die verbleibende Handlung vernünftig ist. Was zu tun ist, wenn es nicht vernünftig aussieht, ist der nächste Schritt und geht über meine Antwort hinaus (obwohl einige zusätzliche Annahmen unter Verwendung einer neuen Reihe von Simulationen verglichen werden könnten).
Greg Snow
5

Diese Frage ist ziemlich alt, aber ich dachte, es wäre nützlich hinzuzufügen, dass Sie seit kurzem das DHARMa R-Paket verwenden können, um die Residuen eines beliebigen GL (M) M in einen standardisierten Raum umzuwandeln. Sobald dies erledigt ist, können Sie verbleibende Probleme wie Abweichungen von der Verteilung, verbleibende Abhängigkeit von einem Prädiktor, Heteroskedastizität oder Autokorrelation auf normale Weise visuell bewerten / testen. In der Paketvignette finden Sie ausgearbeitete Beispiele sowie weitere Fragen zum Lebenslauf hier und hier .

Florian Hartig
quelle