In diesem Artikel werden verallgemeinerte lineare Modelle (sowohl binomiale als auch negative binomiale Fehlerverteilungen) zur Analyse von Daten verwendet. Aber dann gibt es im statistischen Analyseteil der Methoden diese Aussage:
... und zweitens durch Modellierung der Anwesenheitsdaten mithilfe logistischer Regressionsmodelle und der Futtersuchzeitdaten mithilfe eines verallgemeinerten linearen Modells (GLM). Eine negative Binomialverteilung mit einer logarithmischen Verknüpfungsfunktion wurde verwendet, um die Futtersuchzeitdaten zu modellieren (Welsh et al. 1996), und die Angemessenheit des Modells wurde durch Untersuchung von Residuen verifiziert (McCullagh & Nelder 1989). Shapiro-Wilk- oder Kolmogorov-Smirnov-Tests wurden verwendet, um die Normalität in Abhängigkeit von der Probengröße zu testen. Die Daten wurden vor den Analysen logarithmisch transformiert, um der Normalität zu entsprechen.
Wenn sie Binomial- und Negativ-Binomial-Fehlerverteilungen annehmen, sollten sie dann sicher nicht auf Normalität der Residuen prüfen?
Antworten:
Hinweis: Für die Abweichungs- (oder Pearson-) Residuen wird mit Ausnahme eines Gaußschen Modells keine Normalverteilung erwartet. Für den logistischen Regressionsfall werden, wie @Stat sagt, Abweichungsreste für die te Beobachtung y i durch gegebenich yich
wenn &yich= 0
wenn , wobei ^ π i die angepasste Bernoulli-Wahrscheinlichkeit ist. Da jeder Wert nur einen von zwei Werten annehmen kann, ist klar, dass die Verteilung nicht normal sein kann, auch nicht für ein korrekt angegebenes Modell:yich= 1 πich^
Ähnliches gilt für Poisson- oder negative Binomial-GLMs: Bei niedrigen vorhergesagten Zählwerten ist die Verteilung der Residuen diskret und verzerrt, bei größeren Zählwerten unter einem korrekt angegebenen Modell tendiert sie jedoch zur Normalität.
Es ist nicht üblich, zumindest nicht in meinem Nacken des Waldes, einen formellen Test der Restnormalität durchzuführen; Wenn Normalitätstests im Wesentlichen nutzlos sind, wenn Ihr Modell eine exakte Normalität annimmt, ist es erst recht nutzlos, wenn dies nicht der Fall ist. Für ungesättigte Modelle ist jedoch eine grafische Restdiagnose hilfreich, um das Vorhandensein und die Art der Passungsstörung zu beurteilen. Dabei wird je nach Anzahl der Wiederholungen pro Prädiktormuster mit einer Prise oder einer Handvoll Salz die Normalität bestimmt.
quelle
Was sie getan haben, ist richtig! Ich werde Sie auf die doppelte Überprüfung verweisen. Siehe Abschnitt 13.4.4 in Einführung in die lineare Regressionsanalyse, 5. Ausgabevon Douglas C. Montgomery, Elizabeth A. Peck und G. Geoffrey Vining. Sehen Sie sich insbesondere die Beispiele auf Seite 460 an, in denen ein Binomial glm verwendet wird, und überprüfen Sie die Normalitätsannahme der "Deviance Residuals". Wie auf Seite 462 erwähnt, liegt dies daran, dass sich "die Abweichungs-Residuen ähnlich verhalten wie gewöhnliche Residuen in einem linearen Regressionsmodell mit normaler Theorie". Es ist also sinnvoll, wenn Sie sie sowohl auf der normalen Wahrscheinlichkeitsdiagrammskala als auch im Vergleich zu angepassten Werten darstellen. Siehe erneut Seite 456 der obigen Referenz. In den Beispielen, die sie auf den Seiten 460 und 461 bereitgestellt haben, haben sie nicht nur für den Binomialfall, sondern auch für Poisson glm und Gamma mit (link = log) die Normalität der Abweichungsreste überprüft.
Überprüfen Sie hier auch den Poisson-Fall.
quelle