Bei der linearen Regression können wir die Diagnosediagramme (Residuendiagramme, normale QQ-Diagramme usw.) überprüfen, um zu überprüfen, ob die Annahmen der linearen Regression verletzt werden.
Bei der logistischen Regression habe ich Probleme, Ressourcen zu finden, die erläutern, wie die Anpassung des logistischen Regressionsmodells diagnostiziert wird. In einigen Kursnotizen zu GLM wird lediglich angegeben, dass die Überprüfung der Residuen für die Diagnose einer logistischen Regressionsanpassung nicht hilfreich ist.
Im Internet scheint es auch verschiedene "Diagnose" -Verfahren zu geben, z. B. das Überprüfen der Modellabweichung und das Durchführen von Chi-Quadrat-Tests. Andere Quellen geben jedoch an, dass dies unangemessen ist und dass Sie eine Hosmer-Lemeshow-Anpassungsgüte durchführen sollten Prüfung. Dann finde ich andere Quellen, aus denen hervorgeht, dass dieser Test möglicherweise stark von den tatsächlichen Gruppierungen und Grenzwerten abhängt (möglicherweise nicht zuverlässig).
Wie sollte man also die logistische Regression diagnostizieren?
quelle
Antworten:
Einige neuere Techniken, mit denen ich die Anpassung logistischer Regressionsmodelle beurteilen kann, stammen aus politikwissenschaftlichen Fachzeitschriften:
Diese beiden Techniken sollen die Anpassungstests (wie Hosmer & Lemeshow) ersetzen und potenzielle Fehlspezifikationen (insbesondere Nichtlinearität der in die Gleichung einbezogenen Variablen) identifizieren. Diese sind besonders nützlich, da typische R-Quadrat-Anpassungsmaße häufig kritisiert werden .
Beide oben genannten Arbeiten verwenden vorhergesagte Wahrscheinlichkeiten im Vergleich zu beobachteten Ergebnissen in Parzellen, wodurch die unklare Frage, was in solchen Modellen ein Residuum ist, etwas vermieden wird . Beispiele für Residuen könnten Beiträge zur logarithmischen Wahrscheinlichkeit oder Pearson-Residuen sein (ich glaube, es gibt jedoch noch viel mehr). Eine weitere Kennzahl, die häufig von Interesse ist (obwohl sie kein Residuum ist), ist die DFBeta-Kennzahl (der Betrag, den eine Koeffizientenschätzung ändert, wenn eine Beobachtung aus dem Modell ausgeschlossen wird). Siehe Beispiele in Stata für diese UCLA-Seite zur logistischen Regressionsdiagnose zusammen mit anderen potenziellen Diagnoseverfahren.
Ich habe es nicht zur Hand, aber ich glaube, J. Scott Longs Regressionsmodelle für kategoriale und begrenzte abhängige Variablen gehen auf einfache Weise auf alle diese verschiedenen Diagnosemaßnahmen ausreichend ein.
quelle
Die Frage war nicht gut genug motiviert. Es muss einen Grund geben, eine Modelldiagnose durchzuführen, z
Abgesehen von der Überprüfung von Dingen, die orthogonal zur algebraischen Regressionsspezifikation sind (z. B. Untersuchung der Verteilung von Residuen in gewöhnlichen linearen Modellen), kann die Modelldiagnose so viele Probleme verursachen, wie sie meiner Meinung nach lösen. Dies gilt insbesondere für das binäre Logistikmodell, da keine Verteilungsannahme vorliegt.
Daher ist es in der Regel besser, Zeit damit zu verbringen, das Modell zu spezifizieren, insbesondere, keine Linearität für Variablen anzunehmen, die für stark gehalten werden und für die keine vorherigen Beweise auf Linearität hindeuten. In einigen Fällen können Sie ein Modell vorab angeben, das passen muss , z. B. wenn die Anzahl der Prädiktoren gering ist oder Sie zulassen, dass alle Prädiktoren nichtlinear sind und (korrekt) keine Interaktionen annehmen.
Jeder, der der Ansicht ist, dass die Modelldiagnose zum Ändern des Modells verwendet werden kann, sollte diesen Prozess in einer Bootstrap-Schleife ausführen, um die induzierten Modellunsicherheiten korrekt abzuschätzen.
quelle
Dieser Thread ist ziemlich alt, aber ich dachte, es wäre nützlich, hinzuzufügen, dass Sie seit kurzem das DHARMa R-Paket verwenden können, um die Residuen eines beliebigen GL (M) M in einen standardisierten Raum umzuwandeln. Sobald dies erledigt ist, können Sie verbleibende Probleme wie Abweichungen von der Verteilung, verbleibende Abhängigkeit von einem Prädiktor, Heteroskedastizität oder Autokorrelation auf normale Weise visuell bewerten / testen. In der Paketvignette finden Sie ausgearbeitete Beispiele sowie weitere Fragen zum Lebenslauf hier und hier .
quelle