Interpretation eines gruppierten Restplots in der logistischen Regression

8

Ich eine logistische Regression mit unabhängigen Variablen und Beobachtungen durch. Ich bewerte die Modellanpassung, um festzustellen, ob die Daten den Modellannahmen entsprechen, und habe mit dem Paket das folgende gruppierte Restdiagramm erstellt:24123,996arm R

Geben Sie hier die Bildbeschreibung ein

Offensichtlich gibt es einige schlechte Anzeichen in dieser Darstellung: Viele Punkte liegen außerhalb der Konfidenzbänder und die Residuen weisen ein charakteristisches Muster auf. Meine Frage ist: Kann ich diese Probleme mit bestimmten Annahmen des logistischen Regressionsmodells verknüpfen? Kann ich zum Beispiel sagen, dass es Hinweise auf Nichtlinearität in den unabhängigen Variablen oder auf Heteroskedastizität gibt? Wenn nicht, kann ich andere Diagnosen erstellen, um festzustellen, wo das Problem liegt?


Basierend auf Daniels Antwort scheint das Hauptproblem zu sein, dass ich Residuen auf der Logit-Skala verwendet habe, aber erwartete Werte auf der Antwortskala. Wenn ich das Diagramm mit den Residuen auch auf der Antwortskala reproduziere, sieht es so aus:

Geben Sie hier die Bildbeschreibung ein

das ist viel glaubwürdiger.

M. Berk
quelle
1
Bitte beschreiben Sie die statistische Theorie, die impliziert, dass ein solches Restdiagramm nützlich ist.
Frank Harrell
@FrankHarrell Siehe Diskussion von 17 in Gelman et al. (2000) "Diagnoseprüfungen für diskrete Datenregressionsmodelle unter Verwendung von posterioren Vorhersagesimulationen" - hier verfügbar: stat.columbia.edu/~gelman/research/published/dogs.pdf . Auch Seite 97 von Andrew Gelman und Jennifer Hill, Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen, Cambridge University Press
M. Berk
Können Sie zusammenfassen, was genau Sie mit solchen Handlungen versuchen? Für die binäre logistische Regression gibt es keine Verteilungsannahme, und für Regressionsannahmen ist es am besten, das Modell nur flexibel anzupassen (Regressionssplines usw.) oder traditionelle partielle Residuendiagramme zu verwenden.
Frank Harrell
@FrankHarrell Ich habe die Frage bearbeitet, um zu verdeutlichen, dass ich zu beurteilen versuche, ob die Daten den Modellannahmen entsprechen. Vielen Dank für die Einführung in partielle Residuendiagramme. Ich denke, das ist genau das, wonach ich suche.
M. Berk

Antworten:

4

Entweder interpretiere ich Ihre Handlung falsch oder es gibt ein Problem. Die Tatsache, dass Sie negative Residuen für erwartete Werte nahe 0 haben, impliziert, dass Ihr Modell einen negativen Wert vorhersagt. Dies sollte für logistische Regressionsmodelle, die nur im Intervall (0, 1) vorhersagen, nicht möglich sein, es sei denn, Sie verwenden die Log-Odds-Ausgabe des Modells. In diesem Fall sollte der Restfehler undefiniert sein. Da die logistische Regression eine Klassifizierungsmethode ist, ist es sinnvoller, zuerst die Verwirrungsmatrix zu betrachten. Sie sollten auch angeben, ob das Diagramm auf den Zugdaten oder einem separaten Testsatz basiert.

Daniel Mahler
quelle
Ich glaube, Sie haben das Problem richtig identifiziert. Ich habe die Residuen auf der Logit-Skala und die angepassten Werte auf der Antwortskala (dh zwischen 0 und 1). Ich habe die Handlung mit den Residuen auf der Antwortskala reproduziert und sie sieht viel glaubwürdiger aus.
M. Berk