Ich eine logistische Regression mit unabhängigen Variablen und Beobachtungen durch. Ich bewerte die Modellanpassung, um festzustellen, ob die Daten den Modellannahmen entsprechen, und habe mit dem Paket das folgende gruppierte Restdiagramm erstellt:arm
R
Offensichtlich gibt es einige schlechte Anzeichen in dieser Darstellung: Viele Punkte liegen außerhalb der Konfidenzbänder und die Residuen weisen ein charakteristisches Muster auf. Meine Frage ist: Kann ich diese Probleme mit bestimmten Annahmen des logistischen Regressionsmodells verknüpfen? Kann ich zum Beispiel sagen, dass es Hinweise auf Nichtlinearität in den unabhängigen Variablen oder auf Heteroskedastizität gibt? Wenn nicht, kann ich andere Diagnosen erstellen, um festzustellen, wo das Problem liegt?
Basierend auf Daniels Antwort scheint das Hauptproblem zu sein, dass ich Residuen auf der Logit-Skala verwendet habe, aber erwartete Werte auf der Antwortskala. Wenn ich das Diagramm mit den Residuen auch auf der Antwortskala reproduziere, sieht es so aus:
das ist viel glaubwürdiger.
quelle
Antworten:
Entweder interpretiere ich Ihre Handlung falsch oder es gibt ein Problem. Die Tatsache, dass Sie negative Residuen für erwartete Werte nahe 0 haben, impliziert, dass Ihr Modell einen negativen Wert vorhersagt. Dies sollte für logistische Regressionsmodelle, die nur im Intervall (0, 1) vorhersagen, nicht möglich sein, es sei denn, Sie verwenden die Log-Odds-Ausgabe des Modells. In diesem Fall sollte der Restfehler undefiniert sein. Da die logistische Regression eine Klassifizierungsmethode ist, ist es sinnvoller, zuerst die Verwirrungsmatrix zu betrachten. Sie sollten auch angeben, ob das Diagramm auf den Zugdaten oder einem separaten Testsatz basiert.
quelle