Residuen für logistische Regression und Cooks Distanz

10
  1. Gibt es bestimmte Annahmen bezüglich der Fehler für die logistische Regression, wie die konstante Varianz der Fehlerterme und die Normalität der Residuen?

  2. Entfernen Sie diese normalerweise auch, wenn Sie Punkte haben, deren Kochabstand größer als 4 / n ist? Wenn Sie sie entfernen, wie können Sie feststellen, ob das Modell mit den entfernten Punkten besser ist?

lord12
quelle

Antworten:

12

Ich weiß nicht, ob ich Ihnen eine vollständige Antwort geben kann, aber ich kann Ihnen einige Gedanken geben, die hilfreich sein können. Erstens haben alle statistischen Modelle / Tests Annahmen. Die logistische Regression setzt jedoch nicht voraus, dass die Residuen normal verteilt sind oder dass die Varianz konstant ist. Vielmehr wird angenommen, dass die Daten als Binomial , dh mit der Anzahl der Bernoulli-Versuche gleich der Anzahl der Beobachtungen bei genau diesem Satz von Kovariatenwerten und mit dem Wahrscheinlichkeit, die mit diesem Satz von kovariaten Werten verbunden ist. Denken Sie daran, dass die Varianz eines Binomials n p (B(nxi,pxi) . Wenn also die n auf verschiedenen Ebenen der Kovariate variieren, werden auch die Varianzen variieren. Wenn sich eine der Kovariaten überhaupt auf die Antwortvariable bezieht, variieren die Wahrscheinlichkeiten und damit auch die Varianzen. Dies sind wichtige Fakten zur logistischen Regression. np(1p)n

R2R2R2R2R2R2s und die Jackknifed-Verteilungen, da Sie diese Daten ausgewählt haben, um sie auszuschließen, da sie extrem erscheinen.

gung - Monica wieder einsetzen
quelle
8

1) Gibt es bestimmte Annahmen bezüglich der Fehler für die logistische Regression, wie die konstante Varianz der Fehlerterme und die Normalität der Residuen?

Logistische Regressionsmodelle weisen keine "Fehler" im herkömmlichen Sinne auf. Es ist sowohl kontraintuitiv als auch methodisch inkonsistent. Die Modellergebnisse sind angepasste Wahrscheinlichkeiten oder Risiken, während die beobachteten Ergebnisse 0/1 Ereignisindikatoren sind. Methodisch tendieren Sie dazu, Bereiche mit sehr hohen oder sehr niedrigen Anpassungswahrscheinlichkeiten zu unterschätzen (was sehr kleine Beträge zum Restabstand beiträgt), während der Modellanpassungsalgorithmus solchen Regionen eine erheblich höhere Bedeutung beimisst. Die quadratische Entfernung ist im Allgemeinen eine schlechte Methode zur Kalibrierung eines logistischen Regressionsmodells.

Ein alternativer Anpassungstest ist der Hosmer-Lemeshow-Test, bei dem die angepassten Werte verwendet werden, um gruppierte Partitionen basierend auf Dezilen des angepassten Risikos zu erstellen. Sie können über diesen Test in Alan Agrestis Categorical Data Analysis oder im Buch Logistic Regression von Hosmer und Lemeshow lesen. Ein anderer Prozess besteht darin, die studentisierten Residuen zu verwenden, wobei die mittlere Varianzbeziehung verwendet wird, um Residuen durch ihre angepasste inverse Varianz neu zu gewichten . Für die logistische Regression ist dies

rstud=Yμμ(1μ)

2) Entfernen Sie diese normalerweise auch, wenn Sie Punkte haben, deren Kochabstand größer als 4 / n ist? Wenn Sie sie entfernen, wie können Sie feststellen, ob das Modell mit den entfernten Punkten besser ist?

Ich entferne niemals Punkte, die auf Sensitivitätsanalysen basieren. Wenn ich eine Zufallsstichprobe von 100 Personen und deren Einkommen mache und 1 Person zufällig ein Milliardär ist, dann ist meine sicherste Annahme, dass 1 Milliardär 1/100 der Bevölkerung repräsentiert.

AdamO
quelle
Warum würden Sie annehmen, dass der 1-Milliardär 1/100 der Bevölkerung repräsentiert? Sie könnten wahrscheinlich eine externe Schätzung des Anteils der Milliardäre an der Bevölkerung erhalten!
kjetil b halvorsen
6

Ich stimme dem obigen Kommentar von AdamO im Allgemeinen zu - vorausgesetzt, 1 Milliardär repräsentiert 1/100 der Bevölkerung, ist völlig in Ordnung. Wenn jedoch die Anwesenheit des 1-Milliardärs die Daten so stark verzerrt, dass die Vorhersage für die anderen 99 Personen beeinträchtigt wird, würde ich den 1-Milliardär entfernen. Ich würde mich lieber mit der Vorhersage eines Ausreißers irren als mit allen anderen.

Wenn Sie jedoch Datenpunkte mit Cooks D-Werten entfernen (dh alles> 4 / df), können Sie die Fläche unter den ROC-Kurven für beide Modelle verwenden, um nach Verbesserungen zu suchen.

Sanjay Saravanan
quelle
1
(+1) Die Modellierung der Beziehung zwischen den logarithmischen Gewinnchancen und dem Einkommen mit einem natürlichen Spline, die möglicherweise das Einkommen im Voraus transformiert, ist ein weiterer Weg, um zu vermeiden, dass der Milliardär die Vorhersagen für die anderen übermäßig beeinflusst. Wenn Sie ihn entfernen, sind Sie froh, keine Vorhersagen für andere Milliardäre zu treffen (fair genug), anstatt falsche Vorhersagen über sie zu treffen.
Scortchi - Monica wieder einsetzen
Ironischerweise kann das Ausschließen einflussreicher Beobachtungen bei der Vorhersage binärer Ereignisse zu einer besseren Kalibrierung der Risikovorhersagen führen. Das Ausschließen einflussreicher Beobachtungen verringert jedoch die Diskriminierung von Risikoprognosen. Letzteres ist wohl wichtiger. Wenn es darum geht, das Risiko eines bestimmten Ereignisses vorherzusagen (das entweder 0 oder 1 ist und nicht kontinuierlich bewertet wird), werden durch die beste Art der Vorhersage die Vorhersagen der Fälle näher an 1 und die Vorhersagen der Kontrollen näher an 0 gebracht. Punkte mit hohem Einfluss sind häufig wirksam dabei.
AdamO