Welche Konsequenzen haben seltene Ereignisse für die logistische Regression?

9

Ich weiß, dass die Stichprobengröße die Leistung bei jeder statistischen Methode beeinflusst. Es gibt Faustregeln für die Anzahl der Stichproben, die eine Regression für jeden Prädiktor benötigt.

Ich höre auch oft, dass die Anzahl der Stichproben in jeder Kategorie in der abhängigen Variablen einer logistischen Regression wichtig ist. Warum ist das?

Was sind die tatsächlichen Konsequenzen für das logistische Regressionsmodell, wenn die Anzahl der Stichproben in einer der Kategorien gering ist (seltene Ereignisse)?

Gibt es Faustregeln, die sowohl die Anzahl der Prädiktoren als auch die Anzahl der Stichproben in jeder Ebene der abhängigen Variablen berücksichtigen?

Großartig38
quelle
stats.stackexchange.com/questions/306122/… stats.stackexchange.com/questions/178015/… (und viele ähnliche unbeantwortete Fragen)
kjetil b halvorsen
Ich denke, diese Referenz kann helfen. Manel, S., Williams, HC, Ormerod, SJ, 2001. Bewertung von An- und Abwesenheitsmodellen in der Ökologie: die Notwendigkeit, die Prävalenz zu berücksichtigen. J. Appl. Ecol. 38 (5), 921–931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Es gibt noch viel mehr über die Modellierung unausgeglichener Datensätze.
Rafa_Mas

Antworten:

11

Die Standard-Faustregel für die lineare (OLS) Regression lautet, dass Sie mindestens Daten pro Variable benötigen oder sich der Sättigung nähern . Für die logistische Regression gilt jedoch als Faustregel, dass Sie für jede Variable Daten der weniger häufig vorkommenden Kategorie wünschen . 151015

Das Problem hierbei ist, dass Binärdaten nicht so viele Informationen enthalten wie kontinuierliche Daten. Darüber hinaus können Sie mit vielen Daten perfekte Vorhersagen treffen, wenn Sie nur einige tatsächliche Ereignisse haben. Um ein Beispiel zu erstellen, das ziemlich extrem ist, aber sofort klar sein sollte, betrachten Sie einen Fall, in dem Sie , und versuchen Sie daher, ein Modell mit Prädiktoren anzupassen, das jedoch nur Ereignisse hatte. Sie können einfach nicht einmal die Assoziation zwischen den meisten Ihrer Variablen und schätzen . 30 3 X Y.N=300303XY

gung - Monica wieder einsetzen
quelle
2
+1 Bei seltenen Ereignissen benötigen Sie eine überraschend große Anzahl von Fällen, um den wahren Achsenabschnitt abzuschätzen ( Harrell , auf S. 233, sagt, dass insgesamt 96 Fälle 95% ige Sicherheit haben, die vorhergesagte Wahrscheinlichkeit innerhalb von 0,1 des wahren Wertes zu haben, wenn sie wahr ist Wahrscheinlichkeit ist nahe 0 in einem Intercept-Only-Modell), und wenn es eine unausgeglichene Stichprobe gibt, benötigen Sie möglicherweise eine Korrektur für seltene Ereignisse
EdM
1
So können seltene Ereignisse den geschätzten Achsenabschnitt beeinflussen. Verursachen seltene Ereignisse andere spezifische Probleme (Inkonsistenz, Instabilität, Konvergenzprobleme bei der Berechnung des MLE)?
Great38
@ Great38 Das Problem "perfekte Vorhersagen" in dieser Antwort kann zu Konvergenzproblemen und breiten Standardfehlern führen. Siehe diesen und andere Beiträge zum Hauck-Donner-Effekt oder zur perfekten Trennung.
EdM
10201060.00000000000001