Ich weiß, dass die Stichprobengröße die Leistung bei jeder statistischen Methode beeinflusst. Es gibt Faustregeln für die Anzahl der Stichproben, die eine Regression für jeden Prädiktor benötigt.
Ich höre auch oft, dass die Anzahl der Stichproben in jeder Kategorie in der abhängigen Variablen einer logistischen Regression wichtig ist. Warum ist das?
Was sind die tatsächlichen Konsequenzen für das logistische Regressionsmodell, wenn die Anzahl der Stichproben in einer der Kategorien gering ist (seltene Ereignisse)?
Gibt es Faustregeln, die sowohl die Anzahl der Prädiktoren als auch die Anzahl der Stichproben in jeder Ebene der abhängigen Variablen berücksichtigen?
logistic
assumptions
rare-events
Großartig38
quelle
quelle
Antworten:
Die Standard-Faustregel für die lineare (OLS) Regression lautet, dass Sie mindestens Daten pro Variable benötigen oder sich der Sättigung nähern . Für die logistische Regression gilt jedoch als Faustregel, dass Sie für jede Variable Daten der weniger häufig vorkommenden Kategorie wünschen . 1510 fünfzehn
Das Problem hierbei ist, dass Binärdaten nicht so viele Informationen enthalten wie kontinuierliche Daten. Darüber hinaus können Sie mit vielen Daten perfekte Vorhersagen treffen, wenn Sie nur einige tatsächliche Ereignisse haben. Um ein Beispiel zu erstellen, das ziemlich extrem ist, aber sofort klar sein sollte, betrachten Sie einen Fall, in dem Sie , und versuchen Sie daher, ein Modell mit Prädiktoren anzupassen, das jedoch nur Ereignisse hatte. Sie können einfach nicht einmal die Assoziation zwischen den meisten Ihrer Variablen und schätzen . 30 3 X Y.N.= 300 30 3 X. Y.
quelle