Ching, Sie müssen Ihren Datensatz nicht in Bezug auf Einsen und Nullen ausbalancieren. Sie benötigen lediglich eine ausreichende Anzahl von Einsen, um die maximale Konvergenzwahrscheinlichkeit zu erreichen. Wenn Sie sich die Verteilung der Einsen (100.000) in Ihrem Datensatz ansehen, sollten Sie keine Probleme haben. Hier können Sie ein einfaches Experiment durchführen
- Probieren Sie 10% der Einsen und 10% der Nullen und verwenden Sie für beide ein Gewicht von 10
- Probieren Sie 100% der Einsen und 10% der Nullen und verwenden Sie ein Gewicht von 10 für die Nullen
In beiden Fällen erhalten Sie identische Schätzungen. Auch hier hängt die Idee der Gewichtung mit der Probenahme zusammen. Wenn Sie den gesamten Datensatz verwenden, sollten Sie ihn nicht gewichten. Wenn ich Sie wäre, würde ich nur 10% verwenden, wenn 1 und 10% von 0 ist.
In R würden Sie verwenden glm
. Hier ist ein Beispielcode:
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
In Ihrem Datensatz sollte sich eine Variable wt
für die Gewichte befinden.
Wenn Sie 10% der Nullen und der Einsen verwenden, hat Ihre wt
Variable den Wert 10.
Wenn Sie 10% der Nullen und 100% der Einsen verwenden, hat die wt
Variable den Wert 10 für Beobachtungen mit y = 0 und 1 für Beobachtungen mit y = 1