Ich modelliere derzeit einige Daten mithilfe einer binären logistischen Regression. Die abhängige Variable hat eine gute Anzahl positiver und negativer Fälle - sie ist nicht spärlich. Ich habe auch ein großes Trainingsset (> 100.000) und die Anzahl der Haupteffekte, an denen ich interessiert bin, beträgt ungefähr 15, sodass ich mir keine Sorgen um ein Problem mache.
Was mich beunruhigt, ist, dass viele meiner Prädiktorvariablen, wenn sie stetig sind, die meiste Zeit Null sind und wenn sie nominal sind, die meiste Zeit Null sind. Wenn diese spärlichen Prädiktorvariablen einen Wert> 0 (oder nicht null) annehmen, weiß ich aufgrund der Vertrautheit mit den Daten, dass sie für die Vorhersage meiner positiven Fälle von Bedeutung sein sollten. Ich habe versucht, nach Informationen zu suchen, wie sich die Spärlichkeit dieser Prädiktoren auf mein Modell auswirken könnte.
Insbesondere möchte ich nicht, dass der Effekt einer spärlichen, aber wichtigen Variablen nicht in mein Modell aufgenommen wird, wenn es eine andere Prädiktorvariable gibt, die nicht spärlich und korreliert ist, aber tatsächlich die positiven Fälle nicht so gut vorhersagt .
Um ein Beispiel zu veranschaulichen: Wenn ich versuchen wollte zu modellieren, ob jemand an einer bestimmten Ivy-League-Universität akzeptiert wurde oder nicht, und meine drei Prädiktoren waren SAT-Score, GPA und "Spende> 1 Million Dollar" als Binärdatei, habe ich Grund zu glauben, dass "Spende> 1 Million Dollar", wenn es wahr ist, die Akzeptanz sehr vorhersagen wird - mehr als ein hoher GPA oder SAT -, aber es ist auch sehr spärlich. Wie wird sich dies, wenn überhaupt, auf mein Logistikmodell auswirken und muss ich hierfür Anpassungen vornehmen? Würde ein anderer Modelltyp (z. B. Entscheidungsbaum, zufällige Gesamtstruktur usw.) dies besser handhaben?
quelle