Ich möchte seltene Ereignisse in einer endlichen Population untersuchen. Da ich nicht sicher bin, welche Strategie am besten geeignet ist, würde ich mich über Tipps und Hinweise in Bezug auf diese Angelegenheit freuen, obwohl ich mir bewusst bin, dass sie weitgehend abgedeckt wurde. Ich weiß nur nicht wirklich, wo ich anfangen soll.
Mein Problem ist ein politikwissenschaftliches und ich habe eine begrenzte Bevölkerung mit 515.843 Aufzeichnungen. Sie sind einer binären abhängigen Variablen mit 513.334 "0" und 2.509 "1" zugeordnet. Ich kann meine "1" als seltene Ereignisse prägen, da sie nur 0,49% der Bevölkerung ausmachen.
Ich habe eine Menge von ungefähr 10 unabhängigen Variablen, mit denen ich ein Modell erstellen möchte, um das Vorhandensein von "1" zu erklären. Wie viele von uns las ich den Artikel von King & Zeng aus dem Jahr 2001 über die Korrektur seltener Ereignisse. Ihr Ansatz bestand darin, die Anzahl der "0" mithilfe eines Case-Control-Entwurfs zu verringern und dann den Achsenabschnitt zu korrigieren.
In diesem Beitrag heißt es jedoch, dass das Argument von King & Zeng nicht notwendig war, wenn ich meine Daten bereits über die gesamte Bevölkerung hinweg gesammelt habe, was mein Fall ist. Daher muss ich das klassische Logit-Modell verwenden. Obwohl ich gute signifikante Koeffizienten erhalte, ist mein Modell leider für die Vorhersage völlig unbrauchbar (99,48% meiner "1" werden nicht vorhergesagt).
Nachdem ich den Artikel von King & Zeng gelesen hatte, wollte ich ein Fall-Kontroll-Design ausprobieren und wählte nur 10% der "0" mit allen "1" aus. Mit fast den gleichen Koeffizienten konnte das Modell fast ein Drittel der "1" voraussagen, wenn es auf die Gesamtpopulation angewendet wurde. Natürlich gibt es viele falsch-positive.
Ich habe also drei Fragen, die ich Ihnen stellen möchte:
1) Wenn King & Zengs Herangehensweise vorurteilsfrei ist, wenn Sie die Bevölkerung genau kennen, warum verwenden sie dann eine Situation, in der sie die Bevölkerung in ihrem Artikel kennen, um ihren Standpunkt zu belegen?
2) Wenn ich gute und signifikante Koeffizienten in einer logit-Regression, aber eine sehr schlechte Vorhersagekraft habe, bedeutet das, dass die durch diese Variable erklärte Variation bedeutungslos ist?
3) Was ist der beste Ansatz, um mit seltenen Ereignissen umzugehen? Ich habe über das Relogit-Modell von King, Firths Ansatz, das genaue Logit usw. gelesen. Ich muss gestehen, dass ich unter all diesen Lösungen verloren bin.
quelle
Antworten:
(1) Wenn Sie "die vollständige Kenntnis einer Population" haben, warum benötigen Sie dann ein Modell, um Vorhersagen zu treffen? Ich vermute, Sie betrachten sie implizit als Stichprobe aus einer hypothetischen Superpopulation - siehe hier und hier . Sollten Sie also Beobachtungen aus Ihrer Probe wegwerfen? King & Zeng befürworten dies nicht:
Die Situation, von der ich denke, dass Sie sprechen, ist das Beispiel "Auswahl auf in militarisierten zwischenstaatlichen Konfliktdaten". K. & Z. Verwenden Sie sie, um ihren Standpunkt zu belegen: Wenn ein Forscher in diesem Beispiel versucht hätte, durch das Sammeln aller Einsen und eines Anteils der Nullen Einsparungen zu erzielen, wären ihre Schätzungen ähnlich denen, die alle verfügbaren Einsen und Nullen abgetastet haben. Wie würden Sie das sonst noch veranschaulichen?Y.
(2) Das Hauptproblem hierbei ist die Verwendung einer falschen Bewertungsregel , um die Vorhersageleistung Ihres Modells zu bewerten. Angenommen, Ihr Modell ist wahr , sodass Sie für jede Person die Wahrscheinlichkeit eines seltenen Ereignisses kannten - beispielsweise , dass Sie im nächsten Monat von einer Schlange gebissen werden. Was lernst du mehr, indem du einen willkürlichen Wahrscheinlichkeitsgrenzwert festlegst und vorhersagst, dass die darüber liegenden und die darunter liegenden nicht gebissen werden? Wenn Sie die Grenze auf 50% setzen, werden Sie wahrscheinlich vorhersagen, dass niemand gebissen wird. Wenn Sie es niedrig genug machen, können Sie vorhersagen, dass jeder gebissen wird. Na und? Für eine sinnvolle Anwendung eines Modells ist eine Unterscheidung erforderlich - wer sollte die einzige Ampulle gegen Gift erhalten? - oder eine Kalibrierung - für wen lohnt es sich, Stiefel zu kaufen, da die Kosten im Verhältnis zu denen eines Schlangenbisses stehen.
quelle
Auf einer Ebene frage ich mich, wie sehr die Ungenauigkeit Ihres Modells darauf zurückzuführen ist, dass Ihr Prozess schwer vorherzusagen ist und Ihre Variablen dazu nicht ausreichen. Gibt es andere Variablen, die mehr erklären könnten?
Wenn Sie andererseits Ihre abhängige Variable als ein Zählungs- / Ordnungsproblem (z. B. Verluste aufgrund von Konflikten oder Dauer von Konflikten) umwandeln können, versuchen Sie möglicherweise, eine auf Null erhöhte Zählungsregression oder Hürdenmodelle zu verwenden. Diese haben möglicherweise dasselbe Problem mit einer schlechten Definition zwischen 0 und 1, aber einige Konflikte, mit denen Ihre Variablen korrelieren, können von Null abweichen.
quelle
Zusätzlich zum Downsampling der Mehrheitsbevölkerung können Sie auch die seltenen Ereignisse überabtasten. Beachten Sie jedoch, dass ein Überabtasten der Minderheitsklasse zu einer Überanpassung führen kann. Überprüfen Sie die Dinge daher sorgfältig.
Dieses Papier kann mehr Informationen darüber geben: Yap, Bee Wah, et al. "Eine Anwendung von Oversampling, Undersampling, Bagging und Boosting beim Umgang mit unausgeglichenen Datensätzen." pdf
Außerdem möchte ich diese Frage verknüpfen , da sie das gleiche Problem ebenfalls behandelt
quelle
Ihre Frage besteht darin, wie ich die logit-Regression überreden kann, um eine bessere Lösung zu finden. Aber sind Sie sich überhaupt sicher, dass es eine bessere Lösung gibt? Konnten Sie mit nur zehn Parametern eine bessere Lösung finden?
Ich würde ein komplizierteres Modell ausprobieren, indem ich z. B. Produktbegriffe am Eingang hinzufüge oder eine Max-Out-Ebene auf der Zielseite hinzufüge (so dass Sie im Wesentlichen mehrere logistische Regressoren für verschiedene adaptiv entdeckte Teilmengen von Ziel-1-Werten haben).
quelle
Gute Frage.
Meiner Meinung nach geht es darum, ob Sie versuchen, Schlüsse zu ziehen (interessieren Sie sich für die Aussagen Ihrer Koeffizienten?) Oder um Vorhersagen. In letzterem Fall können Sie Modelle aus dem maschinellen Lernen (BART, randomForest, Boosted Trees usw.) ausleihen, die mit ziemlicher Sicherheit eine bessere Prognoseleistung erbringen als logit. Wenn Sie eine Folgerung durchführen und über so viele Datenpunkte verfügen, versuchen Sie, sinnvolle Interaktionsterme, Polynomterme usw. einzuschließen. Alternativ können Sie eine Folgerung aus BART durchführen, wie in diesem Artikel:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Ich habe in letzter Zeit einige Arbeiten zu seltenen Ereignissen durchgeführt und hatte vorher keine Ahnung, wie viele seltene Fälle die Analyse beeinflussen können. Das Downsampling der 0-Fälle ist ein Muss. Eine Strategie zur Ermittlung des idealen Down-Sample-Anteils wäre
Hoffe das hilft. JS
quelle