Strategie zur Bewältigung der logistischen Rückführung seltener Ereignisse

27

Ich möchte seltene Ereignisse in einer endlichen Population untersuchen. Da ich nicht sicher bin, welche Strategie am besten geeignet ist, würde ich mich über Tipps und Hinweise in Bezug auf diese Angelegenheit freuen, obwohl ich mir bewusst bin, dass sie weitgehend abgedeckt wurde. Ich weiß nur nicht wirklich, wo ich anfangen soll.

Mein Problem ist ein politikwissenschaftliches und ich habe eine begrenzte Bevölkerung mit 515.843 Aufzeichnungen. Sie sind einer binären abhängigen Variablen mit 513.334 "0" und 2.509 "1" zugeordnet. Ich kann meine "1" als seltene Ereignisse prägen, da sie nur 0,49% der Bevölkerung ausmachen.

Ich habe eine Menge von ungefähr 10 unabhängigen Variablen, mit denen ich ein Modell erstellen möchte, um das Vorhandensein von "1" zu erklären. Wie viele von uns las ich den Artikel von King & Zeng aus dem Jahr 2001 über die Korrektur seltener Ereignisse. Ihr Ansatz bestand darin, die Anzahl der "0" mithilfe eines Case-Control-Entwurfs zu verringern und dann den Achsenabschnitt zu korrigieren.

In diesem Beitrag heißt es jedoch, dass das Argument von King & Zeng nicht notwendig war, wenn ich meine Daten bereits über die gesamte Bevölkerung hinweg gesammelt habe, was mein Fall ist. Daher muss ich das klassische Logit-Modell verwenden. Obwohl ich gute signifikante Koeffizienten erhalte, ist mein Modell leider für die Vorhersage völlig unbrauchbar (99,48% meiner "1" werden nicht vorhergesagt).

Nachdem ich den Artikel von King & Zeng gelesen hatte, wollte ich ein Fall-Kontroll-Design ausprobieren und wählte nur 10% der "0" mit allen "1" aus. Mit fast den gleichen Koeffizienten konnte das Modell fast ein Drittel der "1" voraussagen, wenn es auf die Gesamtpopulation angewendet wurde. Natürlich gibt es viele falsch-positive.

Ich habe also drei Fragen, die ich Ihnen stellen möchte:

1) Wenn King & Zengs Herangehensweise vorurteilsfrei ist, wenn Sie die Bevölkerung genau kennen, warum verwenden sie dann eine Situation, in der sie die Bevölkerung in ihrem Artikel kennen, um ihren Standpunkt zu belegen?

2) Wenn ich gute und signifikante Koeffizienten in einer logit-Regression, aber eine sehr schlechte Vorhersagekraft habe, bedeutet das, dass die durch diese Variable erklärte Variation bedeutungslos ist?

3) Was ist der beste Ansatz, um mit seltenen Ereignissen umzugehen? Ich habe über das Relogit-Modell von King, Firths Ansatz, das genaue Logit usw. gelesen. Ich muss gestehen, dass ich unter all diesen Lösungen verloren bin.

Damien
quelle
Die Zahl kommt mir bekannt vor ... vielleicht ein Datensatz über ethnische Konflikte? Wenn ja, es ist eine Zeitreihe - ich habe ein Überlebensmodell für einen großen Erfolg in einer ethnischen Konfliktstudie verwendet ...
Christian Sauer
Nahe genug. Es ist ein Datensatz über den Ort von Konfliktereignissen in Afrika. Ich untersuche jedoch den Ort dieser Ereignisse, ohne Zeit zu berücksichtigen.
Damien
1
Ah, viele meiner Fälle kamen aus Afrika, da dort ethnische Konflikte weit verbreitet sind. Studierst du Geographie? Wäre es ein großes Problem, die Zeit zu berücksichtigen? Ich fand es wirklich nützlich, vor allem, weil sich bestimmte Variablen mit der Zeit ändern (politisches System, kalter Krieg usw.)
Christian Sauer
Ich verwende den GED-Datensatz der UCDP, der den Zeitraum 1989-2010 abdeckt. Ich interessiere mich für die geografischen Faktoren, die bei der Lokalisierung von Konfliktereignissen eine Rolle spielen können. Zeitunterschiede haben sicherlich viel zu sagen, aber die beantworteten Fragen sind unterschiedlich. Außerdem sind viele meiner unabhängigen Variablen entweder für verschiedene Zeiträume nicht verfügbar (Landbedeckung) oder haben sich überhaupt nicht geändert (Topografie)
Damien
1
"(99,48% meiner" 1 "können nicht vorhergesagt werden)." Das klingt so, als würden Sie eine willkürliche Cutoff-Regel [z. B. 0,5!] zur Klassifizierung verwenden, während die logistische Regression so
aussieht,

Antworten:

17

(1) Wenn Sie "die vollständige Kenntnis einer Population" haben, warum benötigen Sie dann ein Modell, um Vorhersagen zu treffen? Ich vermute, Sie betrachten sie implizit als Stichprobe aus einer hypothetischen Superpopulation - siehe hier und hier . Sollten Sie also Beobachtungen aus Ihrer Probe wegwerfen? King & Zeng befürworten dies nicht:

In Bereichen wie den internationalen Beziehungen ist die Anzahl der beobachtbaren Einsen (z. B. Kriege) streng begrenzt. In den meisten Fällen ist es daher am besten, alle verfügbaren Einsen oder eine große Stichprobe davon zu sammeln. Die einzig richtige Entscheidung ist dann, wie viele Nullen ebenfalls gesammelt werden müssen. Wenn das Sammeln von Nullen kostenlos ist, sollten wir so viele wie möglich sammeln, da mehr Daten immer besser sind.

Die Situation, von der ich denke, dass Sie sprechen, ist das Beispiel "Auswahl auf in militarisierten zwischenstaatlichen Konfliktdaten". K. & Z. Verwenden Sie sie, um ihren Standpunkt zu belegen: Wenn ein Forscher in diesem Beispiel versucht hätte, durch das Sammeln aller Einsen und eines Anteils der Nullen Einsparungen zu erzielen, wären ihre Schätzungen ähnlich denen, die alle verfügbaren Einsen und Nullen abgetastet haben. Wie würden Sie das sonst noch veranschaulichen?Y

(2) Das Hauptproblem hierbei ist die Verwendung einer falschen Bewertungsregel , um die Vorhersageleistung Ihres Modells zu bewerten. Angenommen, Ihr Modell ist wahr , sodass Sie für jede Person die Wahrscheinlichkeit eines seltenen Ereignisses kannten - beispielsweise , dass Sie im nächsten Monat von einer Schlange gebissen werden. Was lernst du mehr, indem du einen willkürlichen Wahrscheinlichkeitsgrenzwert festlegst und vorhersagst, dass die darüber liegenden und die darunter liegenden nicht gebissen werden? Wenn Sie die Grenze auf 50% setzen, werden Sie wahrscheinlich vorhersagen, dass niemand gebissen wird. Wenn Sie es niedrig genug machen, können Sie vorhersagen, dass jeder gebissen wird. Na und? Für eine sinnvolle Anwendung eines Modells ist eine Unterscheidung erforderlich - wer sollte die einzige Ampulle gegen Gift erhalten? - oder eine Kalibrierung - für wen lohnt es sich, Stiefel zu kaufen, da die Kosten im Verhältnis zu denen eines Schlangenbisses stehen.

Scortchi - Wiedereinsetzung von Monica
quelle
Vielen Dank für Ihre Antwort. Wäre es in Bezug auf (1) angemessener, über eine Stichprobe der Beobachtungen zu sprechen, die wir bisher kennen, um die Möglichkeit zukünftiger Ereignisse zu berücksichtigen? In Bezug auf (2) habe ich einen Moment lang versucht, herauszufinden, was eine Bewertungsregel ist. Wenn ich den Wikipedia-Artikel richtig verstehe, sollte ich die Bewertungsfunktion über verschiedene Wahrscheinlichkeitswerte variieren, für die das Ereignis voraussichtlich eintreten wird, und dann als Grenzwert die Wahrscheinlichkeit wählen, die die höchste Punktzahl hatte. Wie soll ich den erwarteten Wert implementieren, wenn ich die logarithmische Bewertungsregel wähle?
Damien
1
(1) Ja, stellen Sie sich vor, sie stammen aus einer Population, aus der zukünftige Ereignisse hervorgehen. (2) Vergessen Sie die Abschaltungen. Der Bereich unter der Betriebskennlinie des Empfängers ist nützlich für die Beurteilung der reinen Diskriminierung; Verwenden Sie für die Gesamtleistung eine Metrik, die die Größe der Differenz zwischen Vorhersagen und Ergebnissen berücksichtigt - beispielsweise Brier-Scores (quadratisch) oder Nagelkerkes (logarithmisch). R2
Scortchi
@Scortchi: Würden Sie also die logistische Regression für die Anzahl der Beobachtungen / Fälle wie bei den Operationen (z. B. mit ~ 10 kontinuierlichen Prädiktoren) befürworten, wenn eine Wahrscheinlichkeit für einen Fall erforderlich ist, die unterschätzt zu werden scheint? danke
user2957945
3

Auf einer Ebene frage ich mich, wie sehr die Ungenauigkeit Ihres Modells darauf zurückzuführen ist, dass Ihr Prozess schwer vorherzusagen ist und Ihre Variablen dazu nicht ausreichen. Gibt es andere Variablen, die mehr erklären könnten?

Wenn Sie andererseits Ihre abhängige Variable als ein Zählungs- / Ordnungsproblem (z. B. Verluste aufgrund von Konflikten oder Dauer von Konflikten) umwandeln können, versuchen Sie möglicherweise, eine auf Null erhöhte Zählungsregression oder Hürdenmodelle zu verwenden. Diese haben möglicherweise dasselbe Problem mit einer schlechten Definition zwischen 0 und 1, aber einige Konflikte, mit denen Ihre Variablen korrelieren, können von Null abweichen.

gregmacfarlane
quelle
4
(+1) Gute Vorschläge. Ich möchte jedoch darauf hinweisen, dass die "Ungenauigkeit" des Modells lediglich ein Fehler ist, viele Wahrscheinlichkeiten über 50% vorherzusagen. Wenn die "1" typischerweise Wahrscheinlichkeiten von 10% bis 40% haben, verglichen mit etwas weniger als 0,5% für die "0" - würde dies in vielen Anwendungen als starke Vorhersage-Leistung angesehen.
Scortchi
2

Zusätzlich zum Downsampling der Mehrheitsbevölkerung können Sie auch die seltenen Ereignisse überabtasten. Beachten Sie jedoch, dass ein Überabtasten der Minderheitsklasse zu einer Überanpassung führen kann. Überprüfen Sie die Dinge daher sorgfältig.

Dieses Papier kann mehr Informationen darüber geben: Yap, Bee Wah, et al. "Eine Anwendung von Oversampling, Undersampling, Bagging und Boosting beim Umgang mit unausgeglichenen Datensätzen." pdf

Außerdem möchte ich diese Frage verknüpfen , da sie das gleiche Problem ebenfalls behandelt

Alexey Grigorev
quelle
0

Ihre Frage besteht darin, wie ich die logit-Regression überreden kann, um eine bessere Lösung zu finden. Aber sind Sie sich überhaupt sicher, dass es eine bessere Lösung gibt? Konnten Sie mit nur zehn Parametern eine bessere Lösung finden?

Ich würde ein komplizierteres Modell ausprobieren, indem ich z. B. Produktbegriffe am Eingang hinzufüge oder eine Max-Out-Ebene auf der Zielseite hinzufüge (so dass Sie im Wesentlichen mehrere logistische Regressoren für verschiedene adaptiv entdeckte Teilmengen von Ziel-1-Werten haben).

Neil G
quelle
Danke für deine Antwort. Ich werde auf jeden Fall versuchen, meine Variablen auf verschiedene Arten zu kombinieren. Aber vorher möchte ich wissen, ob die schlechten Leistungen meines Modells von technischen Problemen oder von einem anderen Ort
Damien,
-1

Gute Frage.

Meiner Meinung nach geht es darum, ob Sie versuchen, Schlüsse zu ziehen (interessieren Sie sich für die Aussagen Ihrer Koeffizienten?) Oder um Vorhersagen. In letzterem Fall können Sie Modelle aus dem maschinellen Lernen (BART, randomForest, Boosted Trees usw.) ausleihen, die mit ziemlicher Sicherheit eine bessere Prognoseleistung erbringen als logit. Wenn Sie eine Folgerung durchführen und über so viele Datenpunkte verfügen, versuchen Sie, sinnvolle Interaktionsterme, Polynomterme usw. einzuschließen. Alternativ können Sie eine Folgerung aus BART durchführen, wie in diesem Artikel:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Ich habe in letzter Zeit einige Arbeiten zu seltenen Ereignissen durchgeführt und hatte vorher keine Ahnung, wie viele seltene Fälle die Analyse beeinflussen können. Das Downsampling der 0-Fälle ist ein Muss. Eine Strategie zur Ermittlung des idealen Down-Sample-Anteils wäre

  1. Nehmen Sie alle Ihre Einsen, nehmen wir an, Sie haben n1 von ihnen.
  2. Setze einen Wert z = Vielfaches von n1, das du zeichnen willst; vielleicht bei 5 beginnen und auf 1 reduzieren.
  3. z * n1 0 Beobachtungen zeichnen
  4. Schätzen Sie Ihr Modell anhand einer Stichprobe Ihrer Teilmengen-Daten, und stellen Sie sicher, dass Sie eine Kreuzvalidierung für den gesamten Datensatz durchführen
  5. Speichern Sie die relevanten Anpassungsmaße, an denen Sie interessiert sind: interessierende Koeffizienten, AUC einer ROC-Kurve, relevante Werte in einer Verwirrungsmatrix usw.
  6. Wiederholen Sie die Schritte 2: 5 für mehrere kleinere zs. Sie werden wahrscheinlich feststellen, dass sich das Verhältnis von falsch-negativ zu falsch-positiv (in Ihrem Test-Set) verringert, wenn Sie die Stichprobe heruntertasten. Das heißt, Sie werden anfangen, mehr Einsen vorherzusagen, hoffentlich sind das wirklich Einsen, aber auch viele, die tatsächlich Nullen sind. Wenn diese Fehlklassifizierung einen Sattelpunkt enthält, wäre dies ein gutes Down-Sample-Verhältnis.

Hoffe das hilft. JS

Jim
quelle
1
(-1) Überhaupt keine Notwendigkeit, die logistische Regression zu reduzieren. Sehen Sie hier ; Durch Auswahl der Antwort wird nur der erwartete Achsenabschnitt geändert, sodass die Genauigkeit der geschätzten Quotenverhältnisse durch Heruntertasten nur verringert wird. Mit der logistischen Regression erhalten Sie prognostizierte Wahrscheinlichkeiten, die Sie zur Klassifizierung anhand von Schwellenwerten verwenden können, die unter Berücksichtigung der Kosten für verschiedene Arten von Fehlklassifizierungen berechnet wurden, oder die Sie zur Einstufung von Personen verwenden oder die an ihrem eigenen Recht interessiert sind.
Scortchi
Sie werden bemerken, dass ich die Verwendung der logistischen Regression nicht erwähnt habe und stattdessen vorgeschlagen habe, dass es Methoden gibt (wie heruntergesampelte BART), die wahrscheinlich für seltene Fälle besser geeignet sind.
Jim
Die Frage bezieht sich auf die logistische Regression und auf die Frage, ob Sie dabei die logistische Regression herunterrechnen sollen. Es ist daher nicht klar, ob Ihr Ratschlag zum Downsampling nur für alternative Methoden gedacht ist. Vielleicht sollten Sie Ihre Antwort überlegen, um es klarer zu machen.
Scortchi