Wie prognostizieren wir seltene Ereignisse?

Ich arbeite an der Entwicklung eines Vorhersagemodells für Versicherungsrisiken. Bei diesen Modellen handelt es sich um "seltene Ereignisse" wie No-Show-Vorhersage von Fluggesellschaften, Erkennung von Hardwarefehlern usw. Als ich meinen Datensatz vorbereitete, versuchte ich, eine Klassifizierung anzuwenden, konnte jedoch aufgrund des hohen Anteils negativer Fälle keine nützlichen Klassifizierer erhalten .

Ich habe nicht viel Erfahrung in Statistik und Modellierung von Daten über einen Statistikkurs in der High School hinaus, daher bin ich etwas verwirrt.

Als ersten Gedanken habe ich darüber nachgedacht, ein inhomogenes Poisson-Prozessmodell zu verwenden. Ich habe es anhand von Ereignisdaten (Datum, Lat, Lon) klassifiziert, um eine gute Schätzung der Wahrscheinlichkeit eines Risikos zu einer bestimmten Zeit an einem bestimmten Tag an einem bestimmten Ort zu erhalten.

Ich würde gerne wissen, mit welchen Methoden / Algorithmen seltene Ereignisse vorhergesagt werden können.
Was empfehlen Sie als Ansatz zur Lösung dieses Problems?

classification predictive-models scikit-learn poisson-process user3378649
quelle

Der Standardansatz ist " Extremwerttheorie ", es gibt ein ausgezeichnetes Buch zu diesem Thema von Stuart Coles (obwohl der aktuelle Preis eher ähm ... extrem erscheint).

Der Grund, warum Sie mit Klassifizierungs- oder Regressionsmethoden wahrscheinlich keine guten Ergebnisse erzielen, besteht darin, dass diese Methoden in der Regel von der Vorhersage des bedingten Mittelwerts der Daten abhängen und extreme Ereignisse normalerweise durch die Verbindung von "zufälligen" Faktoren verursacht werden, die alle in derselben Richtung ausgerichtet sind. Sie befinden sich also im Ende der Verteilung plausibler Ergebnisse, die normalerweise weit vom bedingten Mittelwert entfernt sind. Was Sie tun können, ist, die gesamte bedingte Verteilung und nicht nur ihren Mittelwert vorherzusagen und Informationen über die Wahrscheinlichkeit eines Extremereignisses zu erhalten, indem Sie das Ende der Verteilung über einem bestimmten Schwellenwert integrieren. Ich fand, dass dies in einer Anwendung zur statistischen Verkleinerung von Starkniederschlägen gut funktionierte .

Dikran Beuteltier
quelle

Gibt es eine Implementierung dieser Theorie auf Python?

user3378649

Entschuldigung, ich programmiere (noch) nicht in Python, daher kann ich dort nicht helfen.

Dikran Beuteltier

Entschuldigung, ich verstehe Ihre Argumentation nicht ganz. Angenommen, Sie haben rv und Prädiktoren ; Sie vorhersagen, wann , was selten vorkommt. Warum können Sie kein Standardklassifizierungsmodell anpassen, um die bedingte Wahrscheinlichkeit zu schätzen - sagen wir, logistische Regression? Wenn ich das richtig verstehe, sagen Sie, dass die Modellierung des bedingten Mittelwerts keine nützlichen Informationen über das Extremereignis . Dies ist wahr. Aber wir können Verwendung einer Standardklassifikation ohne Extremwerttheorie schätzen - nein?

y

$y$

x_{1}, \dots, x_{n}

$x_1,\dots, x_n$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x_{1}, \dots, x_{n})

$P(y>Y_0|x_1,\dots,x_n)$

E (y | x_{1}, \dots, x_{n})

$E(y|x_1,\dots,x_n)$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x 1, \dots, x_{n})

$P(y>Y_0|x1,\dots,x_n)$

Kochede

Ja, Sie können dies tun, aber die Kostenfunktion, die Sie minimieren, konzentriert sich nicht darauf, die Schwänze der Verteilung richtig zu machen. Wenn Sie also daran interessiert sind, ist es besser, die Ereignisse in den Schwänzen expliziter zu modellieren .

Dikran Marsupial

Wie prognostizieren wir seltene Ereignisse?

Antworten: