Beste Möglichkeit, binäre und kontinuierliche Antwort zu kombinieren

10

Ich versuche, den besten Weg zu finden, um den Zahlungsbetrag für ein Inkassobüro vorherzusagen. Die abhängige Variable ist nur dann ungleich Null, wenn eine Zahlung erfolgt ist. Verständlicherweise gibt es eine überwältigende Anzahl von Nullen, da die meisten Menschen nicht erreicht werden können oder die Schulden nicht zurückzahlen können.

Es besteht auch eine sehr starke negative Korrelation zwischen dem Schuldenbetrag und der Wahrscheinlichkeit einer Zahlung. Normalerweise würde ich ein logistisches Modell erstellen, um die Wahrscheinlichkeit von Bezahlung / Nichtbezahlung vorherzusagen, aber dies hat die unglückliche Konsequenz, die Personen mit dem niedrigsten Guthaben zu finden.

Gibt es eine Möglichkeit, ein logistisches Pay / Non-Pay-Modell mit einem separaten Modell zu kombinieren, das den Zahlungsbetrag vorhersagt?

Zelazny7
quelle
5
Es gibt eine nicht aufgeblasene logarithmische normale Regression, die Ihren Anforderungen zu entsprechen scheint. Siehe dieses Papier
Peter Flom - Reinstate Monica
@PeterFlom Wie ist dies Ihrer Meinung nach im Vergleich zu gui11aume und steffens Diskussion über ein zweistufiges Modell und eine Stichprobenauswahl?
As3adTintin
1
Ich denke, beides kann nützlich sein. Es wurde diskutiert, die beiden zu vergleichen, aber ich vergesse, wo ich es gelesen habe.
Peter Flom - Monica wieder einsetzen
Am Ende habe ich ein neuronales Netzwerk mit einer Relu-Aktivierung für die Ausgabe und dem mittleren quadratischen logarithmischen Verlust erstellt
Zelazny7
OK danke. Die Aktivierung des neuronalen Netzwerks / Relu klingt nach meinem derzeitigen Wissen, aber ich werde mich weiter mit diesen befassen. Vielen Dank für die ursprüngliche Frage und für die Kommentare!
As3adTintin

Antworten:

6

Die Idee von gui11aume, ein zweistufiges Modell zu erstellen, ist der richtige Weg. Man muss jedoch die besondere Schwierigkeit Ihres Setups berücksichtigen, die die sehr starke negative Korrelation zwischen dem Schuldenbetrag und der Wahrscheinlichkeit einer Zahlung darstellt

Das Hauptproblem beim Aufbau eines zweistufigen Modells besteht darin, dass das zweite Modell (zur Vorhersage der Verschuldung), wenn es nur auf den "Nicht-Nullen" basiert, auf einer höchstwahrscheinlich nicht zufälligen Stichprobe der Bevölkerung basiert ( dh der gesamte Datensatz), aber das kombinierte Modell muss erneut auf die gesamte Population angewendet werden. Dies bedeutet, dass das zweite Modell Vorhersagen für Teile der Daten treffen muss, die es noch nie zuvor gesehen hat, was zu einem Genauigkeitsverlust führt. Dies wird als Sample Selection Bias bezeichnet (für einen Überblick aus ML-Sicht empfehle ich ein Bayesian Network Framework für Reject Inference von Smith und Elkan).

Der KDD-Cup-98 befasste sich mit einem ähnlichen Thema, bei dem man vorhersagen sollte, ob ein Spender für eine Veteranenorganisation wahrscheinlich wieder spenden wird und wie viel er wahrscheinlich spenden wird. In diesem Datensatz korrelierte auch die Wahrscheinlichkeit einer erneuten Spende negativ mit dem erwarteten Geldbetrag. Die Stichprobenauswahlverzerrung wurde ebenfalls angezeigt.

Die Lösung, die mich am meisten beeindruckt hat, ist das Lernen und Treffen von Entscheidungen, wenn Kosten und Wahrscheinlichkeiten von Bianca Zadrozny und Charles Elkan unbekannt sind . Sie haben eine kostensensitive Lösung basierend auf der Heckman-Korrektur entwickelt , die meines Wissens der erste systematische Ansatz zur Korrektur der (Stichproben-) Auswahlverzerrung ist.

steffen
quelle
+1 Ihr zweiter Absatz hebt sehr schön etwas hervor, das in meiner Antwort fehlt.
gui11aume
Wie verhält es sich mit Peter Floms Vorschlag einer logarithmisch normalen Regression ohne Inflation?
As3adTintin
3

Das ist eine sehr schöne Frage (+1).

Warum behandeln Sie die Nullen nicht so, als wären sie NAs?

Sie können eine Dummy-Antwort hinzufügen, die angibt, ob Geld zurückgefordert wurde ( dh gleich 0, wenn der Wert 0 ist, und 1, wenn der Wert positiv ist), und ein logistisches Modell mit denselben Prädiktoren an diese binäre Antwort anpassen. Sie würden 2 Modelle anpassen: die binäre Antwort unter Verwendung aller Datenpunkte und die kontinuierliche Antwort unter Verwendung nur der Nicht-Null-Datenpunkte (im Einklang mit der Idee, 0 als NA zu behandeln).

Sie können weiterhin die Nichtigkeit von Parametern in jedem Modell testen und die erwartete Verstärkung berechnen, indem Sie beide Parametersätze verwenden.

gui11aume
quelle
Vielen Dank für den Vorschlag. Vor meiner Frage hatte ich zwei abhängige Variablen und Datensätze erstellt, die Ihren Beschreibungen ähneln. Können Sie näher erläutern, was Sie unter "Immer noch die Nichtigkeit von Paramentern" verstehen? Vielen Dank!
Zelazny7
"Immer noch die Nichtigkeit von Parametern" war ein Tippfehler, den ich im Text behoben habe. Entschuldigung :-)
gui11aume