Ich versuche, den besten Weg zu finden, um den Zahlungsbetrag für ein Inkassobüro vorherzusagen. Die abhängige Variable ist nur dann ungleich Null, wenn eine Zahlung erfolgt ist. Verständlicherweise gibt es eine überwältigende Anzahl von Nullen, da die meisten Menschen nicht erreicht werden können oder die Schulden nicht zurückzahlen können.
Es besteht auch eine sehr starke negative Korrelation zwischen dem Schuldenbetrag und der Wahrscheinlichkeit einer Zahlung. Normalerweise würde ich ein logistisches Modell erstellen, um die Wahrscheinlichkeit von Bezahlung / Nichtbezahlung vorherzusagen, aber dies hat die unglückliche Konsequenz, die Personen mit dem niedrigsten Guthaben zu finden.
Gibt es eine Möglichkeit, ein logistisches Pay / Non-Pay-Modell mit einem separaten Modell zu kombinieren, das den Zahlungsbetrag vorhersagt?
quelle
Antworten:
Die Idee von gui11aume, ein zweistufiges Modell zu erstellen, ist der richtige Weg. Man muss jedoch die besondere Schwierigkeit Ihres Setups berücksichtigen, die die sehr starke negative Korrelation zwischen dem Schuldenbetrag und der Wahrscheinlichkeit einer Zahlung darstellt
Das Hauptproblem beim Aufbau eines zweistufigen Modells besteht darin, dass das zweite Modell (zur Vorhersage der Verschuldung), wenn es nur auf den "Nicht-Nullen" basiert, auf einer höchstwahrscheinlich nicht zufälligen Stichprobe der Bevölkerung basiert ( dh der gesamte Datensatz), aber das kombinierte Modell muss erneut auf die gesamte Population angewendet werden. Dies bedeutet, dass das zweite Modell Vorhersagen für Teile der Daten treffen muss, die es noch nie zuvor gesehen hat, was zu einem Genauigkeitsverlust führt. Dies wird als Sample Selection Bias bezeichnet (für einen Überblick aus ML-Sicht empfehle ich ein Bayesian Network Framework für Reject Inference von Smith und Elkan).
Der KDD-Cup-98 befasste sich mit einem ähnlichen Thema, bei dem man vorhersagen sollte, ob ein Spender für eine Veteranenorganisation wahrscheinlich wieder spenden wird und wie viel er wahrscheinlich spenden wird. In diesem Datensatz korrelierte auch die Wahrscheinlichkeit einer erneuten Spende negativ mit dem erwarteten Geldbetrag. Die Stichprobenauswahlverzerrung wurde ebenfalls angezeigt.
Die Lösung, die mich am meisten beeindruckt hat, ist das Lernen und Treffen von Entscheidungen, wenn Kosten und Wahrscheinlichkeiten von Bianca Zadrozny und Charles Elkan unbekannt sind . Sie haben eine kostensensitive Lösung basierend auf der Heckman-Korrektur entwickelt , die meines Wissens der erste systematische Ansatz zur Korrektur der (Stichproben-) Auswahlverzerrung ist.
quelle
Das ist eine sehr schöne Frage (+1).
Warum behandeln Sie die Nullen nicht so, als wären sie NAs?
Sie können eine Dummy-Antwort hinzufügen, die angibt, ob Geld zurückgefordert wurde ( dh gleich 0, wenn der Wert 0 ist, und 1, wenn der Wert positiv ist), und ein logistisches Modell mit denselben Prädiktoren an diese binäre Antwort anpassen. Sie würden 2 Modelle anpassen: die binäre Antwort unter Verwendung aller Datenpunkte und die kontinuierliche Antwort unter Verwendung nur der Nicht-Null-Datenpunkte (im Einklang mit der Idee, 0 als NA zu behandeln).
Sie können weiterhin die Nichtigkeit von Parametern in jedem Modell testen und die erwartete Verstärkung berechnen, indem Sie beide Parametersätze verwenden.
quelle