Ideen für ein Prospect-Scoring-Modell

Ich muss über ein Modell nachdenken, um potenzielle Kunden (Unternehmen) zu identifizieren, die eine hohe Chance haben, in Kunden umgewandelt zu werden, und ich suche Rat, welche Art von Modell von Nutzen sein könnte.

Die Datenbanken I haben sind, soweit ich weiß (ich habe sie noch nicht), die list of current clients(in anderen Worten converted prospects) und die Eigenschaften ( size, revenue, age, location, wie das Zeug) und ein list of prospects(dass ich Score ) und ihre Merkmale. Ich glaube jedoch nicht, dass ich eine Liste der Unternehmen haben werde, die früher potenzielle Kunden waren, für die jedoch die Konvertierung zu Kunden fehlgeschlagen ist (wenn ich dies getan hätte, hätte ich mich wahrscheinlich für eine zufällige Gesamtstruktur entscheiden können. Natürlich könnte ich das immer noch Verwenden Sie eine zufällige Gesamtstruktur, aber ich halte es für eine schlechte Idee, eine zufällige Gesamtstruktur für die Vereinigung meiner beiden Datenbanken auszuführen und die Clients als convertedund die potenziellen Kunden als non-converted...) zu behandeln.

Daher muss ich in der Liste der potenziellen Kunden diejenigen finden, die wie die bereits bestehenden Kunden aussehen. Mit welchem Modell kann ich das machen?

(Ich denke auch über Dinge wie "Bewertung des Werts der Kunden und Anwendung auf ähnliche Interessenten" und "Bewertung der Chance, dass jeder Interessent sein Geschäft aufgibt" nach, um den Wert meiner Bewertung weiter zu verfeinern, aber es liegt irgendwie außerhalb des Rahmens meiner Frage).

Vielen Dank

machine-learning predictive-modeling supervised-learning unsupervised-learning François M.
quelle

Antworten:

Ich war vor anderthalb Jahren fast genau mit demselben Szenario konfrontiert - im Grunde genommen handelt es sich um eine Variation des Problems der Ein-Klassen-Klassifizierung (OCC), insbesondere des PU-Lernens (Lernen aus positiven und unbeschrifteten Daten). Sie haben Ihren bekannten, gekennzeichneten positiven Datensatz ( Kunden ) und einen nicht gekennzeichneten Datensatz mit potenziellen Kunden ( von denen einige kundenartig und einige nicht kundenartig sind ). Ihre Aufgabe ist es, die meisten Client wie die Aussichten zu identifizieren und zielen sie ... diese Scharniere auf der Annahme , dass die Aussichten , dass die meisten Kunden wie aussehen sind eher zu konvertieren als Perspektiven , die weniger aussehen Kunden .

Der Ansatz, für den wir uns entschieden haben, verwendete ein Verfahren namens Spy-Technik . Die Grundidee ist, dass Sie eine Probe aus Ihrer bekannten positiven Klasse nehmen und sie in Ihr unbeschriftetes Set injizieren. Anschließend trainieren Sie einen Klassifizierer anhand dieser kombinierten Daten und führen den unbeschrifteten Satz durch den trainierten Klassifizierer zurück, wobei jeder Instanz die Wahrscheinlichkeit zugewiesen wird, ein positives Klassenmitglied zu sein. Die Intuition ist, dass die injizierten Positiven ( sogenannte Spione) sollten sich ähnlich wie die positiven Instanzen verhalten (was sich in ihren hinteren Wahrscheinlichkeiten widerspiegelt). Durch Festlegen eines Schwellenwerts können Sie zuverlässige negative Instanzen aus dem unbeschrifteten Satz extrahieren. Jetzt haben Sie sowohl positiv als auch negativ beschriftete Daten und können einen Klassifizierer mit jedem von Ihnen gewählten Standardklassifizierungsalgorithmus erstellen. Im Wesentlichen können Sie mit der Spionagetechnik Ihre Daten booten, um die erforderlichen negativen Instanzen für ein ordnungsgemäßes Training bereitzustellen.

Für den Anfang sollten Sie sich die Arbeit von Li und Liu ansehen, die eine Reihe von Artikeln zum Thema OCC und PU-Lernen haben.

Brandon Loudermilk
quelle

Super Antwort, danke. (Nur eine Bemerkung: Gibt es nicht etwas Seltsames mit dem letzten Satz Ihres ersten Absatzes?)

François M.

Vielen

Brandon Loudermilk