Ich habe einen Datensatz mit einer Reihe von Kunden in verschiedenen Städten Kaliforniens, dem Zeitpunkt des Anrufs für jeden Kunden und dem Status des Anrufs (Richtig, wenn der Kunde den Anruf entgegennimmt, und Falsch, wenn der Kunde nicht antwortet).
Ich muss einen geeigneten Zeitpunkt finden, um zukünftige Kunden anzurufen, sodass die Wahrscheinlichkeit, den Anruf anzunehmen, hoch ist. Was ist die beste Strategie für dieses Problem? Sollte ich es als Klassifizierungsproblem betrachten, bei dem die Stunden (0,1,2, ... 23) die Klassen sind? Oder sollte ich es als eine Regressionsaufgabe betrachten, bei der die Zeit eine kontinuierliche Variable ist? Wie kann ich sicherstellen, dass die Wahrscheinlichkeit, den Anruf anzunehmen, hoch ist?
Jede Hilfe wäre dankbar. Es wäre auch toll, wenn Sie mich auf ähnliche Probleme verweisen würden.
Unten finden Sie eine Momentaufnahme der Daten.
quelle
Antworten:
Sie könnten tatsächlich auf Probleme stoßen, wenn Sie dies als Regressionsproblem ohne geeignete Transformation modellieren. Zum Beispiel wissen wir, dass die meisten Anrufe wahrscheinlich tagsüber und weniger nachts und am frühen Morgen beantwortet werden. Eine lineare Regression hätte Schwierigkeiten, da die Beziehung wahrscheinlich krummlinig und nicht linear ist. Aus dem gleichen Grund wäre es auch problematisch, dies als Klassifizierungsaufgabe mit logistischer Regression zu behandeln.
Wie von anderen Befragten vorgeschlagen, hilft es, Ihre Daten in Zeiträume umzuklassifizieren, und ich würde vorschlagen, dass Sie zuerst etwas wie einen Entscheidungsbaum oder eine zufällige Gesamtstruktur ausprobieren.
Dies alles könnte ein Fall für einfache beschreibende Statistiken sein. Wenn Sie den Anteil der beantworteten Anrufe nach Tageszeit (aufgeteilt nach Stadt oder einer anderen demografischen Gruppe) darstellen, gibt es eine eindeutige Bestzeit ? Wenn ja, warum sollte man ein Modell komplizieren?
quelle
Sie könnten Folgendes versuchen:
Darüber hinaus empfehle ich, zusätzliche Funktionen wie Beruf, Geschlecht usw. hinzuzufügen, da die in der Tabelle aufgeführten Funktionen (Stadt usw.) zu mehrdeutig sind und nicht viele Informationen enthalten, um zwischen Kunden zu unterscheiden.
BEARBEITET gemäß Vorschlag in den Kommentaren:
Bei Verwendung des Modells wird jeder Lead als prefers_morning = yes / no, prefers_noon = yes / no und prefers_evening = yes / no klassifiziert. Basierend auf der Tageszeit, beispielsweise am Morgen, kann der Call-Center-Agent (oder die Software) Leads abholen und anrufen, die in der Voreinstellung für den Morgen klassifiziert sind. Wenn es Mittag ist, nimmt die Anrufsoftware die Liste der bevorzugten Mittagsstunden auf und so weiter.
quelle
Ich würde eine logistische Regression verwenden - Sie benötigen Stichproben, bei denen sie nicht erfasst wurden. Dann würde ich die Stunde als saisonalen Dummy-Regressor behandeln (23 Stunden als Dummy-Variablen und einen zum Achsenabschnitt fließen lassen).
Wenn Sie es nicht als saisonalen Dummy-Regressor behandeln, müssen Sie eine Art Transformation durchführen, da die Beziehung nicht linear sein wird.
Jemand schlug zuvor vor, den Nachmittag usw. als kategoriale Variable zu ersetzen. Das ist eine schlechte Idee, weil Sie das Detail haben und dort Details verlieren. Das hätte einen ähnlichen Effekt wie die Verwendung eines optimalen Binning, um die Beziehung linear zu machen, aber ich denke immer noch nicht, dass das funktionieren würde. Probieren Sie die saisonalen Dummy-Regressoren aus.
quelle