Nehmen wir an, wir haben das folgende Problem:
Sagen Sie voraus, welche Kunden in den nächsten 3 Monaten am wahrscheinlichsten aufhören, in unserem Shop einzukaufen.
Wir kennen für jeden Kunden den Monat, in dem der Kauf in unserem Shop begonnen hat, und haben darüber hinaus viele Verhaltensmerkmale in monatlichen Aggregaten. Der älteste Kunde kauft seit fünfzig Monaten; Geben wir die Zeit an, seit ein Kunde mit ( ) zu kaufen begann . Es ist davon auszugehen, dass die Anzahl der Clients sehr groß ist. Wenn ein Kunde für drei Monate aufhört zu kaufen und dann zurückkommt, wird er als neuer Kunde behandelt, sodass ein Ereignis (Kauf beenden) nur einmal auftreten kann.
Mir fallen zwei Lösungen ein:
Logistische Regression - Für jeden Kunden und jeden Monat (möglicherweise mit Ausnahme der drei neuesten Monate) können wir angeben, ob ein Kunde aufgehört hat zu kaufen oder nicht, sodass wir Stichproben mit einer Beobachtung pro Kunden und Monat durchführen können. Wir können die Anzahl der Monate seit Beginn als kategoriale Variable verwenden, um ein Äquivalent der Basisgefahrenfunktion zu erhalten.
Erweitertes Cox-Modell - Dieses Problem kann auch mit dem erweiterten Cox-Modell modelliert werden. Es scheint, dass dieses Problem besser für die Überlebensanalyse geeignet ist.
Frage: Was sind die Vorteile der Überlebensanalyse bei ähnlichen Problemen? Die Überlebensanalyse wurde aus irgendeinem Grund erfunden, daher muss es einen ernsthaften Vorteil geben.
Mein Wissen über die Überlebensanalyse ist nicht sehr tief und ich denke, dass die meisten potenziellen Vorteile des Cox-Modells auch durch logistische Regression erzielt werden können.
- Ein Äquivalent des geschichteten Cox-Modells kann unter Verwendung einer Wechselwirkung von und der Schichtungsvariablen erhalten werden .
- Das Interaktions-Cox-Modell kann erhalten werden, indem die Population in mehrere Teilpopulationen unterteilt und der LR für jede Teilpopulation geschätzt wird.
Der einzige Vorteil, den ich sehe, ist, dass das Cox-Modell flexibler ist. Beispielsweise können wir leicht die Wahrscheinlichkeit berechnen, dass ein Kunde in 6 Monaten aufhört zu kaufen.
coxph
und dem Abrufen von Risikoeinschätzungen sind steil und zahlreich.Die Überlebensanalyse berücksichtigt die Tatsache, dass jeder Kunde eine eigene Einstiegszeit für die Studie hat. Die Tatsache, dass die Nachbeobachtungszeit von Kunde zu Kunde unterschiedlich ist, ist daher kein Problem.
Anmerkung : hier ist ein Papier , das zeigt , dass unter gewissen Einschränkungen, sowohl die Logistik und das Cox - Modell verknüpft ist.
quelle
In der Marketingliteratur wird hier ein Pareto / NBD oder ähnliches vorgeschlagen. Sie gehen grundsätzlich davon aus, dass der Kauf - während des Kaufs - einer negativen Binomialverteilung folgt. Sie müssen jedoch die Zeit modellieren, in der der Kunde anhält. Das ist der andere Teil.
Pete Fader und Bruce Hardie haben zusammen mit Abe einige Artikel darüber.
Es gibt mehrere einfachere Ansätze für das Pareto / NBD, auch wenn nur die verschiedenen Papiere von Fader und Hardie gezählt werden. Verwenden Sie NICHT den einfacheren Ansatz, bei dem davon ausgegangen wird, dass die Wahrscheinlichkeit eines Anhaltens zu jedem Zeitpunkt konstant ist - das bedeutet, dass Ihre schwereren Kunden eher ausfallen. Es ist einfacher zu montieren, aber falsch.
Ich habe eine davon eine Weile nicht mehr gepasst; Es tut mir leid, ein bisschen unspezifisch zu sein.
Hier ist ein Verweis auf das Abe-Papier, das dieses Problem als hierarchisches Bayes umformuliert. . Wenn ich wieder in diesem Bereich arbeiten würde, würde ich diesen Ansatz ausprobieren.
quelle