Ich habe viele Websites durchsucht, um zu wissen, was Lift genau bewirkt. Die Ergebnisse, die ich gefunden habe, handelten von der Verwendung in Anwendungen, die sich nicht von selbst unterscheiden.
Ich kenne die Unterstützungs- und Vertrauensfunktion. Laut Wikipedia ist Lift beim Data Mining ein Maß für die Leistung eines Modells bei der Vorhersage oder Klassifizierung von Fällen, gemessen an einem Zufallsauswahlmodell. Aber wie? Vertrauen * Unterstützung ist der Wert des Auftriebs Ich habe auch nach anderen Formeln gesucht, kann aber nicht verstehen, warum die Auftriebsdiagramme für die Genauigkeit der vorhergesagten Werte wichtig sind. Ich möchte wissen, welche Richtlinien und Gründe hinter dem Auftrieb stehen.
data-mining
Nickool
quelle
quelle
Antworten:
Ich werde ein Beispiel geben, wie "heben" nützlich ist ...
Stellen Sie sich vor, Sie führen eine Direktwerbungskampagne durch, in der Sie den Kunden ein Angebot zusenden, in der Hoffnung, dass sie darauf antworten. Historische Daten zeigen, dass, wenn Sie Ihren Kundenstamm völlig zufällig mailen, ungefähr 8% von ihnen auf das Mailing antworten (dh sie kommen herein und kaufen mit dem Angebot ein). Wenn Sie also 1.000 Kunden mailen, können Sie mit 80 Respondern rechnen.
Nun entscheiden Sie sich, ein logistisches Regressionsmodell an Ihre historischen Daten anzupassen, um Muster zu finden, die vorhersagen, ob ein Kunde wahrscheinlich auf ein Mailing antwortet. Mit dem logistischen Regressionsmodell wird jedem Kunden eine Reaktionswahrscheinlichkeit zugewiesen, und Sie können die Genauigkeit bewerten, da Sie wissen, ob er tatsächlich reagiert hat. Sobald jedem Kunden seine Wahrscheinlichkeit zugewiesen wurde, ordnen Sie ihn dem Kunden mit der höchsten bis zur niedrigsten Punktzahl zu. Dann könnten Sie einige "Lift" -Grafiken wie diese erzeugen:
Ignorieren Sie das Top-Chart vorerst. Die untere Tabelle besagt, dass nach dem Sortieren der Kunden nach ihrer Reaktionswahrscheinlichkeit (hoch nach niedrig) und dem Aufteilen in zehn gleiche Fächer die Antwortrate in Fach 1 (die oberen 10% der Kunden) 29 beträgt % versus 8% der zufälligen Kunden, bei einem Lift von 29/8 = 3,63. Bis wir Kunden in der 4. Klasse erreichen, haben wir so viele der vorherigen drei Kunden erfasst, dass die Rücklaufquote unter der erwarteten Zufallsrate liegt.
In der oberen Tabelle ist zu sehen, dass wir bei Verwendung der Wahrscheinlichkeitswerte für Kunden 60% der gesamten Antworten erhalten, die wir zufällig erhalten, wenn wir nur die besten 30% der bewerteten Kunden versenden. Das heißt, mit dem Modell können wir 60% des erwarteten Gewinns für 30% der Postkosten erzielen, indem wir nur die besten 30% der bewerteten Kunden verschicken, worauf sich Lift wirklich bezieht.
quelle
Lift-Diagramme stellen das Verhältnis zwischen der Reaktion eines Modells und der Abwesenheit dieses Modells dar. Typischerweise wird dies durch den Prozentsatz der Fälle in der X-Achse und die Häufigkeit, mit der die Reaktion in der Y-Achse besser ist, dargestellt. Zum Beispiel bedeutet ein Modell mit Lift = 2 am Punkt 10%:
Ohne ein Modell mit 10% der Bevölkerung (ohne Ordnung, weil kein Modell) wäre der Anteil von y = 1 10% der Gesamtbevölkerung mit y = 1.
Mit dem Modell erhalten wir das 2-fache dieses Anteils, dh wir erwarten, dass 20% der Gesamtpopulation mit y = 1 erhalten werden. Die ersten 10% sind die Top-10% -Vorhersagen
quelle
Lift ist nichts anderes als das Verhältnis von Vertrauen zu erwartetem Vertrauen. Im Bereich der Assoziationsregeln - "Ein Liftverhältnis von mehr als 1,0 impliziert, dass die Beziehung zwischen dem Antezedenten und dem Konsequenten signifikanter ist als erwartet, wenn die beiden Sätze unabhängig wären. Je größer das Liftverhältnis, desto signifikanter ist die Assoziation. " Beispielsweise-
Wenn in einer Supermarktdatenbank 100.000 Kassentransaktionen vorhanden sind, von denen 2.000 die Artikel A und B und 800 den Artikel C enthalten, gilt die Zuordnungsregel "Wenn A und B gekauft werden, wird C auf demselben gekauft trip "hat eine Unterstützung von 800 Transaktionen (alternativ 0,8% = 800 / 100.000) und ein Vertrauen von 40% (= 800 / 2.000). Eine Möglichkeit, sich Unterstützung vorzustellen, besteht darin, dass es wahrscheinlich ist, dass eine zufällig ausgewählte Transaktion aus der Datenbank alle Elemente im Vorgänger und die Konsequenz enthält, während das Vertrauen die bedingte Wahrscheinlichkeit ist, dass eine zufällig ausgewählte Transaktion alle Elemente im Vorgänger enthält infolgedessen, vorausgesetzt, dass die Transaktion alle Elemente in der Vorgeschichte enthält.
Unter Verwendung des obigen Beispiels bedeutet das erwartete Vertrauen in diesem Fall "Vertrauen, wenn der Kauf von A und B die Wahrscheinlichkeit des Kaufs von C nicht erhöht". Es ist die Anzahl der Transaktionen, die das Ergebnis dividiert durch die Gesamtzahl der Transaktionen enthält. Angenommen, die Gesamtzahl der Transaktionen für C beträgt 5.000. Das erwartete Vertrauen beträgt somit 5.000 / 1.00.000 = 5%. Für das Supermarkt-Beispiel ist Lift = Confidence / Expected Confidence = 40% / 5% = 8. Lift ist also ein Wert, der Aufschluss über die Wahrscheinlichkeitszunahme des dann (konsequenten) gegebenen if-Teils gibt. Hier ist der Link zum Quellartikel
quelle
Der Aufzug ist nur ein Maß, um die Wichtigkeit der Regel zu messen
Es ist ein Maß, mit dem überprüft werden kann, ob diese Regel zufällig in der Liste enthalten ist oder von uns erwartet wird
Aufzug = Vertrauen / erwartetes Vertrauen
quelle
Angenommen, wir verwenden das Beispiel eines Lebensmittelgeschäfts, das die Gültigkeit einer Zuordnungsregel prüft, die eine Vorgeschichte und eine Konsequenz hat (zum Beispiel: "Wenn ein Kunde Brot kauft, kauft er auch Butter").
Wenn Sie sich alle Transaktionen ansehen und eine nach dem Zufallsprinzip untersuchen, ist die Wahrscheinlichkeit, dass diese Transaktion die Konsequenz enthält, "Erwartete Zuverlässigkeit". Wenn Sie sich alle Transaktionen ansehen, die das Antezedens enthalten, und eine zufällige Transaktion aus diesen auswählen, ist die Wahrscheinlichkeit, dass diese Transaktion die Konsequenz enthält, "Vertrauen". "Lift" ist im Wesentlichen der Unterschied zwischen diesen beiden. Mit lift können wir die Beziehung zwischen zwei Elementen mit hohem Vertrauen untersuchen (wenn das Vertrauen niedrig ist, ist das Heben im Wesentlichen irrelevant).
Wenn sie ein hohes Vertrauen und einen geringen Auftrieb haben, wissen wir immer noch, dass die Artikel häufig zusammen gekauft werden, aber wir wissen nicht, ob die Konsequenz aufgrund der Vorgeschichte eintrifft oder ob es nur ein Zufall ist (vielleicht werden sie beide oft zusammen gekauft, weil sie es sind) sind beide sehr beliebte Produkte, haben aber keinerlei Beziehung zueinander.
Wenn jedoch das Vertrauen und der Auftrieb beide hoch sind, können wir vernünftigerweise davon ausgehen, dass die Konsequenz aufgrund des vorangegangenen Ereignisses eintritt. Je höher der Auftrieb, desto geringer ist die Wahrscheinlichkeit, dass die Beziehung zwischen den beiden Elementen nur ein Zufall ist. In mathematischen Begriffen:
Aufzug = Vertrauen / erwartetes Vertrauen
Wenn in unserem Beispiel das Vertrauen in unsere Regel hoch und der Lift niedrig war, würde dies bedeuten, dass viele Kunden Brot und Butter kaufen, aber wir wissen nicht, ob dies auf eine besondere Beziehung zwischen Brot und Butter zurückzuführen ist oder nicht brot und butter sind einfach beliebte einzelteile und die tatsache, dass sie oft zusammen in einkaufswagen auftauchen, ist nur ein zufall. Wenn das Vertrauen in unsere Regel hoch und der Auftrieb hoch ist, deutet dies auf eine ziemlich starke Korrelation zwischen der Vorgeschichte und der Konsequenz hin, was bedeutet, dass wir davon ausgehen können, dass Kunden Butter kaufen, weil sie Brot kaufen. Je höher der Lift ist, desto sicherer können wir in dieser Assoziation sein.
quelle