Angenommen, ein logistisches Regressionsmodell wird verwendet, um vorherzusagen, ob ein Online-Käufer ein Produkt kaufen wird (Ergebnis: Kauf), nachdem er auf eine Reihe von Online-Anzeigen geklickt hat (Prädiktoren: Ad1, Ad2 und Ad3).
Das Ergebnis ist eine binäre Variable: 1 (gekauft) oder 0 (nicht gekauft). Die Prädiktoren sind auch binäre Variablen: 1 (angeklickt) oder 0 (nicht angeklickt). Alle Variablen sind also gleich groß.
Wenn die resultierenden Koeffizienten von Ad1, Ad2 und Ad3 0,1, 0,2 und 03 betragen, können wir schließen, dass Ad3 wichtiger als Ad2 und Ad2 wichtiger als Ad1 ist. Da alle Variablen auf derselben Skala liegen, sollten außerdem die standardisierten und nicht standardisierten Koeffizienten gleich sein, und wir können weiter schließen, dass Ad2 hinsichtlich seines Einflusses auf das Logit-Niveau (Log-Odds) doppelt so wichtig ist wie Ad1.
In der Praxis geht es uns jedoch mehr darum, wie die relative Bedeutung der Variablen in Bezug auf das p-Niveau (Wahrscheinlichkeit des Kaufs) verglichen und interpretiert werden kann, nicht auf das Logit (Log-Odds).
Die Frage ist also: Gibt es einen Ansatz, um die relative Bedeutung dieser Variablen in Bezug auf p zu quantifizieren?
quelle
Antworten:
Für lineare Modelle können Sie den absoluten Wert der t-Statistik für jeden Modellparameter verwenden.
Sie können auch so etwas wie einen zufälligen Wald verwenden und eine sehr schöne Liste von Funktionsbedeutungen erhalten.
Wenn Sie R verwenden, checken Sie aus ( http://caret.r-forge.r-project.org/varimp.html ), wenn Sie Python verwenden, checken Sie aus ( http://scikit-learn.org/stable/auto_examples) /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )
BEARBEITEN:
Da logit keine direkte Möglichkeit dazu hat, können Sie für jeden Prädiktor eine ROC-Kurve verwenden.
Ein Beispiel dafür, wie dies in R funktioniert, ist:
quelle
Da Sie speziell nach einer Interpretation auf der Wahrscheinlichkeitsskala gefragt haben: In einer logistischen Regression ist die geschätzte Erfolgswahrscheinlichkeit gegeben durch
Mitβ0 der Abschnitt, β ein Koeffizientenvektor und x Ihre beobachteten Werte. Wenn Ihre Koeffizienten also 0,1, 0,2 und 0,3 betragen und kein Abschnitt angenommen wird (höchstwahrscheinlich falsch, aber der Einfachheit halber), beträgt die Wahrscheinlichkeit eines Kaufs für eine Person, die nur auf Anzeige 1 geklickt hat:
Eine Person, die nur auf Anzeige 3 geklickt hat:
Wenn die Person jedoch auf Anzeige 1 oder Anzeige 3, aber auch auf Anzeige 2 geklickt hat (wenn dies ein plasubiles Szenario ist), werden die Wahrscheinlichkeiten
In diesem Fall beträgt die Änderung der Wahrscheinlichkeit beide 0,05, aber normalerweise ist diese Änderung für verschiedene Kombinationen von Ebenen nicht gleich. (Sie können dies leicht erkennen, wenn Sie z. B. den gleichen Ansatz wie oben verwenden, jedoch mit den Koeffizienten 0,1, 1,5, 0,3.) Daher hängt die Bedeutung einer Variablen auf der Wahrscheinlichkeitsskala von den beobachteten Werten der anderen Variablen ab. Dies kann es schwierig (unmöglich?) Machen, ein absolutes quantitatives Maß für die variable Wichtigkeit auf der Wahrscheinlichkeitsskala zu finden.
quelle