Wie kann die relative Variablenbedeutung bei der logistischen Regression in Bezug auf p quantifiziert werden?

11

Angenommen, ein logistisches Regressionsmodell wird verwendet, um vorherzusagen, ob ein Online-Käufer ein Produkt kaufen wird (Ergebnis: Kauf), nachdem er auf eine Reihe von Online-Anzeigen geklickt hat (Prädiktoren: Ad1, Ad2 und Ad3).

Das Ergebnis ist eine binäre Variable: 1 (gekauft) oder 0 (nicht gekauft). Die Prädiktoren sind auch binäre Variablen: 1 (angeklickt) oder 0 (nicht angeklickt). Alle Variablen sind also gleich groß.

Wenn die resultierenden Koeffizienten von Ad1, Ad2 und Ad3 0,1, 0,2 und 03 betragen, können wir schließen, dass Ad3 wichtiger als Ad2 und Ad2 wichtiger als Ad1 ist. Da alle Variablen auf derselben Skala liegen, sollten außerdem die standardisierten und nicht standardisierten Koeffizienten gleich sein, und wir können weiter schließen, dass Ad2 hinsichtlich seines Einflusses auf das Logit-Niveau (Log-Odds) doppelt so wichtig ist wie Ad1.

In der Praxis geht es uns jedoch mehr darum, wie die relative Bedeutung der Variablen in Bezug auf das p-Niveau (Wahrscheinlichkeit des Kaufs) verglichen und interpretiert werden kann, nicht auf das Logit (Log-Odds).

Die Frage ist also: Gibt es einen Ansatz, um die relative Bedeutung dieser Variablen in Bezug auf p zu quantifizieren?

xyhzc
quelle
Ich fand diesen Artikel nützlich. Es werden sechs verschiedene Methoden beschrieben, mit denen die Bedeutung von Prädiktoren aus einem logistischen Regressionsmodell zusammen mit den mit jeder Methode verbundenen Vor- und Nachteilen definiert werden kann.
Gchaks

Antworten:

5

Für lineare Modelle können Sie den absoluten Wert der t-Statistik für jeden Modellparameter verwenden.

Sie können auch so etwas wie einen zufälligen Wald verwenden und eine sehr schöne Liste von Funktionsbedeutungen erhalten.

Wenn Sie R verwenden, checken Sie aus ( http://caret.r-forge.r-project.org/varimp.html ), wenn Sie Python verwenden, checken Sie aus ( http://scikit-learn.org/stable/auto_examples) /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

BEARBEITEN:

Da logit keine direkte Möglichkeit dazu hat, können Sie für jeden Prädiktor eine ROC-Kurve verwenden.

Zur Klassifizierung wird an jedem Prädiktor eine ROC-Kurvenanalyse durchgeführt. Bei Problemen mit zwei Klassen wird eine Reihe von Grenzwerten auf die Prädiktordaten angewendet, um die Klasse vorherzusagen. Die Empfindlichkeit und Spezifität werden für jeden Grenzwert berechnet und die ROC-Kurve wird berechnet. Die Trapezregel wird verwendet, um die Fläche unter der ROC-Kurve zu berechnen. Dieser Bereich wird als Maß für die variable Bedeutung verwendet

Ein Beispiel dafür, wie dies in R funktioniert, ist:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)
mike1886
quelle
1
Danke für deine Antwort! Ja, es ist einfach für lineare Modelle und zufällige Gesamtstrukturen. Haben Sie eine Idee, wie dies im Fall der logistischen Regression geschehen soll? Danke vielmals!
XYHZC
Siehe oben bearbeiten.
Mike 1886
Es scheint, dass die Frage nach Verhältnisvergleichen immer noch nicht beantwortet wurde. Selbst wenn wir wissen, dass AUC beispielsweise .6 mit nur x1 und .9 mit nur x2 verwendet, können wir kaum sagen, dass die Bedeutung von x2 daher um 50% größer ist. Ich denke auch nicht, dass es (1 - 10% / 40%) = 75% größer ist. Wir können auch nichts Analoges tun, indem wir nur Sensitivität oder nur Spezifität verwenden. Ich habe auch Zweifel an der Anwendbarkeit der Wald-Statistik hier. Am hilfreichsten könnten Erklärungen standardisierter Koeffizienten sein (siehe Online-Buch von Scott Menard).
Rolando2
Danke rolando2! Die Variablen in dieser Frage sind alle Kennzahlen in denselben Metriken, daher sollten die standardisierten und nicht standardisierten Koeffizienten gleich sein. Obwohl wir die standardisierten Koeffizienten verwenden können, um die Variablen auf Logit-Ebene (Log-Odds) zu vergleichen, wie können wir die Variablen auf P interpretieren (die Wahrscheinlichkeit des Kaufs von Online-Käufern in diesem Fall)? Vielen Dank!
XYHZC
1
Ich sehe es nicht als Antwort auf die Frage.
HelloWorld
4

Da Sie speziell nach einer Interpretation auf der Wahrscheinlichkeitsskala gefragt haben: In einer logistischen Regression ist die geschätzte Erfolgswahrscheinlichkeit gegeben durch

π^(x)=exp(β0+βx)1+exp(β0+βx)

Mit β0 der Abschnitt, β ein Koeffizientenvektor und xIhre beobachteten Werte. Wenn Ihre Koeffizienten also 0,1, 0,2 und 0,3 betragen und kein Abschnitt angenommen wird (höchstwahrscheinlich falsch, aber der Einfachheit halber), beträgt die Wahrscheinlichkeit eines Kaufs für eine Person, die nur auf Anzeige 1 geklickt hat:

exp(0,1)1+exp(0,1)=0,52

Eine Person, die nur auf Anzeige 3 geklickt hat:

exp(0,3)1+exp(0,3)=0,57

Wenn die Person jedoch auf Anzeige 1 oder Anzeige 3, aber auch auf Anzeige 2 geklickt hat (wenn dies ein plasubiles Szenario ist), werden die Wahrscheinlichkeiten

exp(0,1+0,2)1+exp(0,1+0,2)=0,57

exp(0,3+0,2)1+exp(0,3+0,2)=0,62

In diesem Fall beträgt die Änderung der Wahrscheinlichkeit beide 0,05, aber normalerweise ist diese Änderung für verschiedene Kombinationen von Ebenen nicht gleich. (Sie können dies leicht erkennen, wenn Sie z. B. den gleichen Ansatz wie oben verwenden, jedoch mit den Koeffizienten 0,1, 1,5, 0,3.) Daher hängt die Bedeutung einer Variablen auf der Wahrscheinlichkeitsskala von den beobachteten Werten der anderen Variablen ab. Dies kann es schwierig (unmöglich?) Machen, ein absolutes quantitatives Maß für die variable Wichtigkeit auf der Wahrscheinlichkeitsskala zu finden.

Matt.135
quelle
Danke für Ihre Erklärung! Wissen Sie dann, dass es eine indirekte Methode gibt, um die relative Bedeutung der Prädiktoren zu quantifizieren? mike1886 erwähnte die "ROC-Kurvenanalyse" in seiner Antwort, hat aber einige Probleme, wie von rolando2 erwähnt. Danke vielmals!
XYHZC