Rangfolge kategorialer Variablen in der logistischen Regression

8

Ich recherchiere mit logistischer Regression. 10 Variablen beeinflussen die abhängige Variable. Eine der oben genannten ist kategorisch (z. B. Expresslieferung, Standardlieferung usw.). Jetzt möchte ich diese Kategorien anhand der "Stärke" ihrer Auswirkung auf die abhängige Variable einstufen.

Sie sind alle signifikant (kleiner p-Wert), aber ich denke, ich kann den Wert der Gewinnchancen nicht einfach für Rankingzwecke verwenden. Ich muss irgendwie herausfinden, ob sich jede Kategorie auch signifikant von den anderen Kategorien unterscheidet. Ist das richtig?

Ich habe über die Möglichkeit gelesen, die Variable zu zentrieren. Ist das wirklich eine Option? Ich möchte nicht, dass der Rest meines Modells betroffen ist.


Stata-Ausgabe, um meinen Kommentar zum Beitrag von @ subra zu unterstützen:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------
Lukas
quelle

Antworten:

1

Da Sie an der Rangfolge der Kategorien interessiert sind, möchten Sie die kategorialen Variablen möglicherweise in eine Reihe separater binärer Variablen umcodieren.

Beispiel: Erstellen Sie eine binäre Variable für die Expresszustellung, die für Expressversandfälle den Wert 1 und andernfalls den Wert 0 annehmen würde. Ebenso eine binäre Variable für die Standardlieferung.

Für jede dieser neu codierten binären Variablen können Sie die Randeffekte wie folgt berechnen:

Formel

Lassen Sie mich ein wenig zur obigen Gleichung erklären: Nehmen wir an, d ist die neu codierte binäre Variable für die Expresszustellung

Formel ist die Wahrscheinlichkeit eines Ereignisses, das im Mittel bewertet wird, wenn d = 1 ist

Formel ist die Wahrscheinlichkeit eines Ereignisses, das im Mittel bewertet wird, wenn d = 0 ist

Sobald Sie die Randeffekte für alle Kategorien (neu codierte binäre Variablen) berechnet haben, können Sie sie einordnen.

subra
quelle
Vielen Dank für Ihren Beitrag, subra. Ich habe versucht, mich genau an Ihre Anweisungen zu halten, und den Befehl ". Rands, dydx (ExpDel)" in stata ausgeführt. Sie finden die Ausgabe in meinem ursprünglichen Beitrag. Muss ich diesen Befehl über alle meine kategorialen (und jetzt binären) Variablen ausführen, die ich bewerten möchte, und muss dann nur den Wert dy / dx vergleichen? Je höher desto mehr Einfluss auf meine abhängige Variable? Vielen Dank!
Lukas
@ Lukas: Ja, du bist richtig. In Stata berechnen die 'Ränder' für diskrete Daten tatsächlich den Effekt einer diskreten Änderung der Co-Variate. Daher müssen Sie nur das dy / dx (von den Rändern) für alle Kategorien (jetzt binär) vergleichen. Je höher der Wert, desto mehr Einfluss.
Subra
@ subra: Danke für die Klarstellung. Das oben erwähnte Verfahren führt zu der gleichen Rangfolge, als würde ich nur die jeweiligen Logit-Koeffizienten einstufen. Ich bin mir immer noch nicht sicher, warum ich mich für Rankingzwecke auf die Randeffekte und nicht auf die Logit-Koeffizienten beziehen darf. Haben Sie eine Quelle, die Sie für weitere Lesungen empfehlen könnten? Außerdem bin ich mir nicht sicher, warum ich den oben genannten Befehl stata verwenden und nicht "atmeans" hinzufügen soll, um die Mittelwerte der anderen Variablen zu Vergleichszwecken zu verwenden. Vielen Dank.
Lukas
@ Lucas: Ja, du bist ein Ritus. Wenn Sie nur die Prädiktoren einordnen möchten, sollten die Logit-Koeffizienten ausreichen. Ich bin mit Ihrem zweiten Teil der Frage nicht klar. Wenn Sie fragen , warum wir die marginale Effekte zu bewerten haben, überprüfen Sie bitte die folgenden Beitrag: stats.stackexchange.com/questions/167811/...
Subra
-2

Sie können das logistische Regressionsmodell mit jeweils nur einer Variablen anpassen und das angepasste R2 untersuchen.

Derjenige, der den größten Teil der Varianz erklärt, sollte mehr Einfluss auf das Modell haben ...

Ich vermute nur, nicht sicher, ob es eine rigorose Lösung ist ...

gabboshow
quelle
4
Nein, das würde nur marginale Assoziationsmaßnahmen vorsehen.
Frank Harrell
-2

Dies ist eine häufig gestellte Frage mit einer Vielzahl von Antworten. Am einfachsten ist es, standardisierte Funktionen zu verwenden. Der absolute Wert der zurückkommenden Koeffizienten kann dann lose als "höher" = "mehr Einfluss" auf das Protokoll (Gewinnchancen) interpretiert werden. Die Verwendung von Standardwerten sollte sich größtenteils nicht auf Ihre Gesamtergebnisse auswirken (die ROC-Kurve sollte dieselbe sein; die Verwirrungsmatrix sollte dieselbe sein, vorausgesetzt, Sie wählen einen vergleichbaren Entscheidungsschwellenwert). Normalerweise berechne ich die Regression in beide Richtungen. einmal mit Rohwerten (um die Vorhersagegleichung zu erhalten, die ich verwenden werde) und ein zweites Mal mit standardisierten Werten, um zu sehen, welche am größten sind.

Bei kategorialen Prädiktoren gehe ich davon aus (habe dies jedoch nicht überprüft), dass dies auch bei Verwendung normalisierter Prädiktoren gilt.

Wenn Sie dies noch nicht getan haben, sollten Sie auch die Regularisierung in Betracht ziehen: Lasso / Grat / elastisches Netz. Auf diese Weise können schwache, irrelevante oder redundante Funktionen ausfallen, sodass Sie ein sparsameres Modell erhalten.

HEITZ
quelle