Ich recherchiere mit logistischer Regression. 10 Variablen beeinflussen die abhängige Variable. Eine der oben genannten ist kategorisch (z. B. Expresslieferung, Standardlieferung usw.). Jetzt möchte ich diese Kategorien anhand der "Stärke" ihrer Auswirkung auf die abhängige Variable einstufen.
Sie sind alle signifikant (kleiner p-Wert), aber ich denke, ich kann den Wert der Gewinnchancen nicht einfach für Rankingzwecke verwenden. Ich muss irgendwie herausfinden, ob sich jede Kategorie auch signifikant von den anderen Kategorien unterscheidet. Ist das richtig?
Ich habe über die Möglichkeit gelesen, die Variable zu zentrieren. Ist das wirklich eine Option? Ich möchte nicht, dass der Rest meines Modells betroffen ist.
Stata-Ausgabe, um meinen Kommentar zum Beitrag von @ subra zu unterstützen:
Average marginal effects Number of obs = 124773
Model VCE : OIM
Expression : Pr(return), predict()
dy/dx w.r.t. : ExpDel
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626
------------------------------------------------------------------------------
Sie können das logistische Regressionsmodell mit jeweils nur einer Variablen anpassen und das angepasste R2 untersuchen.
Derjenige, der den größten Teil der Varianz erklärt, sollte mehr Einfluss auf das Modell haben ...
Ich vermute nur, nicht sicher, ob es eine rigorose Lösung ist ...
quelle
Dies ist eine häufig gestellte Frage mit einer Vielzahl von Antworten. Am einfachsten ist es, standardisierte Funktionen zu verwenden. Der absolute Wert der zurückkommenden Koeffizienten kann dann lose als "höher" = "mehr Einfluss" auf das Protokoll (Gewinnchancen) interpretiert werden. Die Verwendung von Standardwerten sollte sich größtenteils nicht auf Ihre Gesamtergebnisse auswirken (die ROC-Kurve sollte dieselbe sein; die Verwirrungsmatrix sollte dieselbe sein, vorausgesetzt, Sie wählen einen vergleichbaren Entscheidungsschwellenwert). Normalerweise berechne ich die Regression in beide Richtungen. einmal mit Rohwerten (um die Vorhersagegleichung zu erhalten, die ich verwenden werde) und ein zweites Mal mit standardisierten Werten, um zu sehen, welche am größten sind.
Bei kategorialen Prädiktoren gehe ich davon aus (habe dies jedoch nicht überprüft), dass dies auch bei Verwendung normalisierter Prädiktoren gilt.
Wenn Sie dies noch nicht getan haben, sollten Sie auch die Regularisierung in Betracht ziehen: Lasso / Grat / elastisches Netz. Auf diese Weise können schwache, irrelevante oder redundante Funktionen ausfallen, sodass Sie ein sparsameres Modell erhalten.
quelle