Dies ist eine Frage zu einer Praxis oder Methode, die von einigen meiner Kollegen befolgt wird. Bei der Erstellung eines logistischen Regressionsmodells habe ich gesehen, dass Personen kategoriale Variablen (oder fortlaufende Variablen, die in Gruppen zusammengefasst sind) durch ihre jeweilige Beweiskraft (Weight of Evidence, WoE) ersetzen. Dies soll eine monotone Beziehung zwischen dem Regressor und der abhängigen Variablen herstellen. Soweit ich weiß, sind die Variablen in der Gleichung nach der Erstellung des Modells NICHT die Variablen im Datensatz. Vielmehr sind die Variablen in der Gleichung nun sozusagen die Wichtigkeit oder das Gewicht der Variablen bei der Trennung der abhängigen Variablen !
Meine Frage ist: Wie interpretieren wir nun das Modell oder die Modellkoeffizienten? Zum Beispiel für die folgende Gleichung:
Wir können sagen, dass die relative Zunahme des ungeraden Verhältnisses für eine Einheit der Zunahme der Variablen x 1 ist .
Wenn die Variable jedoch durch ihr WoE ersetzt wird, ändert sich die Interpretation in: Relative Erhöhung des ungeraden Verhältnisses für 1 Einheit Erhöhung der WICHTIGKEIT / des GEWICHTS der Variablen
Ich habe diese Praxis im Internet gesehen, aber nirgends habe ich eine Antwort auf diese Frage gefunden. Dieser Link aus dieser Community selbst bezieht sich auf eine ähnliche Abfrage, in der jemand Folgendes geschrieben hat:
WoE zeigt eine lineare Beziehung zum natürlichen Logarithmus des Odds Ratio, der die abhängige Variable in der logistischen Regression ist. Daher stellt sich bei der logistischen Regression nicht die Frage der Modellfehlspezifikation, wenn WoE anstelle der tatsächlichen Werte der Variablen verwendet wird.
Aber ich verstehe die Erklärung immer noch nicht. Bitte helfen Sie mir zu verstehen, was ich vermisse.
Antworten:
Die WoE-Methode besteht aus zwei Schritten:
1 - Aufteilen (einer kontinuierlichen) Variablen in wenige Kategorien oder Gruppieren (einer diskreten) Variablen in wenige Kategorien (und in beiden Fällen nehmen Sie an, dass alle Beobachtungen in einer Kategorie "den gleichen" Effekt auf die abhängige Variable haben)
2 - Berechnung des WoE Wert für jede Kategorie (dann werden die ursprünglichen x-Werte durch die WoE-Werte ersetzt)
Die WoE-Transformation hat (mindestens) drei positive Effekte:
1) Sie kann eine unabhängige Variable transformieren, sodass eine monotone Beziehung zur abhängigen Variablen hergestellt wird. Tatsächlich leistet es mehr als dies - um eine monotone Beziehung zu gewährleisten, würde es ausreichen, sie nach einem beliebigen geordneten Maß (z. B. 1,2,3,4 ...) "umzukodieren", aber die WoE-Transformation ordnet die Kategorien tatsächlich in einer "Logistik" an "Für logistische Regression natürliche Skala
2) Für Variablen mit zu vielen (dünn besetzten) diskreten Werten können diese in Kategorien gruppiert (dicht besetzt) werden, und das WoE kann verwendet werden, um Informationen für die gesamte Kategorie auszudrücken
3) Der (univariate) Effekt jeder Kategorie auf abhängige Variablen kann einfach über Kategorien und Variablen hinweg verglichen werden, da WoE ein standardisierter Wert ist (zum Beispiel können Sie WoE von verheirateten Personen mit WoE von Arbeitern vergleichen).
Es hat auch (mindestens) drei Nachteile:
1) Informationsverlust (Variation) aufgrund der Unterteilung in wenige Kategorien
2) Es handelt sich um eine "univariate" Maßnahme, bei der die Korrelation zwischen unabhängigen Variablen nicht berücksichtigt wird.
3) Es ist einfach zu Manipulieren (Überanpassen) Sie den Effekt von Variablen entsprechend der Art und Weise, wie Kategorien erstellt werden
Herkömmlicherweise werden die Betas der Regression (wobei das x durch WoE ersetzt wurde) nicht per se interpretiert, sondern mit WoE multipliziert, um eine "Punktzahl" zu erhalten (zum Beispiel kann das Beta für die Variable "Familienstand" mit WoE von multipliziert werden Gruppe "Verheiratete", um die Punktzahl der Verheirateten anzuzeigen; Beta für Variable "Beruf" kann mit WoE der "Arbeiter" multipliziert werden, um die Punktzahl der Arbeiter anzuzeigen. Wenn Sie an der Punktzahl der verheirateten Arbeiter interessiert sind, Sie addieren diese beiden Punkte und sehen, wie stark sich dies auf das Ergebnis auswirkt. Je höher die Punktzahl ist, desto größer ist die Wahrscheinlichkeit, dass ein Ergebnis gleich 1 ist.
quelle
Der Grund für die Verwendung von WOE in der logistischen Regression besteht darin, einen so genannten semi-naiven Bayesian Classifier (SNBC) zu generieren. Der Anfang dieses Blogposts erklärt die Dinge ziemlich gut: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Die Beta-Parameter im Modell sind die linearen Verzerrungen jedes naiven Effekts (auch als Beweislast bezeichnet) aufgrund des Vorhandenseins anderer Prädiktoren und können als lineare Änderung der logarithmischen Quoten der jeweiligen Prädiktoren aufgrund des Vorhandenseins von interpretiert werden andere Prädiktoren.
quelle
Weight of Evidence (WoE) ist eine leistungsstarke Technik zur Durchführung variabler Transformationen und Auswahlen. Es wird häufig beim Kredit-Scoring verwendet, um die Trennung zwischen guten und schlechten Kunden zu messen (Variablen). Vorteile :: - Behandelt fehlende Werte Behandelt Ausreißer, deren Transformation auf dem logrithmischen Verteilungswert basiert. Keine Notwendigkeit für Dummy-Variablen durch die Verwendung der richtigen Binning-Technik kann eine monotone Beziehung zwischen dem Unabhängigen und dem Abhängigen hergestellt werden.
mono_bin () = wird für numerische Variablen verwendet. char_bin () = wird für Zeichenvariablen verwendet.
quelle