Ersetzen von Variablen durch WoE (Weight of Evidence) in der logistischen Regression

13

Dies ist eine Frage zu einer Praxis oder Methode, die von einigen meiner Kollegen befolgt wird. Bei der Erstellung eines logistischen Regressionsmodells habe ich gesehen, dass Personen kategoriale Variablen (oder fortlaufende Variablen, die in Gruppen zusammengefasst sind) durch ihre jeweilige Beweiskraft (Weight of Evidence, WoE) ersetzen. Dies soll eine monotone Beziehung zwischen dem Regressor und der abhängigen Variablen herstellen. Soweit ich weiß, sind die Variablen in der Gleichung nach der Erstellung des Modells NICHT die Variablen im Datensatz. Vielmehr sind die Variablen in der Gleichung nun sozusagen die Wichtigkeit oder das Gewicht der Variablen bei der Trennung der abhängigen Variablen !

Meine Frage ist: Wie interpretieren wir nun das Modell oder die Modellkoeffizienten? Zum Beispiel für die folgende Gleichung:

log(p1p)=β0+β1x1

Wir können sagen, dass die relative Zunahme des ungeraden Verhältnisses für eine Einheit der Zunahme der Variablen x 1 ist .exp(β1) x1

Wenn die Variable jedoch durch ihr WoE ersetzt wird, ändert sich die Interpretation in: Relative Erhöhung des ungeraden Verhältnisses für 1 Einheit Erhöhung der WICHTIGKEIT / des GEWICHTS der Variablen

Ich habe diese Praxis im Internet gesehen, aber nirgends habe ich eine Antwort auf diese Frage gefunden. Dieser Link aus dieser Community selbst bezieht sich auf eine ähnliche Abfrage, in der jemand Folgendes geschrieben hat:

WoE zeigt eine lineare Beziehung zum natürlichen Logarithmus des Odds Ratio, der die abhängige Variable in der logistischen Regression ist. Daher stellt sich bei der logistischen Regression nicht die Frage der Modellfehlspezifikation, wenn WoE anstelle der tatsächlichen Werte der Variablen verwendet wird.

Aber ich verstehe die Erklärung immer noch nicht. Bitte helfen Sie mir zu verstehen, was ich vermisse.

SamRoy
quelle
ist das mit einer 1-Einheiten-Zunahme in x 1 verbundene Quotenverhältnis, nicht "die relative Zunahmedes mit einer 1-Einheiten-Zunahme in x 1 verbundenen Quotenverhältnisses". exp(β1)x1x1
gung - Reinstate Monica
Nee. Klar, um loszuwerden , müssen Sie das Verhältnis der LHS nach Exponentiation nehmenβ0
SamRoy
Die Gewinnchancen sind p / (1-p). Wenn also p (x) = exp (+0 + 𝛽1x) und p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1), ist zu beachten, dass p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) und schließlich das Quotenverhältnis p (x + 1) / p (x) = exp (𝛽1), wie von stats.stackexchange.com/users/7290/gung
hwrd am

Antworten:

11

Die WoE-Methode besteht aus zwei Schritten:

1 - Aufteilen (einer kontinuierlichen) Variablen in wenige Kategorien oder Gruppieren (einer diskreten) Variablen in wenige Kategorien (und in beiden Fällen nehmen Sie an, dass alle Beobachtungen in einer Kategorie "den gleichen" Effekt auf die abhängige Variable haben)
2 - Berechnung des WoE Wert für jede Kategorie (dann werden die ursprünglichen x-Werte durch die WoE-Werte ersetzt)

Die WoE-Transformation hat (mindestens) drei positive Effekte:
1) Sie kann eine unabhängige Variable transformieren, sodass eine monotone Beziehung zur abhängigen Variablen hergestellt wird. Tatsächlich leistet es mehr als dies - um eine monotone Beziehung zu gewährleisten, würde es ausreichen, sie nach einem beliebigen geordneten Maß (z. B. 1,2,3,4 ...) "umzukodieren", aber die WoE-Transformation ordnet die Kategorien tatsächlich in einer "Logistik" an "Für logistische Regression natürliche Skala
2) Für Variablen mit zu vielen (dünn besetzten) diskreten Werten können diese in Kategorien gruppiert (dicht besetzt) ​​werden, und das WoE kann verwendet werden, um Informationen für die gesamte Kategorie auszudrücken
3) Der (univariate) Effekt jeder Kategorie auf abhängige Variablen kann einfach über Kategorien und Variablen hinweg verglichen werden, da WoE ein standardisierter Wert ist (zum Beispiel können Sie WoE von verheirateten Personen mit WoE von Arbeitern vergleichen).

Es hat auch (mindestens) drei Nachteile:
1) Informationsverlust (Variation) aufgrund der Unterteilung in wenige Kategorien
2) Es handelt sich um eine "univariate" Maßnahme, bei der die Korrelation zwischen unabhängigen Variablen nicht berücksichtigt wird.
3) Es ist einfach zu Manipulieren (Überanpassen) Sie den Effekt von Variablen entsprechend der Art und Weise, wie Kategorien erstellt werden

Herkömmlicherweise werden die Betas der Regression (wobei das x durch WoE ersetzt wurde) nicht per se interpretiert, sondern mit WoE multipliziert, um eine "Punktzahl" zu erhalten (zum Beispiel kann das Beta für die Variable "Familienstand" mit WoE von multipliziert werden Gruppe "Verheiratete", um die Punktzahl der Verheirateten anzuzeigen; Beta für Variable "Beruf" kann mit WoE der "Arbeiter" multipliziert werden, um die Punktzahl der Arbeiter anzuzeigen. Wenn Sie an der Punktzahl der verheirateten Arbeiter interessiert sind, Sie addieren diese beiden Punkte und sehen, wie stark sich dies auf das Ergebnis auswirkt. Je höher die Punktzahl ist, desto größer ist die Wahrscheinlichkeit, dass ein Ergebnis gleich 1 ist.

König Salomos Pferd
quelle
1
(+1) Warum ist es von Vorteil, einen Prädiktor neu zu kodieren, um eine monotone Beziehung zur Antwort zu haben?
Scortchi - Wiedereinsetzung von Monica
1
@Scortchi Ich kann mir ein Beispiel vorstellen - die unabhängige Variable ist die Größe der Menschen (gemessen in cm), die Menschen kaufen schöne Kleidung ein, die abhängige Variable wäre ein binäres Ereignis - ob sie geeignete und bequeme Kleidung kaufen können oder nicht. Anscheinend werden die sehr kleinen und die sehr großen Leute Schwierigkeiten haben, geeignete Kleidung zu kaufen, während die Leute in der Mitte es leicht tun könnten. Mit einfacher (ohne Interaktion und ohne Transformationen) Regression konnte man nur modellieren, dass die Wahrscheinlichkeit, geeignete Kleidung zu kaufen, mit der Größe der Menschen entweder zunimmt oder abnimmt
King Solomon's Horse,
1
Normalerweise verwenden die Menschen keine nicht-monotonen Transformationen von Prädiktoren - sowieso nicht in empirischen Modellen. Das Einbeziehen von Interaktionen kann bedingte nicht-monotone Beziehungen entfernen oder einführen, ebenso wie das Einbeziehen anderer Prädiktoren. Die Darstellung eines Prädiktors mit einer Polynom- oder Spline-Basisfunktion ist jedoch eine einfache Möglichkeit, dies zuzulassen. & ein anderer bündelt es & behandelt es dann als kategorisch, z. B. unter Verwendung von Codierung auf Referenzniveau. Das letzte ist zumindest wesentlich einfacher als diese WoE-Transformation; Keiner teilt den Nachteil für ...
Scortchi
1
... Inferenz und Interpretierbarkeit, die sich aus der Definition eines Prädiktors in Bezug auf die Antwort ergeben; & all erlaubt die Modellierung einer nicht-monotonen bedingten Beziehung, auch wenn die marginale Beziehung monoton ist (oder umgekehrt). Ich gehe davon aus, dass die WoE-Transformation für mich eine Lösung auf der Suche nach einem Problem ist. Gibt es eine Klasse von Situationen, in denen bessere Vorhersagen möglich sind als bei weit verbreiteten Methoden? - Dies ist jedoch eine andere Frage als die, die Sie hier beantwortet haben (möglicherweise stats.stackexchange.com/q/166816/17230 ).
Scortchi - Wiedereinsetzung von Monica
Was ist, wenn Sie bereits kategoriale Daten haben? ist dann der einzige vorteil "eine monotone beziehung aufzubauen"? Es scheint, als ob die kritische Komponente von WoE tatsächlich im Binning-Prozess
information_interchange
7

Der Grund für die Verwendung von WOE in der logistischen Regression besteht darin, einen so genannten semi-naiven Bayesian Classifier (SNBC) zu generieren. Der Anfang dieses Blogposts erklärt die Dinge ziemlich gut: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Die Beta-Parameter im Modell sind die linearen Verzerrungen jedes naiven Effekts (auch als Beweislast bezeichnet) aufgrund des Vorhandenseins anderer Prädiktoren und können als lineare Änderung der logarithmischen Quoten der jeweiligen Prädiktoren aufgrund des Vorhandenseins von interpretiert werden andere Prädiktoren.

Stephened
quelle
1

Weight of Evidence (WoE) ist eine leistungsstarke Technik zur Durchführung variabler Transformationen und Auswahlen. Es wird häufig beim Kredit-Scoring verwendet, um die Trennung zwischen guten und schlechten Kunden zu messen (Variablen). Vorteile :: - Behandelt fehlende Werte Behandelt Ausreißer, deren Transformation auf dem logrithmischen Verteilungswert basiert. Keine Notwendigkeit für Dummy-Variablen durch die Verwendung der richtigen Binning-Technik kann eine monotone Beziehung zwischen dem Unabhängigen und dem Abhängigen hergestellt werden.

mono_bin () = wird für numerische Variablen verwendet. char_bin () = wird für Zeichenvariablen verwendet.

Krishna75
quelle