Wann ist die WOE-Transformation (Weight of Evidence) von kategorialen Variablen sinnvoll?
Das Beispiel ist in der WOE-Transformation zu sehen
(Für eine Antwort und einen kategorialen Prädiktor mit k Kategorien und y j Erfolgen aus n j Versuchen innerhalb der j- ten Kategorie dieses Prädiktors ist die WOE für die j- te Kategorie definiert als
& Die Transformation besteht darin, jede Kategorie des kategorialen Prädiktors mit seinem WOE zu codieren, um einen neuen kontinuierlichen Prädiktor zu bilden.)
Ich möchte den Grund erfahren, warum die WOE-Transformation die logistische Regression unterstützt. Was ist die Theorie dahinter?
Eine grobe Klassifizierung unter Verwendung des Maßes für das Gewicht der Evidenz (WoE) hat den folgenden Vorteil: WoE zeigt eine lineare Beziehung zum natürlichen Logarithmus des Odds Ratio, der die abhängige Variable in der logistischen Regression ist.
Daher stellt sich die Frage der Modellfehlspezifikation bei der logistischen Regression nicht, wenn WoE anstelle der tatsächlichen Werte der Variablen verwendet wird.
Quelle: In einem der PPTs zeigte mir mein Trainer während des Firmentrainings.
quelle
WOE-Transformationen helfen, wenn Sie sowohl numerische als auch kategoriale Daten haben, die Sie kombinieren müssen, und fehlende Werte, aus denen Sie Informationen extrahieren möchten. Durch die Konvertierung von allem in WOE können viele verschiedene Datentypen (auch fehlende Daten) auf derselben Protokollquotenskala "standardisiert" werden. Dieser Blog-Beitrag erklärt die Dinge ziemlich gut: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Kurz gesagt, die logistische Regression mit WOE sollte (und wird) nur als Semi-Naive Bayesian Classifier (SNBC) bezeichnet werden. Wenn Sie versuchen, den Algorithmus zu verstehen, ist der Name SNBC für mich weitaus informativer.
quelle