Maschinelles Lernen (ML) verwendet stark lineare und logistische Regressionstechniken. Es stützt sich auch auf Feature - Engineering - Techniken ( feature transform
, kernel
usw.).
Warum wird in ML nichts über variable transformation
(zB power transformation
) erwähnt? (Ich höre zum Beispiel nie davon, Stamm- oder Protokolldaten für Features zu verwenden, normalerweise werden nur Polynome oder RBFs verwendet.) Warum kümmern sich ML-Experten auch nicht um Feature-Transformationen für die abhängige Variable? (Zum Beispiel höre ich nie von der Log-Transformation von y; sie transformieren nur y nicht.)
Änderungen: Vielleicht ist die Frage nicht definitiv, meine eigentliche Frage lautet: "Ist die Umwandlung von Leistung in Variablen in ML nicht wichtig?"
quelle
Antworten:
Das Buch Applied Predictive Modeling von Kuhn und Johnson ist ein hoch angesehenes praktisches Buch zum maschinellen Lernen mit einem großen Abschnitt über variable Transformationen, einschließlich Box-Cox. Die Autoren behaupten, dass viele Algorithmen für maschinelles Lernen besser funktionieren, wenn die Features symmetrische und unimodale Verteilungen aufweisen. Das Transformieren der Features auf diese Weise ist ein wichtiger Bestandteil des Feature-Engineerings.
quelle
Nun, aus meiner Sicht interessiert mich häufig die prädiktive Verteilung der Antwortvariablen und nicht nur der bedingte Mittelwert. In diesem Fall ist es besser, eine Wahrscheinlichkeit zu verwenden, die die Zielverteilung korrekter darstellt. Zum Beispiel verwende ich gerne kernelisierte lineare Modelle, anstatt (sagen wir) die Vektorregression zu unterstützen, weil ich eine Poisson-Wahrscheinlichkeit verwenden kann, wenn ich möchte. Da viele maschinell Lernende Bayesianer sind, vermute ich, dass die Verwendung einer anderen Wahrscheinlichkeit eleganter erscheint als Transformationen (die Auswahl einer geeigneten Wahrscheinlichkeit ist im Allgemeinen der erste Schritt).
quelle
Hier sind meine späteren Gedanken.
Ich denke, es liegt daran, dass sich ML größtenteils mit Klassifikation befasst und Klassifikation keine Notwendigkeit für die Transformation von y (y ist kategorisch) darstellt. ML befasst sich normalerweise mit großen unabhängigen Variablen (z. B. Tausenden in NLP), und die logistische Regression erfordert keine Normalität. Ich denke, deshalb verwenden sie aus Gründen der Geschwindigkeit keine Box-Cox-Leistungstransformation. (Anmerkung: Ich bin nicht vertraut mit Machttransformation.)
quelle