Hallo Leute, ich habe ein oder zwei Papiere gefunden, die die Ridge-Regression verwenden (für Basketballdaten). Mir wurde immer befohlen, meine Variablen zu standardisieren, wenn ich eine Gratregression durchführte, aber ich wurde einfach dazu aufgefordert, weil es sich bei dem Grat um eine Skalierungsvariante handelte (die Gratregression war nicht wirklich Teil unseres Kurses, daher überflog unser Dozent sie).
Diese von mir gelesenen Artikel haben ihre Variablen nicht standardisiert, was mich ein wenig überrascht hat. Sie erreichten auch große Lambda-Werte (um das Niveau von 2000-4000) durch Kreuzvalidierung, und mir wurde gesagt, dass dies darauf zurückzuführen ist, dass die Variablen nicht standardisiert wurden.
Wie genau führt das Nichtstandardisieren der Variablen zu hohen Lambda-Werten und welche Konsequenzen hat das Nichtstandardisieren der Variablen im Allgemeinen? Ist es wirklich so eine große Sache?
Jede Hilfe wird sehr geschätzt.
quelle
Ich hoffe, dass jemand davon profitiert, auch wenn er vier Jahre zu spät ist. So wie ich es verstanden habe, gibt der Koeffizient an, um wie viel sich die Zielvariable für eine Änderung der Einheit in der unabhängigen Variablen (dy / dx) ändert. Nehmen wir an, wir untersuchen die Beziehung zwischen Gewicht und Größe und das Gewicht wird in kg gemessen. Wenn wir Kilometer als Höhe verwenden, können Sie sich vorstellen, dass die meisten Datenpunkte (für die menschliche Größe) eng gepackt sind. Für eine kleine fraktionierte Änderung der Höhe gibt es daher eine große Gewichtsänderung (unter der Annahme, dass das Gewicht mit der Höhe zunimmt). Das Verhältnis dy / dx wird sehr groß sein. Wenn andererseits die Höhe in Millimetern gemessen wird, werden die Daten über die Höhenattribute weit und breit verteilt. Eine Änderung der Einheitshöhe hat keine signifikante Änderung des Gewichts. Dy / dx ist sehr klein und nahezu gleich 0.
quelle