Frage zur Standardisierung der Kammregression

16

Hallo Leute, ich habe ein oder zwei Papiere gefunden, die die Ridge-Regression verwenden (für Basketballdaten). Mir wurde immer befohlen, meine Variablen zu standardisieren, wenn ich eine Gratregression durchführte, aber ich wurde einfach dazu aufgefordert, weil es sich bei dem Grat um eine Skalierungsvariante handelte (die Gratregression war nicht wirklich Teil unseres Kurses, daher überflog unser Dozent sie).

Diese von mir gelesenen Artikel haben ihre Variablen nicht standardisiert, was mich ein wenig überrascht hat. Sie erreichten auch große Lambda-Werte (um das Niveau von 2000-4000) durch Kreuzvalidierung, und mir wurde gesagt, dass dies darauf zurückzuführen ist, dass die Variablen nicht standardisiert wurden.

Wie genau führt das Nichtstandardisieren der Variablen zu hohen Lambda-Werten und welche Konsequenzen hat das Nichtstandardisieren der Variablen im Allgemeinen? Ist es wirklich so eine große Sache?

Jede Hilfe wird sehr geschätzt.

l_davies93
quelle

Antworten:

18

Ridge-Regression reguliert die lineare Regression durch Auferlegen einer Strafe für die Größe der Koeffizienten. Somit werden die Koeffizienten gegen Null und gegeneinander geschrumpft. Wenn dies jedoch passiert und die unabhängigen Variablen nicht den gleichen Maßstab haben, ist das Schrumpfen nicht fair. Zwei unabhängige Variablen mit unterschiedlichen Maßstäben haben unterschiedliche Beiträge zu den bestraften Begriffen, da der bestrafte Begriff eine Summe der Quadrate aller Koeffizienten ist. Um solche Probleme zu vermeiden, werden die unabhängigen Variablen häufig zentriert und skaliert, um die Varianz 1 zu erhalten.

[Später bearbeiten, um auf einen Kommentar zu antworten]

heichGht

Der Bestrafungsterm mit Lambda ist der gleiche wie der Ausdruck der Quadratverlustfunktion in Bezug auf die Summe der quadrierten Koeffizienten, die kleiner oder gleich einer gegebenen Konstante sind. Das heißt, ein größeres Lambda gibt der Quadratsumme der Koeffizienten viel Platz und ein kleineres Lambda weniger. Größerer oder kleinerer Raum bedeutet größere oder kleinere absolute Werte der Koeffizienten.

Wenn keine Standardisierung verwendet wird, sind für die Anpassung des Modells möglicherweise große absolute Werte der Koeffizienten erforderlich. Natürlich könnten wir aufgrund der Rolle der Variablen im Modell einen großen Koeffizientenwert haben. Was ich sage ist, dass dieser Wert einen künstlich aufgeblasenen Wert haben könnte, weil er nicht skaliert wird. Die Skalierung verringert daher auch den Bedarf an großen Koeffizientenwerten. Somit wäre der optimale Wert von Lambda normalerweise kleiner, was einer kleineren Summe von quadrierten Werten von Koeffizienten entspricht.

rapaio
quelle
Vielen Dank. Wie würde eine Standardisierung nicht zu einem höheren geschätzten Testfehler (über eine Kreuzvalidierung) und damit zu einem höheren Lambda-Bedarf führen?
l_davies93
Ich habe meine Gedanken in der Antwort angehängt
rapaio
Ich weiß, dass dies eine alte Frage ist, aber können Sie vielleicht erklären, warum der Tuning-Parameter größer werden sollte, wenn wir unsere Daten zum Beispiel von Kilometern in Meter
umwandeln
1

Ich hoffe, dass jemand davon profitiert, auch wenn er vier Jahre zu spät ist. So wie ich es verstanden habe, gibt der Koeffizient an, um wie viel sich die Zielvariable für eine Änderung der Einheit in der unabhängigen Variablen (dy / dx) ändert. Nehmen wir an, wir untersuchen die Beziehung zwischen Gewicht und Größe und das Gewicht wird in kg gemessen. Wenn wir Kilometer als Höhe verwenden, können Sie sich vorstellen, dass die meisten Datenpunkte (für die menschliche Größe) eng gepackt sind. Für eine kleine fraktionierte Änderung der Höhe gibt es daher eine große Gewichtsänderung (unter der Annahme, dass das Gewicht mit der Höhe zunimmt). Das Verhältnis dy / dx wird sehr groß sein. Wenn andererseits die Höhe in Millimetern gemessen wird, werden die Daten über die Höhenattribute weit und breit verteilt. Eine Änderung der Einheitshöhe hat keine signifikante Änderung des Gewichts. Dy / dx ist sehr klein und nahezu gleich 0.

user3358819
quelle