Warum bestraft die Regularisierung in der linearen Regression auch die Parameterwerte?

9

Ich lernte gerade die Gratregression und war etwas verwirrt über die Bestrafung komplexerer Modelle (oder die Definition eines komplexeren Modells).

Soweit ich weiß, korreliert die Komplexität des Modells nicht unbedingt mit der Polynomordnung. Also: ist ein komplexeres Modell als:

2+3+4x2+5x3+6x4
5x5

Und ich weiß, dass der Punkt der Regularisierung darin besteht, die Modellkomplexität niedrig zu halten. wir zum Beispiel an, wir haben ein Polynom 5. Ordnung

f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5

Je mehr Parameter 0 sind, desto besser.

Was ich aber nicht verstehe ist, wenn es das gleiche Ordnungspolynom war, warum werden niedrigere Parameterwerte weniger bestraft? Warum also:

2+5x+x3
ist ein weniger komplexes Modell als

433+342x+323x3
beide haben dieselbe Polynomreihenfolge, und die Parameterwerte hängen einfach von den Daten ab.

Vielen Dank!

Physco111
quelle

Antworten:

10

Die Parameterwerte hängen einfach von den Daten ab

Dies ist der Schlüsselteil Ihrer Frage. Hier sind Sie verwirrt.

Ja, die Parameterwerte hängen von den Daten ab. Die Daten werden jedoch festgelegt, wenn wir ein Modell anpassen. Mit anderen Worten, wir passen ein Modell an, das von den Beobachtungen abhängig ist . Es ist nicht sinnvoll, die Komplexität verschiedener Modelle zu vergleichen , die an verschiedene Datensätze angepasst wurden .

Und im Kontext eines festen Datensatzes ein Modell

2+5x+x3

ist in der Tat näher an dem einfachsten Modell, nämlich dem Flat-Zero-Modell, als

433+342x+323x3,

und dies gilt unabhängig vom Umfang Ihrer Beobachtungen.

Im Übrigen wird der Achsenabschnitt ( und in Ihrem Beispiel) häufig nicht bestraft, z. B. in den meisten Lasso-Formulierungen, da wir ihn normalerweise gut variieren lassen können, um den Gesamtdurchschnitt der Beobachtungen zu erfassen. Mit anderen Worten, wir verkleinern das Modell in Richtung des Durchschnitts der Beobachtungen, nicht in Richtung eines vollständigen Nullmodells (wobei die Null oft willkürlich ist). In diesem Sinne würden ein Flat und ein Flat Modell als gleich komplex angesehen.24332433

Stephan Kolassa
quelle
1
Die niedrigeren Größenkoeffizienten sind weiter von der flachen Null entfernt als die höheren Koeffizienten? Ist das ein Tippfehler oder verstehe ich falsch, warum ein Modell, das weiter von der Konstante entfernt ist, nicht so sehr bestraft wird wie ein Modell, das der Konstanten näher kommt?
RM
Entschuldigung, das war in der Tat ein Tippfehler. Lass mich bearbeiten. Vielen Dank für den Hinweis!
Stephan Kolassa