Warum alle Parameter auf die gleiche Weise regulieren?

7

Meine Frage bezieht sich auf die Regularisierung in der linearen Regression und der logistischen Regression. Ich mache gerade Woche 3 von Andrew Ngs Kurs über maschinelles Lernen auf Coursera. Ich verstehe, wie Überanpassung ein häufiges Problem sein kann, und ich habe eine gewisse Intuition dafür, wie Regularisierung Überanpassung reduzieren kann. Meine Frage ist, können wir unsere Modelle verbessern, indem wir verschiedene Parameter auf unterschiedliche Weise regulieren?


Beispiel:

Nehmen wir an, wir versuchen zu passen w0+w1x1+w2x2+w3x3+w4x4. Diese Frage ist, warum wir für hohe bestrafenw1 Werte auf die gleiche Weise, die für hohe bestrafen w2 Werte.

Wenn wir nichts über unsere Funktionen wissen (x1,x2,x3,x4) konstruiert wurden, ist es sinnvoll, sie alle gleich zu behandeln, wenn wir regulieren: ein Hoch w1 Wert sollte so viel "Strafe" wie ein Hoch ergeben w3 Wert.

Angenommen, wir haben zusätzliche Informationen: Nehmen wir an, wir hatten ursprünglich nur zwei Funktionen: x1 und x2. Eine Linie passte nicht zu unserem Trainingsset und wir wollten eine schnörkellosere Entscheidungsgrenze, also konstruierten wirx3=x12 und x4=x23. Jetzt können wir komplexere Modelle haben, aber je komplexer sie werden, desto größer ist das Risiko, dass wir unser Modell an die Trainingsdaten anpassen. Wir wollen also ein Gleichgewicht zwischen der Minimierung der Kostenfunktion und der Minimierung unserer Modellkomplexität finden. Nun, die Parameter, die höhere Exponentiale darstellen (x3, x4) erhöhen die Komplexität unseres Modells drastisch. Also sollten wir nicht mehr für High bestrafenw3, w4 Werte, als wir für hohe bestrafen w1,w2 Werte?

Atte Juvonen
quelle
1
Dies liegt daran, dass wir nicht mehr über eine Funktion für eine andere Funktion wissen. Aber ja, es gibt Algorithmen wie AROW (adaptive Regularisierung von Gewichten), die meiner Meinung nach unterschiedliche Gewichtungen von Merkmalen durchführen.
Vladislavs Dovgalecs

Antworten:

4

Nun, die Parameter, die höhere Exponentiale darstellen (x3, x4), erhöhen die Komplexität unseres Modells drastisch. Sollten wir also nicht mehr für hohe w3, w4-Werte bestrafen als für hohe w1, w2-Werte?

Der Grund, warum wir sagen, dass das Hinzufügen von quadratischen oder kubischen Termen die Komplexität des Modells erhöht, ist, dass es zu einem Modell mit insgesamt mehr Parametern führt. Wir erwarten nicht, dass ein quadratischer Term an und für sich komplexer ist als ein linearer Term. Klar ist, dass ein Modell mit mehr Kovariaten bei sonst gleichen Bedingungen komplexer ist.

Zum Zwecke der Regularisierung werden im Allgemeinen alle Kovariaten neu skaliert, um den gleichen Mittelwert und die gleiche Varianz zu haben, so dass sie a priori als gleich wichtig behandelt werden. Wenn einige Kovariaten tatsächlich eine stärkere Beziehung zur abhängigen Variablen haben als andere, wird das Regularisierungsverfahren diese Kovariaten natürlich nicht so stark benachteiligen, da sie einen größeren Beitrag zur Modellanpassung leisten.

Aber was ist, wenn Sie wirklich a priori denken, dass eine Kovariate wichtiger ist als eine andere, und Sie diesen Glauben quantifizieren können und möchten, dass das Modell ihn widerspiegelt? Dann möchten Sie wahrscheinlich ein Bayes'sches Modell verwenden und die Prioritäten für die Koeffizienten anpassen, um sie an Ihre bereits bestehende Überzeugung anzupassen. Nicht zufällig können einige bekannte Regularisierungsverfahren als Sonderfälle von Bayes'schen Modellen ausgelegt werden. Insbesondere entspricht die Gratregression einem normalen Prior der Koeffizienten, und die Lasso-Regression entspricht einem Laplace-Prior.

Kodiologe
quelle
"Wir erwarten nicht, dass ein quadratischer Term an und für sich komplexer ist als ein linearer Term." Das widerspricht meiner Intuition. Können Sie das näher erläutern?
Atte Juvonen
1
Ich könnte etwas schmuddelig antworten: "Warum sollte es komplexer sein?" Stellen Sie sich vor, zwei Biologen, Alice und Bob, untersuchen Flechten, die zufällig auf Quadraten wachsen. Alice repräsentiert die Größe jedes Flechtenfeldes mit Seitenlänge und Bob repräsentiert es mit Fläche. Bobs Zahlen sind also die Quadrate von Alice. Wenn jeder Biologe dann ein Regressionsmodell mit der Flechtenfleckgröße als Prädiktor erstellt, würden Sie sicherlich nicht sagen, dass Bobs Modell komplexer ist als das von Alice. Sie könnten genauso gut argumentieren, dass das Modell von A komplexer ist, weil ihre Zahlen Quadratwurzeln sind.
Kodiologe
0

Tolle Beobachtungen. Um Ihre Frage zu beantworten: "Sollten wir 'mehr' bestrafen?" Gewinnen wir etwas, wenn wir einigen Variablen eine A-priori-Strafe auferlegen?

In der Praxis machen wir das Gegenteil. Denken Sie daran, die Eingangsvariablen auf dieselbe Größe neu zu skalieren. Unterschiedliche Größen verleihen einigen Variablen von vornherein unterschiedliche "Bedeutung". Wir wissen nicht, welche wichtig sind und welche nicht. Es gibt eine ganze Reihe von Forschungsarbeiten zum Finden der richtigen "Features" oder zum Lernen von Feature-Auswahl / Repräsentation.

Hier sind zwei Möglichkeiten, darüber nachzudenken.

Man könnte mit einer einfachen linearen Basishypothese und keiner Regularisierung beginnen. Dann haben Sie eine andere Hypothese des Modells, indem Sie quadratische und andere Wechselwirkungen des Eingaberaums nehmen. Sicher. Fügen Sie dann Regularisierung hinzu und so weiter. Diese 'Suche' ist also einfach bis komplex. Eher eine parametrische Methode, da Sie die Hypothesen über die Basis erstellen.

Oder ein alternativer „nicht parametrischer“ Weg wäre, mit einer wirklich komplexen Hypothese zu beginnen und die Regularisierung die Arbeit erledigen zu lassen (z. B. die Komplexität zu bestrafen und zu etwas Einfacherem zu gelangen), indem sie sich gegenseitig validiert.

Der Punkt der Regularisierung und Nichtparametrik besteht darin, die Dinge automatisch zu erledigen. Lassen Sie die Maschine die Arbeit machen.

Hier ist eine gute Ressource für Basisfunktionen.

Und schlussendlich, LpRäume und Normen werden die Dinge noch mehr aufklären.

shuriken x blau
quelle