Daten müssen in der Regression zentriert und standardisiert werden

16

Berücksichtigen Sie die lineare Regression mit einer gewissen Regularisierung: ZB Finden Sie , das minimiert| | A x - b | | 2 + λ | | x | | 1x||Axb||2+λ||x||1

Normalerweise sind die Spalten von A so standardisiert, dass sie den Mittelwert Null und die Einheitennorm haben, während so zentriert ist, dass es den Mittelwert Null hat. Ich möchte sicherstellen, dass ich den Grund für das Standardisieren und Zentrieren richtig verstanden habe.b

Indem wir die Mittelwerte der Spalten und Null setzen, brauchen wir keinen Intercept-Term mehr. Andernfalls wäre das Ziel . Indem wir die Normen der Spalten von A gleich 1 machen, beseitigen wir die Möglichkeit eines Falls, in dem nur eine Spalte von A eine sehr hohe Norm hat, einen niedrigen Koeffizienten in erhält , was dazu führen könnte, dass wir fälschlicherweise auf diese Spalte von schließen A "erklärt" gut.b | | A x - x 0 1 - b | | 2 + λ | | x | | 1 x xAb||Axx01b||2+λ||x||1xx

Diese Argumentation ist nicht gerade streng, aber intuitiv. Ist das die richtige Art zu denken?

rk2
quelle

Antworten:

14

Sie haben Recht, wenn Sie die Mittelwerte der Spalten von und .bAb

Berücksichtigen Sie jedoch beim Anpassen der Normen der Spalten von , was passieren würde, wenn Sie mit einem normierten und alle Elemente von ungefähr gleich groß sind. Dann multiplizieren wir eine Spalte mit . Das entsprechende Element von würde in einer unregelmäßigen Regression um den Faktor erhöht . Sehen Sie, was mit dem Regularisierungszeitraum passieren würde? Die Regularisierung würde für alle praktischen Zwecke nur für diesen einen Koeffizienten gelten. A x 10 - 6 x 10 6AAx106x106

Indem wir die Spalten von normieren, schreiben wir intuitiv und setzen sie alle auf die gleiche Skala. Folglich stehen die Unterschiede in den Größen der Elemente von in direktem Zusammenhang mit der "Wackeligkeit" der Erklärungsfunktion ( ), die, grob gesagt, durch die Regularisierung gesteuert werden soll. Ohne sie würde ein Koeffizientenwert von z. B. 0,1 gegenüber einem anderen von 10,0 Ihnen sagen, dass in Abwesenheit von Wissen über nichts darüber, welcher Koeffizient am meisten zur "Wackeligkeit" von beitrug . (Für eine lineare Funktion, wie , ist "Wackeln" mit einer Abweichung von 0 verbunden.)AA x A A x A xxAxAAxAx

Um zu Ihrer Erklärung zurückzukehren, wenn eine Spalte von eine sehr hohe Norm hat und aus irgendeinem Grund einen niedrigen Koeffizienten in erhält , würden wir nicht schließen, dass die Spalte von nicht gut "erklärt" . "erklärt" überhaupt nicht. x A x A xAxAxAx

Bogenschütze
quelle
Meinst du $x$ does not ''explain'' $A$ wellund meinst du x does not ''explain'' $A$ at all? sind die Daten, während in diesem Fall das Modell ist. xAx
user3813057
@ user3813057 - Dies war eine Frage zur Regularisierung und hat nichts mit Erklärungskraft zu tun. würde üblicherweise als , würde üblicherweise als werden und würde üblicherweise als . ist überhaupt nicht da, um zu erklären . β A X B Y x AxβAXbyxA
Bogenschütze