Ist eine Standardisierung vor Lasso wirklich notwendig?

28

Ich habe vor etwas wie LassoRegression drei Hauptgründe für die Standardisierung von Variablen gelesen :

1) Interpretierbarkeit von Koeffizienten.

2) Fähigkeit, die Wichtigkeit des Koeffizienten nach der relativen Größe der Schätzungen des Nachschrumpfungskoeffizienten zu ordnen.

3) Keine Notwendigkeit zum Abfangen.

Aber ich wundere mich über den wichtigsten Punkt. Haben wir Grund zu der Annahme, dass eine Standardisierung die Generalisierung des Modells außerhalb der Stichprobe verbessern würde? Es ist mir auch egal, ob ich in meinem Modell keinen Intercept benötige. Hinzufügen tut mir nicht weh.

Jase
quelle
1
Erläuterung: Sie scheinen fragen zu wollen: "Vorausgesetzt, die Standardisierung ist optional (einer der Sonderfälle, in denen die Ergebnisse nicht durch unterschiedliche Größenordnungen verzerrt sind), wird dann die Standardisierung die Generalisierung außerhalb der Stichprobe verbessern?" Ist das richtig?
Drew75
@ Drew75 Ich bevorzuge eine Aufschlüsselung der Fälle. Hilft es zB, wenn die Ergebnisse "um verschiedene Größenordnungen verschoben" sind? Hilft es, wenn die Ergebnisse nicht verschoben sind? Usw. Die beste Antwort deckt verschiedene Situationen ab.
Jase
1
Dann geht es bei Ihrer Frage nicht um Lasso (weil im Allgemeinen eine Standardisierung vor Lasso erforderlich ist). Es ist allgemeiner. Ändern Sie möglicherweise den Titel und den ersten Satz der Frage.
Drew75
@Drew: Das ist eher fragend: Warum ist es notwendig (wann nicht?)? Was bedeutet es, die Ergebnisse zu verzerren (im Vergleich zu was?)? Ich denke, die Frage ist in Ordnung.
Scortchi
@ Drew75 Meine Frage bezieht sich auf Lasso.
Jase

Antworten:

21

Die Lasso-Regression beschränkt die Größe der jeder Variablen zugeordneten Koeffizienten. Dieser Wert hängt jedoch von der Größe der einzelnen Variablen ab. Es ist daher notwendig, die Variablen zu zentrieren und zu reduzieren oder zu standardisieren.

Das Ergebnis des Zentrierens der Variablen bedeutet, dass kein Abschnitt mehr vorhanden ist. Dies gilt übrigens auch für die Gratregression.

Eine weitere gute Erklärung ist dieser Beitrag: Notwendigkeit der Zentrierung und Standardisierung von Daten in der Regression

Drew75
quelle
Dies ist entweder keine Antwort oder eine äußerst indirekte Antwort auf meine Frage. Bitte erläutern Sie den Zusammenhang zwischen Ihrer Antwort und der Verallgemeinerung außerhalb der Stichprobe (was die Frage war).
Jase
10
@Jase: Es tut Adresse den Hauptgrund für die Standardisierung, die Sie aus der Liste weggelassen: Wenn Sie Prädiktoren mit kleinen Koeffizienten fallen wollen (oder sonst eine Strafe Begriff verwenden , um auf Koeffizientenbetrag abhängig), müssen Sie entscheiden , was als „klein ". Obwohl die Standardisierung vor LASSO oder anderen bestraften Regressionsmethoden nicht vorgeschrieben ist, sind die ursprünglichen Maßstäbe, in denen die Prädiktoren gemessen werden, für diesen Zweck nur selten nützlich.
Scortchi
3
Und der Punkt beim Zentrieren ist, dass Sie den Achsenabschnitt normalerweise nicht fallen lassen oder verkleinern möchten.
Scortchi
2
λ
2
Im Großen und Ganzen wird das Ausmaß, in dem Sie insgesamt schrumpfen , die Verallgemeinerung auf zufällige Hold-out-Stichproben beeinflussen. Die etwas willkürliche Entscheidung, wie stark jeder Prädiktor im Verhältnis zu den anderen verkleinert werden soll, wirkt sich auf die Verallgemeinerung auf neue Stichproben aus ähnlichen Populationen aus, bei denen die Koeffizienten etwas unterschiedlich sind und die Verteilung der Prädiktoren nicht unbedingt der im Trainingssatz entspricht , & c. (Natürlich verdient Ihre Frage eine
gründlichere
2

Der L1-Penalty-Parameter ist eine Summe der absoluten Beta-Terme. Wenn die Variablen alle unterschiedliche Dimensionen haben, ist dieser Term wirklich nicht additiv, obwohl mathematisch kein Fehler vorliegt.

Ich sehe jedoch keine Dummy- / Kategorievariablen, die unter diesem Problem leiden, und denke, dass sie nicht standardisiert werden müssen. Wenn Sie diese standardisieren, kann dies die Interpretierbarkeit von Variablen beeinträchtigen

Sumit Dhar
quelle