Ich habe vor etwas wie Lasso
Regression drei Hauptgründe für die Standardisierung von Variablen gelesen :
1) Interpretierbarkeit von Koeffizienten.
2) Fähigkeit, die Wichtigkeit des Koeffizienten nach der relativen Größe der Schätzungen des Nachschrumpfungskoeffizienten zu ordnen.
3) Keine Notwendigkeit zum Abfangen.
Aber ich wundere mich über den wichtigsten Punkt. Haben wir Grund zu der Annahme, dass eine Standardisierung die Generalisierung des Modells außerhalb der Stichprobe verbessern würde? Es ist mir auch egal, ob ich in meinem Modell keinen Intercept benötige. Hinzufügen tut mir nicht weh.
Antworten:
Die Lasso-Regression beschränkt die Größe der jeder Variablen zugeordneten Koeffizienten. Dieser Wert hängt jedoch von der Größe der einzelnen Variablen ab. Es ist daher notwendig, die Variablen zu zentrieren und zu reduzieren oder zu standardisieren.
Das Ergebnis des Zentrierens der Variablen bedeutet, dass kein Abschnitt mehr vorhanden ist. Dies gilt übrigens auch für die Gratregression.
Eine weitere gute Erklärung ist dieser Beitrag: Notwendigkeit der Zentrierung und Standardisierung von Daten in der Regression
quelle
Der L1-Penalty-Parameter ist eine Summe der absoluten Beta-Terme. Wenn die Variablen alle unterschiedliche Dimensionen haben, ist dieser Term wirklich nicht additiv, obwohl mathematisch kein Fehler vorliegt.
Ich sehe jedoch keine Dummy- / Kategorievariablen, die unter diesem Problem leiden, und denke, dass sie nicht standardisiert werden müssen. Wenn Sie diese standardisieren, kann dies die Interpretierbarkeit von Variablen beeinträchtigen
quelle