Ich habe 2 einfache Fragen zur linearen Regression:
- Wann wird empfohlen, die erklärenden Variablen zu standardisieren?
- Wie kann man nach einer Schätzung mit standardisierten Werten mit neuen Werten vorhersagen (wie sollte man die neuen Werte standardisieren)?
Einige Referenzen wären hilfreich.
Antworten:
Obwohl Terminologie ein umstrittenes Thema ist, ziehe ich es vor, "erklärende" Variablen "Prädiktorvariablen" zu nennen.
Wann sind die Prädiktoren zu standardisieren?
Ich denke auch, dass das Verlassen auf standardisierte Variablen die Aufmerksamkeit von der Tatsache ablenken kann, dass wir nicht darüber nachgedacht haben, wie die Metrik einer Variablen für den Leser aussagekräftiger gemacht werden kann.
Andrew Gelman hat einiges zu diesem Thema zu sagen. Siehe zum Beispiel seine Seite über Standardisierung und insbesondere Gelman (2008, Stats Med, FREE PDF) .
Vorhersage basierend auf Standardisierung:
quelle
Lassen Sie mich mit einer kurzen Antwort antworten, da sie sich möglicherweise mit der zuvor geschriebenen hervorragenden Antwort überschneidet.
Immer standardisieren, damit Sie die Regression, insbesondere die Koeffizienten der Regression, besser interpretieren können.
Für die neuen Daten, die nicht standardisiert sind, empfehle ich Ihnen, die Werte zu speichern, die Sie für jede zu standardisierende Variable verwendet haben, z. B. das Maximum und das Minimum, und dann die gleiche Transformation durchzuführen, die Sie zuvor im gesamten Datensatz durchgeführt haben, jedoch nur für diesen Zweck einzelne Instanz.
quelle