Wann und wie standardisierte erklärende Variablen in der linearen Regression verwendet werden

37

Ich habe 2 einfache Fragen zur linearen Regression:

  1. Wann wird empfohlen, die erklärenden Variablen zu standardisieren?
  2. Wie kann man nach einer Schätzung mit standardisierten Werten mit neuen Werten vorhersagen (wie sollte man die neuen Werte standardisieren)?

Einige Referenzen wären hilfreich.

teucer
quelle
3
Wenn Ihre Software gut geschrieben ist, wird sie automatisch intern standardisiert, um numerische Genauigkeitsprobleme zu vermeiden. Sie sollten nichts Besonderes tun müssen.
whuber
1
Beachten Sie, dass der folgende Thread verwandt ist und von Interesse sein wird: Wann sollten Sie Ihre Daten zentrieren und wann sollten Sie standardisieren? .
gung - Wiedereinsetzung von Monica

Antworten:

26

Obwohl Terminologie ein umstrittenes Thema ist, ziehe ich es vor, "erklärende" Variablen "Prädiktorvariablen" zu nennen.

Wann sind die Prädiktoren zu standardisieren?

  • Eine Menge Software für die Durchführung mehrerer linearer Regressionen liefert standardisierte Koeffizienten, die nicht standardisierten Koeffizienten entsprechen, bei denen Sie Prädiktoren und die Antwortvariable manuell standardisieren (es hört sich natürlich so an, als würden Sie nur Prädiktoren standardisieren).
  • Meiner Meinung nach ist Standardisierung ein nützliches Instrument, um Regressionsgleichungen aussagekräftiger zu machen. Dies gilt insbesondere in Fällen, in denen die Metrik der Variablen für die Person, die die Regressionsgleichung interpretiert, keine Bedeutung hat (z. B. eine psychologische Skala auf einer beliebigen Metrik). Es kann auch verwendet werden, um die Vergleichbarkeit der relativen Wichtigkeit von Prädiktorvariablen zu erleichtern (obwohl es andere differenziertere Ansätze zur Beurteilung der relativen Wichtigkeit gibt; siehe meinen Beitrag für eine Diskussion ). In Fällen, in denen die Metrik für die Person, die die Regressionsgleichung interpretiert, eine Bedeutung hat, sind nicht standardisierte Koeffizienten häufig informativer.
  • Ich denke auch, dass das Verlassen auf standardisierte Variablen die Aufmerksamkeit von der Tatsache ablenken kann, dass wir nicht darüber nachgedacht haben, wie die Metrik einer Variablen für den Leser aussagekräftiger gemacht werden kann.

  • Andrew Gelman hat einiges zu diesem Thema zu sagen. Siehe zum Beispiel seine Seite über Standardisierung und insbesondere Gelman (2008, Stats Med, FREE PDF) .

Vorhersage basierend auf Standardisierung:

  • Ich würde keine standardisierten Regressionskoeffizienten für die Vorhersage verwenden.
  • Sie können standardisierte Koeffizienten immer in nicht standardisierte Koeffizienten konvertieren, wenn Sie den Mittelwert und die Standardabweichung der Prädiktorvariablen in der ursprünglichen Stichprobe kennen.
Jeromy Anglim
quelle
3
+1, aber warum sollten Sie nicht standardisierte Regressionskoeffizienten für die Vorhersage verwenden?
Uhr
1
(+1) Was die Beurteilung der variablen Bedeutung betrifft , finde ich, dass das relaimpo R-Paket gute Arbeit leistet (siehe jedoch Erste Schritte mit einem modernen Ansatz zur Regression ). Es gab auch einen schönen Artikel von David V. Budescu zur Dominanzanalyse (auf Anfrage kostenlos erhältlich).
chl
@onestep oops. Tippfehler. Es hat sich jetzt geändert.
Jeromy Anglim
1
@ Jeromy, könnten Sie näher erläutern, warum Sie für die Vorhersage keine standardisierten Regressionskoeffizienten verwenden würden?
Michael Bishop
3
@MichaelBishop Ich denke an Kontexte, in denen Sie Ihr Regressionsmodell verwenden, um aus Beispieldaten Vorhersagen zu treffen. Im Allgemeinen möchten Sie nicht standardisierte Vorhersagen. Auch Mittelwerte und Standardabweichungen können sich über Stichproben hinweg ändern. Die Verwendung nicht standardisierter Prädiktoren sollte daher zu aussagekräftigeren Ergebnissen führen.
Jeromy Anglim
-4

Lassen Sie mich mit einer kurzen Antwort antworten, da sie sich möglicherweise mit der zuvor geschriebenen hervorragenden Antwort überschneidet.

  1. Immer standardisieren, damit Sie die Regression, insbesondere die Koeffizienten der Regression, besser interpretieren können.

  2. Für die neuen Daten, die nicht standardisiert sind, empfehle ich Ihnen, die Werte zu speichern, die Sie für jede zu standardisierende Variable verwendet haben, z. B. das Maximum und das Minimum, und dann die gleiche Transformation durchzuführen, die Sie zuvor im gesamten Datensatz durchgeführt haben, jedoch nur für diesen Zweck einzelne Instanz.

mariana weicher
quelle