Verschiebungs- / Skalierungsvariablen haben keinen Einfluss auf ihre Korrelation mit der Antwort
Um zu sehen , warum dies der Fall ist, an , dass die Korrelation zwischen und ist . Dann wird die Korrelation zwischen und istYXρY(X−a)/b
cov(Y,(X−a)/b)SD((X−a)/b)⋅SD(Y)=cov(Y,X/b)SD(X/b)⋅SD(Y)=1b⋅cov(Y,X)1bSD(X)⋅SD(Y)=ρ
was sich aus der Definition der Korrelation und drei Tatsachen ergibt :
cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)
cov(Y,aX)=acov(Y,X)
SD(aX)=a⋅SD(X)
Daher in Bezug auf die Modellanpassung (zB oder die angepassten Werte), Verschieben oder Ihre Variablen Skalierung (zB sie im gleichen Maßstab setzen) wird das Modell nicht verändertR2 , da lineare Regressionskoeffizienten auf die Korrelationen zwischen Variablen in Beziehung stehen. Die Skala Ihrer Regressionskoeffizienten wird nur geändert. Dies sollte bei der Interpretation der Ausgabe berücksichtigt werden, wenn Sie Ihre Prädiktoren transformieren.
Bearbeiten: Das oben Gesagte hat angenommen, dass Sie über gewöhnliche Regression mit dem Achsenabschnitt sprechen . Noch ein paar Punkte dazu (danke @cardinal):
Der Achsenabschnitt kann sich ändern, wenn Sie Ihre Variablen transformieren, und wie @cardinal in den Kommentaren hervorhebt, ändern sich die Koeffizienten, wenn Sie Ihre Variablen verschieben, wenn Sie den Achsenabschnitt aus dem Modell weglassen, obwohl ich davon ausgehe, dass Sie dies nur tun, wenn Sie dies getan haben ein guter Grund (siehe zB diese Antwort ).
Wenn Sie Ihre Koeffizienten auf irgendeine Weise regulieren (z. B. Lasso, Gratregression), wirkt sich die Zentrierung / Skalierung auf die Anpassung aus. Wenn Sie beispielsweise (die Ridge-Regressionsstrafe) bestrafen , können Sie nach der Standardisierung keine äquivalente Anpassung wiederherstellen, es sei denn, alle Variablen waren an erster Stelle auf derselben Skala, d. H. Es gibt kein konstantes Vielfaches, das dieselbe Strafe zurückerhält.∑β2i
In Bezug darauf, wann / warum ein Forscher Prädiktoren transformieren möchte
Ein häufiger Umstand (in der nachfolgenden Antwort von @Paul erörtert) ist, dass Forscher ihre Prädiktoren so standardisieren , dass alle Koeffizienten auf derselben Skala liegen. In diesem Fall kann die Größe der Punktschätzungen eine grobe Vorstellung davon geben, welche Prädiktoren den größten Effekt haben, sobald die numerische Größe des Prädiktors standardisiert wurde.
Ein weiterer Grund, warum ein Forscher sehr große Variablen skalieren möchte, besteht darin, dass die Regressionskoeffizienten nicht extrem klein sind. Wenn Sie beispielsweise den Einfluss der Bevölkerungsgröße eines Landes auf die Kriminalitätsrate untersuchen möchten (Sie könnten sich kein besseres Beispiel vorstellen), möchten Sie möglicherweise die Bevölkerungsgröße in Millionen anstatt in ihren ursprünglichen Einheiten messen , da der Koeffizient kann so etwas wie ..00000001
Die sogenannte "Normalisierung" ist eine übliche Routine für die meisten Regressionsmethoden. Es gibt zwei Möglichkeiten:
Da die lineare Regression sehr empfindlich auf die Variablenbereiche reagiert, würde ich generell empfehlen, alle Variablen zu normalisieren , wenn Sie keine Vorkenntnisse über die Abhängigkeit haben und erwarten, dass alle Variablen relativ wichtig sind.
Gleiches gilt für Antwortvariablen, obwohl dies für sie nicht sehr wichtig ist.
Warum Normalisierung oder Standardisierung? Meistens, um die relative Auswirkung verschiedener Variablen im Modell zu bestimmen. Dies kann erreicht werden, wenn sich alle Variablen in denselben Einheiten befinden.
Hoffe das hilft!
quelle
x1,x2,y
diese beiden Befehle:summary(lm(y~x1+x2))$r.sq
undsummary(lm(y~scale(x1)+scale(x2)))$r.sq
- die Werte, wenn Sie die Koeffizienten nicht standardisieren, und wenn Sie dies tun - geben Sie denselben Wert an, der eine äquivalente Anpassung angibt.