Ist es empfehlenswert, Ihre Daten in einer Regression mit Panel- / Längsschnittdaten zu standardisieren?

16

Im Allgemeinen standardisiere ich meine unabhängigen Variablen in Regressionen, um die Koeffizienten richtig zu vergleichen (auf diese Weise haben sie die gleichen Einheiten: Standardabweichungen). Bei Panel- / Längsschnittdaten bin ich mir jedoch nicht sicher, wie ich meine Daten standardisieren soll, insbesondere wenn ich ein hierarchisches Modell schätze.

Um zu sehen, warum dies ein potenzielles Problem sein kann, nehmen Sie an, Sie haben Individuen gemessen entlang Perioden und Sie haben eine abhängige Variable, und eine unabhängige Variable gemessen . Wenn Sie eine vollständige Pooling-Regression ausführen, können Sie Ihre Daten auf folgende Weise standardisieren: , da sich dadurch nichts ändert. Statistik. Wenn Sie dagegen eine nicht gepoolte Regression anpassen, dh eine Regression für jede Person, sollten Sie Ihre Daten nur nach Personen standardisieren, nicht nach dem gesamten Datensatz (im R-Code):t = 1 , ... , Tich=1,,nt=1,,Tyich,txich,tx.z=(x-bedeuten(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Wenn Sie jedoch ein einfaches hierarchisches Modell mit unterschiedlichen Abschnitten nach Personen anpassen, verwenden Sie einen Schrumpfungsschätzer, dh Sie schätzen ein Modell zwischen gepoolter und nicht gepoolter Regression. Wie soll ich meine Daten standardisieren? Verwenden Sie die gesamten Daten wie eine gepoolte Regression? Verwenden Sie nur Einzelpersonen, wie im ungepoolten Fall?

Manoel Galdino
quelle

Antworten:

10

Ich kann nicht sehen, dass Standardisierung eine gute Idee für gewöhnliche Regressionen oder für ein Längsschnittmodell ist. Dies erschwert das Abrufen von Vorhersagen und löst normalerweise kein zu lösendes Problem. Und was ist, wenn Sie und im Modell haben. Wie standardisieren Sie ? Was ist, wenn Sie eine kontinuierliche Variable und eine binäre Variable im Modell haben? Wie standardisieren Sie die Binärvariable? Sicher nicht durch seine Standardabweichung, die dazu führen würde, dass Variablen mit niedriger Prävalenz eine größere Bedeutung haben.x 2 x 2xx2x2

Im Allgemeinen ist es am besten, Modelleffekte auf der ursprünglichen Skala von zu interpretieren .x

Frank Harrell
quelle
@Frank Harrell - gute Argumente für die Probleme, die mit den von Ihnen beschriebenen Bedingungen verbunden sind. Wenn Sie jedoch alle stetigen Variablen mit unterschiedlichen Maßstäben haben, ist die Standardisierung dann nicht die einzige Möglichkeit, Steigungen zu vergleichen?
DQdlM
1
@Frank, ich nehme an, es hängt davon ab, welche Art von Modellen Sie ausführen, aber die Standardisierung von Prädiktorvariablen ist oft nützlich. Durch ihre Zentrierung wird der Achsenabschnitt als mittleres vorhergesagtes Ergebnis interpretierbar, und die relative Bedeutung verschiedener Prädiktoren wird offensichtlicher. Normalerweise lasse ich binäre Prädiktoren in Ruhe, aber manchmal sind andere Skalierungsoptionen eine Überlegung wert. Schließlich können in einigen Fällen Prädiktoren mit stark unterschiedlichen Standardabweichungen zu Berechnungs- / Konvergenzproblemen führen.
Michael Bishop
2
Mir ist nicht klar, wie eine solche Standardisierung Klarheit schafft, anstatt sie zu subtrahieren. Auch die mittlere nicht die offensichtliche Wahl ist zum Zentrieren (median? Modus? 43rd Perzentil? Wahl des Dispersionsmaß wird noch problematische) Relative Bedeutung kann auf vielfältige Weise, beispielsweise teilweise beurteilt wird , teilweise , Kovariateneffekte im Quartilbereich, ... Auch ich habe nicht festgestellt, dass Standardisierung bei der Verwendung moderner mathematischer Matrixroutinen, wie sie R unter der Haube verwendet, rechnerisch hilfreich ist. Kenny merkt an, dass Standardisierung nicht der Weg ist, Pisten zu vergleichen. 2R2χ2
Frank Harrell
1
Wenn Sie Binärvariablen haben, standardisieren Sie diese nicht, sondern nur fortlaufend. In diesem Artikel von Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf > wird vorgeschlagen, Variablen durch zwei Standardabweichungen zu teilen. In jedem Fall hilft es, die Konvergenz zu erreichen, wenn Sie ein Bayes-Modell anpassen.
Manoel Galdino
Und ich verstehe nicht, warum es besser wäre, Effekte auf der ursprünglichen Skala zu interpretieren. Die Auswirkung des BIP auf eine logistische Regression ist schwer zu interpretieren, wenn nur nach Koeffizienten gesucht wird, da das BIP viel größer ist als die Wahrscheinlichkeitsskala. Wechselwirkungen werden mit standardisierten Koeffizienten oder zentrierten Variablen besser verstanden. Wenn Sie schließlich und , standardisieren Sie in diesem Fall nicht. x 2xx2
Manoel Galdino
0

Es gibt eine Alternative zur Standardisierung, um Variablen, die mit unterschiedlichen Maßstäben gemessen wurden, auf dieselbe Metrik zu bringen. Es nennt sich POMS (Proportion of Maximum Scaling) und geht nicht mit den multivariaten Verteilungen durcheinander, wie dies bei der Z-Transformation der Fall ist.

Todd Little empfiehlt POMS in seinem Buch zur Modellierung von longitudinalen Strukturgleichungen ausdrücklich gegenüber der Z-Standardisierung. Die Z-Transformation bringt zusätzliche Probleme mit sich, wenn es um Längsschnittdaten geht, siehe hier: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

user142548
quelle