Im Allgemeinen standardisiere ich meine unabhängigen Variablen in Regressionen, um die Koeffizienten richtig zu vergleichen (auf diese Weise haben sie die gleichen Einheiten: Standardabweichungen). Bei Panel- / Längsschnittdaten bin ich mir jedoch nicht sicher, wie ich meine Daten standardisieren soll, insbesondere wenn ich ein hierarchisches Modell schätze.
Um zu sehen, warum dies ein potenzielles Problem sein kann, nehmen Sie an, Sie haben Individuen gemessen entlang Perioden und Sie haben eine abhängige Variable, und eine unabhängige Variable gemessen . Wenn Sie eine vollständige Pooling-Regression ausführen, können Sie Ihre Daten auf folgende Weise standardisieren: , da sich dadurch nichts ändert. Statistik. Wenn Sie dagegen eine nicht gepoolte Regression anpassen, dh eine Regression für jede Person, sollten Sie Ihre Daten nur nach Personen standardisieren, nicht nach dem gesamten Datensatz (im R-Code):t = 1 , ... , T
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Wenn Sie jedoch ein einfaches hierarchisches Modell mit unterschiedlichen Abschnitten nach Personen anpassen, verwenden Sie einen Schrumpfungsschätzer, dh Sie schätzen ein Modell zwischen gepoolter und nicht gepoolter Regression. Wie soll ich meine Daten standardisieren? Verwenden Sie die gesamten Daten wie eine gepoolte Regression? Verwenden Sie nur Einzelpersonen, wie im ungepoolten Fall?
quelle
Es gibt eine Alternative zur Standardisierung, um Variablen, die mit unterschiedlichen Maßstäben gemessen wurden, auf dieselbe Metrik zu bringen. Es nennt sich POMS (Proportion of Maximum Scaling) und geht nicht mit den multivariaten Verteilungen durcheinander, wie dies bei der Z-Transformation der Fall ist.
Todd Little empfiehlt POMS in seinem Buch zur Modellierung von longitudinalen Strukturgleichungen ausdrücklich gegenüber der Z-Standardisierung. Die Z-Transformation bringt zusätzliche Probleme mit sich, wenn es um Längsschnittdaten geht, siehe hier: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/
quelle