Ich habe einen Datensatz, der sowohl kategoriale als auch kontinuierliche Variablen enthält. Mir wurde geraten, die kategorialen Variablen als Binärvariablen für jede Ebene zu transformieren (dh A_level1: {0,1}, A_level2: {0,1}) - ich denke, einige haben dies "Dummy-Variablen" genannt.
Wäre es dann irreführend, den gesamten Datensatz mit den neuen Variablen zu zentrieren und zu skalieren? Es scheint, als würde ich die "Ein / Aus" -Bedeutung der Variablen verlieren.
Wenn es irreführend ist, sollte ich dann die stetigen Variablen separat zentrieren und skalieren und sie dann erneut zu meinem Datensatz hinzufügen?
TIA.
categorical-data
data-transformation
centering
user2300643
quelle
quelle
Antworten:
Beim Erstellen von Dummy-Variablen zur Verwendung in Regressionsanalysen sollte jede Kategorie in einer kategorialen Variablen mit Ausnahme einer binären Variablen erhalten. Sie sollten also zB A_level2, A_level3 usw. haben. Eine der Kategorien sollte keine binäre Variable haben, und diese Kategorie wird als Referenzkategorie dienen. Wenn Sie eine der Kategorien nicht auslassen, werden Ihre Regressionsanalysen nicht ordnungsgemäß ausgeführt.
Wenn Sie SPSS oder R verwenden, ist die Skalierung und Zentrierung des gesamten Datensatzes meines Erachtens im Allgemeinen kein Problem, da diese Softwarepakete häufig Variablen mit nur zwei Ebenen als Faktoren interpretieren, dies kann jedoch von den verwendeten statistischen Methoden abhängen . In jedem Fall ist es nicht sinnvoll, binäre (oder kategoriale) Variablen zu skalieren und zu zentrieren. Daher sollten Sie kontinuierliche Variablen nur dann zentrieren und skalieren, wenn Sie dies tun müssen.
quelle
Wenn Sie R verwenden und die Dummy-Variablen oder Variablen mit 0 oder 1 nur auf eine Skala zwischen 0 und 1 skalieren, werden die Werte dieser Variablen nicht geändert. Die übrigen Spalten werden skaliert.
quelle
Der Punkt der mittleren Zentrierung in der Regression besteht darin, den Achsenabschnitt deutlicher zu machen. Wenn Sie also alle Variablen in Ihrem Regressionsmodell zentrieren, entspricht der Achsenabschnitt (in der SPSS-Ausgabe als Konstante bezeichnet) dem Gesamtmittelwert für Ihre Ergebnisvariable. Was bei der Interpretation des endgültigen Modells praktisch sein kann.
Was das Zentrieren von Dummy-Variablen angeht, habe ich mich gerade mit einem meiner Professoren über das Zentrieren von Dummy-Variablen in einem Regressionsmodell unterhalten (in meinem Fall ein randomisiertes Blockdesign-Mehrebenenmodell mit 3 Ebenen) Dummy-Variablen ändern die Interpretation der Regressionskoeffizienten nicht (außer dass die Lösung vollständig standardisiert ist). Normalerweise ist es bei der Regression nicht erforderlich, den tatsächlichen Mittelwert der Einheit zu interpretieren, sondern nur die Koeffizienten. Und das ändert sich im Wesentlichen nicht - zum größten Teil. Sie sagte, es ändere sich leicht, weil es standardisiert ist, was für Dummies nicht so intuitiv zu verstehen ist.
Einschränkung: Das war mein Verständnis, als ich das Büro meines Professors verließ. Ich hätte es natürlich falsch verstehen können.
quelle