Zentrieren und Skalieren von Dummy-Variablen

13

Ich habe einen Datensatz, der sowohl kategoriale als auch kontinuierliche Variablen enthält. Mir wurde geraten, die kategorialen Variablen als Binärvariablen für jede Ebene zu transformieren (dh A_level1: {0,1}, A_level2: {0,1}) - ich denke, einige haben dies "Dummy-Variablen" genannt.

Wäre es dann irreführend, den gesamten Datensatz mit den neuen Variablen zu zentrieren und zu skalieren? Es scheint, als würde ich die "Ein / Aus" -Bedeutung der Variablen verlieren.

Wenn es irreführend ist, sollte ich dann die stetigen Variablen separat zentrieren und skalieren und sie dann erneut zu meinem Datensatz hinzufügen?

TIA.

user2300643
quelle
1
Ob es akzeptabel oder sinnvoll ist, Dummy-Variablen zu zentrieren und / oder zu skalieren, hängt von der Anwendung, der von Ihnen geplanten Analyse und den aufgabenspezifischen Überlegungen ab. Es gibt also keine einzige richtige Antwort. In der Regel ist es bei groben Formulierungen häufig in Ordnung, Prädiktor-Dummy-Variablen zu verwenden. Es ist oft eine schlechte Idee, es mit Antwort-Dummy-Variablen oder in multivariaten Methoden wie Clustering oder Faktoranalyse zu tun.
TTNPHNS

Antworten:

13

Beim Erstellen von Dummy-Variablen zur Verwendung in Regressionsanalysen sollte jede Kategorie in einer kategorialen Variablen mit Ausnahme einer binären Variablen erhalten. Sie sollten also zB A_level2, A_level3 usw. haben. Eine der Kategorien sollte keine binäre Variable haben, und diese Kategorie wird als Referenzkategorie dienen. Wenn Sie eine der Kategorien nicht auslassen, werden Ihre Regressionsanalysen nicht ordnungsgemäß ausgeführt.

Wenn Sie SPSS oder R verwenden, ist die Skalierung und Zentrierung des gesamten Datensatzes meines Erachtens im Allgemeinen kein Problem, da diese Softwarepakete häufig Variablen mit nur zwei Ebenen als Faktoren interpretieren, dies kann jedoch von den verwendeten statistischen Methoden abhängen . In jedem Fall ist es nicht sinnvoll, binäre (oder kategoriale) Variablen zu skalieren und zu zentrieren. Daher sollten Sie kontinuierliche Variablen nur dann zentrieren und skalieren, wenn Sie dies tun müssen.

JonB
quelle
2
Mein starkes Gefühl ist, dass der einzige Teil der Antwort, der die OP-Frage wirklich beantwortet, der letzte Satz ist - ein Teil, der unerklärt ist. Du sagst, skaliere sie nicht, aber erkläre nicht warum. In der Zwischenzeit ist das Thema nicht sehr einfach.
TTNPHNS
Dies ist nur eine Möglichkeit, kategoriale Variablen zu codieren. Ich habe keine Zeit, eine vollständige Antwort zu schreiben, aber die Suche nach "Kontrasten" könnte helfen. Eine relevante Antwort lautet stats.stackexchange.com/questions/60817/…
user20637
3

Wenn Sie R verwenden und die Dummy-Variablen oder Variablen mit 0 oder 1 nur auf eine Skala zwischen 0 und 1 skalieren, werden die Werte dieser Variablen nicht geändert. Die übrigen Spalten werden skaliert.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))
Shekhar Sahu
quelle
Interessanter Tipp. Ich danke Ihnen für das Teilen. Es ist schon eine Weile her, seit ich gefragt habe, aber es ist gut zu sehen, dass ich noch aus diesen alten Beiträgen lernen kann.
user2300643
2

Der Punkt der mittleren Zentrierung in der Regression besteht darin, den Achsenabschnitt deutlicher zu machen. Wenn Sie also alle Variablen in Ihrem Regressionsmodell zentrieren, entspricht der Achsenabschnitt (in der SPSS-Ausgabe als Konstante bezeichnet) dem Gesamtmittelwert für Ihre Ergebnisvariable. Was bei der Interpretation des endgültigen Modells praktisch sein kann.

Was das Zentrieren von Dummy-Variablen angeht, habe ich mich gerade mit einem meiner Professoren über das Zentrieren von Dummy-Variablen in einem Regressionsmodell unterhalten (in meinem Fall ein randomisiertes Blockdesign-Mehrebenenmodell mit 3 Ebenen) Dummy-Variablen ändern die Interpretation der Regressionskoeffizienten nicht (außer dass die Lösung vollständig standardisiert ist). Normalerweise ist es bei der Regression nicht erforderlich, den tatsächlichen Mittelwert der Einheit zu interpretieren, sondern nur die Koeffizienten. Und das ändert sich im Wesentlichen nicht - zum größten Teil. Sie sagte, es ändere sich leicht, weil es standardisiert ist, was für Dummies nicht so intuitiv zu verstehen ist.

Einschränkung: Das war mein Verständnis, als ich das Büro meines Professors verließ. Ich hätte es natürlich falsch verstehen können.

Katie
quelle