Ich verstehe die Logik der Codierung für die Datenanalyse. Meine Frage unten ist die Verwendung eines bestimmten Codes.
- Gibt es einen Grund, warum das Geschlecht häufig als 0 für weiblich und 1 für männlich kodiert wird?
- Warum wird diese Kodierung als "Standard" angesehen?
- Vergleichen Sie dies mit Female = 1 und Male = 2. Gibt es ein Problem mit dieser Kodierung?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
quelle
quelle
Antworten:
Gründe, eine Null-Eins-Codierung von Binärvariablen zu bevorzugen:
Verschiedene Punkte zur Kodierung von Binärvariablen:
y = a + b * Male
statty = a + b * Gender
.quelle
Dies erleichtert die Interpretation der Ergebnisse. Angenommen, Sie hatten einige Höhendaten:
und Sie haben eine Regression der Form genommen
Height = a + b * Gender + Residual
.Mit der Dummy-Variablen 0,1 erhalten Sie eine Schätzung von
a
170 als Durchschnittsgröße der Frauen undb
von 10 als Differenz zwischen der Durchschnittsgröße der Männer und der Frauen.Mit der Dummy-Variablen 1,2 würden Sie eine Schätzung
a
von 160 erhalten, was schwerer zu interpretieren ist.quelle
Ich hatte angenommen, dass dies daran lag, dass der zum Speichern des Geschlechts häufig verwendete Feldtyp ein Bitfeld ist und Bitfelder in SQL nur die Werte 0 oder 1 haben können. Wenn Sie die Daten ausgeben, wird dies als 0 oder 1 und ausgegeben Deshalb bekommen Sie diese besonderen Werte.
Wenn Sie 1 und 2 verwenden möchten, müssen Sie einen größeren Feldtyp verwenden, der mehr Platz beansprucht und somit die gesamte Datenbank etwas vergrößert.
quelle
Ich hatte einen Professor vorgeschlagen, dass wir "biologisch" codieren, wobei Frauen 0 und Männer 1 sind - um die Anatomie widerzuspiegeln. Ich denke nicht, dass es die sensibelste oder PC-Sache in einer Klasse war, aber definitiv leicht zu merken, wenn man sich 5 Jahre später einen Datensatz ansieht.
quelle
Viele gute Gründe bisher gepostet, aber es sollte auch reflexiv sein. Warum würden Sie bei 1 anfangen zu zählen? Es macht viele numerische Algorithmen weitaus komplizierter. Die Beschriftung beginnt bei 0 und nicht bei 1. Wenn Sie noch nicht davon überzeugt sind, habe ich unter http://madhadron.com/?p=69 ein gutes Beispiel dafür, warum dies wichtig ist
Was die Frage betrifft, warum Frauen 0 und Männer 1 sind, erinnern wir uns, dass ein Statistiker für einen Großteil seiner Geschichte wahrscheinlich ein heterosexueller Mann war. Als ich nach einem Geschlecht gefragt wurde, fiel mir als erstes „Frau“ ein. Alles danach war wahrscheinlich ein historischer Unfall und eine Rationalisierung.
quelle
Die Norm ISO / IEC 5218 aktualisiert diesen Begriff mit der folgenden Karte:
Dies ist besonders nützlich in Sprachen, in denen 0 einen falschen Wert ergibt, z. B. in JavaScript:
quelle
Die Art, wie ich es persönlich sehe, ist phallisch. 0 steht typischerweise für weiblich, da es die Form des Mutterleibs ist und als weiblich angesehen wird. Wo mehr gerade Kantenformen (Dreiecke, Quadrate oder Einsen) dazu neigen, das männliche Geschlecht darzustellen. Dieses einfache Verständnis hat es mir leicht gemacht, mich immer daran zu erinnern, was was für mich ist.
Obwohl Sie am Ende des Tages selbst die Daten codieren und analysieren können, können Sie beliebige Zahlen eingeben. In der Regel ist dies jedoch irrelevant, solange ein Schlüssel für die Dummy-Variable vorhanden ist, für die Sie welche verwendet haben.
quelle