Warum wird beispielsweise das Geschlecht in der Regel mit 0/1 anstatt mit 1/2 codiert?

25

Ich verstehe die Logik der Codierung für die Datenanalyse. Meine Frage unten ist die Verwendung eines bestimmten Codes.

  • Gibt es einen Grund, warum das Geschlecht häufig als 0 für weiblich und 1 für männlich kodiert wird?
  • Warum wird diese Kodierung als "Standard" angesehen?
  • Vergleichen Sie dies mit Female = 1 und Male = 2. Gibt es ein Problem mit dieser Kodierung?
Adhesh Josh
quelle
15
Die Verwendung eines 0/1-Codierungsschemas ist im Wesentlichen nützlich, wenn unter anderem Regressionsmodelle angewendet werden, obwohl mehrere Codierungsschemata möglich sind, z. B. -1 / 1 (dies ändert jedoch die Interpretation der Regressionskoeffizienten). Es sollte jedoch nicht mit der Dateneingabe verwechselt werden (das ist, was Sie wirklich in Ihre Datenbank aufgenommen haben). In diesem Fall ist es besser, die vollständigen Etiketten zu speichern. Konvertieren Sie sie in numerische Werte oder erstellen Sie eine dedizierte Entwurfsmatrix, wenn Sie Ihr Regressionsmodell erstellen. Ansonsten wünsche ich Ihnen viel Glück bei der Erklärung, wofür die Nullen und Einsen in 5 Jahren stehen.
chl
Ich habe das in der Datenbank verschlüsselte Geschlecht als männlich, weiblich und unbekannt gesehen.
Aksakal
2
Ich denke, diese Frage wird am besten als zwei verwirrte Fragen angesehen. Die größere Frage ist, warum für einen Indikator oder eine Dummy-Variable eher eine 0-1-Codierung als eine andere verwendet wird. Die kleinere Frage ist, warum 1 für männlich und 0 für weiblich verwendet wird, worauf eine kurze Antwort lautet, dass viele andere Codierungen verwendet werden, einschließlich des Gegenteils von 1 für weiblich usw., und auch verschiedene komplexe Codierungen, die ein unbekanntes Geschlecht und für berücksichtigen andere Geschlechtskategorien.
Nick Cox

Antworten:

38

Gründe, eine Null-Eins-Codierung von Binärvariablen zu bevorzugen:

  • Der Mittelwert einer Null-Eins-Variablen repräsentiert den Anteil in der Kategorie, der durch den Wert Eins dargestellt wird (z. B. den Prozentsatz der Männer).
  • In einer einfachen Regression ist wobei die Variable Null-Eins ist, die Konstante direkt interpretiert (z. B. ist der Mittelwert von für Frauen).x a yy=ein+bxxeiny
  • Jede Kodierung einer binären Variablen, bei der die Differenz zwischen den beiden Werten eins ist (dh null eins, aber auch eins zwei), interpretiert den Regressionskoeffizienten direkt (z. B. ist die Auswirkung , wenn von weiblich nach männlich weitergegangen wird) y).b

Verschiedene Punkte zur Kodierung von Binärvariablen:

  • Eine Kodierung einer binären Variablen, die die Reihenfolge der Kategorien beibehält (z. B. weiblich = 0, männlich = 1; weiblich = 1, männlich = 2; weiblich = 1007, männlich = 2000 usw.), hat keinen Einfluss auf die Korrelation von binäre Variable mit anderen Variablen.
  • Alle Tabellen, die eine binäre Variable auf diese Weise melden, sollten klarstellen, wie die Variable codiert wurde. Es kann auch nützlich sein, die Variable nach der Kategorie zu kennzeichnen, die den Wert von eins darstellt: z . B. y = a + b * Malestatt y = a + b * Gender.
  • Für einige binäre Variablen sollte eine Kategorie natürlicher als eine codiert werden. Wenn Sie beispielsweise den Unterschied zwischen Behandlung und Kontrolle betrachten, sollte die Kontrolle Null und die Behandlung Eins sein, da der Regressionskoeffizient am besten als die Wirkung der Behandlung angesehen werden kann.
  • Wenn Sie die Kategorien spiegeln (z. B. "weiblich" = 1 und "männlich" = 0 anstelle von "weiblich" = 0 und "männlich" = 1), wird das Vorzeichen von Korrelationen und Regressionskoeffizienten gespiegelt.
  • Im Falle des Geschlechts gibt es normalerweise keinen natürlichen Grund, die Variable female = 0, male = 1, versus male = 0, female = 1 zu codieren. oder die Wahl einer Codierung, die den Regressionskoeffizienten positiv macht, kann die Interpretation erleichtern. In einigen Zusammenhängen kann auch ein Geschlecht als Referenzkategorie angesehen werden. Wenn Sie beispielsweise untersuchen, wie sich eine Frau in einem von Männern dominierten Beruf auf das Einkommen auswirkt, ist es möglicherweise sinnvoll, male = 0 und female = 1 zu codieren, um von der Auswirkung einer Frau zu sprechen.
  • Durchdachtes Skalieren von Regressionskoeffizienten kann einen starken Einfluss auf die Interpretierbarkeit von Regressionskoeffizienten haben. Andrew Gelman diskutiert dies ziemlich oft. Siehe zum Beispiel seinen Artikel Skalierung von Regressionseingaben durch Division durch zwei Standardabweichungen (PDF) in Statistics in Medicine , 27, 2865-2873.
  • Die Kodierung von männlich und weiblich als -1 und +1 ist eine weitere Option, die aussagekräftige Koeffizienten liefern kann (siehe "Was ist Effektkodierung" ).
Jeromy Anglim
quelle
18
Äh, ich dachte immer, der natürliche Grund für die Kodierung von weiblich = 0 und männlich = 1 sei "Anatomie" ...
Matt Parker
2
@ Matt lustig. Daran hatte ich noch nie gedacht. Ich war schon immer von der Linse meines Kunststudiums beeinflusst worden, in dem Ihnen beigebracht wurde, wie einige Feministinnen Ideologien kritisieren, die Frauen durch den Mangel an etwas definieren, das Männer besitzen. Durch eine solche Linse wird die Kodierung des Geschlechts, etwas humorvoll, zu einem politischen Problem :-)
Jeromy Anglim
13
Aus Gewohnheit ändere ich den Namen einer Geschlechtsvariablen immer in "Weiblich", um zu verdeutlichen, was ein 0/1-Codierungsschema bedeutet.
Fomite
Jeromy, möchtest du die Diskussion stats.meta.stackexchange.com/a/4881/3277 darüber beobachten, ob wir ein separates Tag [Dummy-Variablen] benötigen und dein Pro / Contra in einem Kommentar sagen?
TTNPHNS
In Anbetracht des Paares der Geschlechtschromosomen X und Y haben Frauen XX und Männer XY-Chromosomen. Nimmt man X = 0 und Y = 1, so kann man feststellen, dass weiblich = XX = 00 = 0 und männlich = XY = 01 = 1 ist.
Gürol Canbek
14

Dies erleichtert die Interpretation der Ergebnisse. Angenommen, Sie hatten einige Höhendaten:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

und Sie haben eine Regression der Form genommen Height = a + b * Gender + Residual.

Mit der Dummy-Variablen 0,1 erhalten Sie eine Schätzung von a170 als Durchschnittsgröße der Frauen und bvon 10 als Differenz zwischen der Durchschnittsgröße der Männer und der Frauen.

Mit der Dummy-Variablen 1,2 würden Sie eine Schätzung avon 160 erhalten, was schwerer zu interpretieren ist.

Henry
quelle
Vielen Dank. Ich lerne Statistik mit Lichtgeschwindigkeit, weil dies eine Voraussetzung für meinen neuen Job ist. Würde diese Kodierung weiterhin für die Korrelationsanalyse gelten?
Adhesh Josh
1
@Adhesh Wenn Sie die Korrelation zwischen zwei quantitativen Variablen meinen, gibt es kein Codierungsproblem: Verwenden Sie einfach die Rohmaße. Wenn es bei Ihrer Frage um die Assoziation zwischen zwei qualitativen Variablen geht, sollten Sie eine neue Frage stellen, aber offen gesagt gibt es in diesem Fall keine großen Schwierigkeiten (es sei denn, Sie möchten ungleichmäßige Punktzahlen für Variablenkategorien verwenden, dies wurde jedoch an anderer Stelle beantwortet Seite? ˅).
Chl
4
@Adesh Wenn Sie eine binäre 1/2 oder 0/1 codieren, haben Sie keinen Einfluss auf Ihren Korrelationskoeffizienten. 0/1 hat auch den Vorteil, dass der Mittelwert der Variablen der Prozentsatz von männlich oder weiblich ist, je nachdem, welches ist. Andere Codierungsschemata können zur Interpretation verschiedener Analysetypen nützlich sein.
Michael Bishop
2

Ich hatte angenommen, dass dies daran lag, dass der zum Speichern des Geschlechts häufig verwendete Feldtyp ein Bitfeld ist und Bitfelder in SQL nur die Werte 0 oder 1 haben können. Wenn Sie die Daten ausgeben, wird dies als 0 oder 1 und ausgegeben Deshalb bekommen Sie diese besonderen Werte.

Wenn Sie 1 und 2 verwenden möchten, müssen Sie einen größeren Feldtyp verwenden, der mehr Platz beansprucht und somit die gesamte Datenbank etwas vergrößert.

Mauvedität
quelle
Als SQL-Programmierer war dies auch meine erste Reaktion. Ich bin mir über rein mathematische Gründe für die Verwendung von 0 und 1 als Geschlecht nicht sicher, aber ich weiß, dass ein Teil der Impulse von der Notwendigkeit herrührte, die kleinstmöglichen Datentypen zu verwenden. Branchenweite Standards wurden aus dem Zoll entwickelt und alle stimmten überein. Es kann sich lohnen, die ANSI-Standardhistorie zu überprüfen. Heutzutage gibt es einen Drang, DBAs dazu zu bringen, Byte- oder kleine Ganzzahlspalten für das Geschlecht zu verwenden, um ungewöhnliche Ausnahmen wie "Unternehmenseinheit" oder "unbestimmt" anzuzeigen, aber viele alte Datenbanken spiegeln immer noch den alten Standard wider.
SQLServerSteve
2

Ich hatte einen Professor vorgeschlagen, dass wir "biologisch" codieren, wobei Frauen 0 und Männer 1 sind - um die Anatomie widerzuspiegeln. Ich denke nicht, dass es die sensibelste oder PC-Sache in einer Klasse war, aber definitiv leicht zu merken, wenn man sich 5 Jahre später einen Datensatz ansieht.

Cassie
quelle
Dies ist eindeutig nicht die "echte" Antwort auf die Frage (vielleicht ist dies eher ein Kommentar als eine Antwort), aber die Mnemonik ist eindeutig eine, die viele Leute nützlich finden.
Silverfish
Mehr "biologisch" als "anatomisch", wurde mir beigebracht (obwohl ich vermute, dass der "Grund" im Nachhinein erfunden wurde, anstatt das Original zu sein), dass 0 für weiblich verwendet wird, da es das "Standard" -Geschlecht ist - der Glaube ist, dass in Bei der embryologischen Entwicklung wird der weibliche Weg eingeschlagen, es sei denn, eingreifende Prozesse drücken den Embryo, um den männlichen Weg zu differenzieren. Früher war dies ein weit verbreiteter Glaube, heute gilt er jedoch als veraltet : Auch der weibliche Weg muss aktiv angeregt werden.
Silverfish
1
In diesem Fall sollten Männer nicht als "00" codiert werden.
Harvey Motulsky
1

Viele gute Gründe bisher gepostet, aber es sollte auch reflexiv sein. Warum würden Sie bei 1 anfangen zu zählen? Es macht viele numerische Algorithmen weitaus komplizierter. Die Beschriftung beginnt bei 0 und nicht bei 1. Wenn Sie noch nicht davon überzeugt sind, habe ich unter http://madhadron.com/?p=69 ein gutes Beispiel dafür, warum dies wichtig ist

Was die Frage betrifft, warum Frauen 0 und Männer 1 sind, erinnern wir uns, dass ein Statistiker für einen Großteil seiner Geschichte wahrscheinlich ein heterosexueller Mann war. Als ich nach einem Geschlecht gefragt wurde, fiel mir als erstes „Frau“ ein. Alles danach war wahrscheinlich ein historischer Unfall und eine Rationalisierung.

user873
quelle
-1

Die Norm ISO / IEC 5218 aktualisiert diesen Begriff mit der folgenden Karte:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Dies ist besonders nützlich in Sprachen, in denen 0 einen falschen Wert ergibt, z. B. in JavaScript:

if ( !user.gender ) {
    promptForGender();
}
Adam Eivy
quelle
10
Es ist wichtig zu beachten, dass diese Art von Standard wirklich für die Datenübertragung und / oder -speicherung gilt. Es ist als Standard für die Datenanalyse nicht ausreichend , worum es speziell geht.
whuber
-2

Die Art, wie ich es persönlich sehe, ist phallisch. 0 steht typischerweise für weiblich, da es die Form des Mutterleibs ist und als weiblich angesehen wird. Wo mehr gerade Kantenformen (Dreiecke, Quadrate oder Einsen) dazu neigen, das männliche Geschlecht darzustellen. Dieses einfache Verständnis hat es mir leicht gemacht, mich immer daran zu erinnern, was was für mich ist.

Obwohl Sie am Ende des Tages selbst die Daten codieren und analysieren können, können Sie beliebige Zahlen eingeben. In der Regel ist dies jedoch irrelevant, solange ein Schlüssel für die Dummy-Variable vorhanden ist, für die Sie welche verwendet haben.

Jillian
quelle
2
Seltsame Antwort auf eine dumme Frage.
Michael R. Chernick