"Blindvariable" versus "Indikatorvariable" für nominale / kategoriale Daten

"Dummy-Variable" und "Indikatorvariable" sind häufig verwendete Bezeichnungen zur Beschreibung der Zugehörigkeit zu einer Kategorie mit 0/1 Kodierung. in der Regel 0: kein Mitglied der Kategorie, 1: Mitglied der Kategorie.

Am 26.11.2014 ergab eine schnelle Suche auf scholar.google.com (mit Anführungszeichen), dass in ungefähr 318.000 Artikeln "Dummy-Variable" und in ungefähr 112.000 Artikeln "Indikator-Variable" verwendet wird. Der Begriff "Scheinvariable" hat in der nichtstatistischen Mathematik auch eine Bedeutung für " gebundene Variable ", was wahrscheinlich zur stärkeren Verwendung von "Scheinvariable" in indizierten Artikeln beiträgt.

Meine aktuell verknüpften Fragen:

Sind diese Begriffe auch immer (innerhalb der Statistik)?
Wird einer dieser Begriffe jemals in akzeptabler Weise auf andere Formen der kategorialen Codierung angewendet (z. B. Effektcodierung , Helmert-Codierung usw. )?
Welche statistischen oder disziplinarischen Gründe sprechen dafür, einen Begriff dem anderen vorzuziehen?

categorical-data terminology categorical-encoding Alexis
quelle

Ich neige dazu, "Indikatorvariable" für binäre Bedingungen zu verwenden, z. B. könnte das Geschlecht malemit Werten 1oder codiert sein 0. Wenn es eine kategoriale Variable mit mehr als 2 Kategorien gibt, die dann zu Indikatorvariablen für die Zugehörigkeit in jeder Ebene erweitert wird, würde ich "Dummy-Variablen" verwenden, um diesen Satz von Indikatorvariablen zu beschreiben.

Gregor

Ich denke, Sie meinen, Sex könnte als 1 oder 0 kodiert sein, Geschlecht ist ein weitaus komplizierteres Konstrukt. (In diesem Fall kann Sex auch komplizierter sein);)

Alexis

Punkt gut aufgenommen, bearbeitet zu sex.

Gregor

Ich neige dazu, eine solche Indikatorvariable zu nennen male, wobei 1 wahr (in diesem Fall männlich) und 0 falsch (in diesem Fall weiblich) bedeutet. Wenn ich den Variablennamen verwende, muss sexich jedes Mal nachsehen, wie ich diese Variable codiert habe, wenn ich zu diesem Datensatz zurückkehre.

Maarten Buis

Ich habe verschiedene Geschichten von "Dummy-Variablen" gehört, die von nicht-technischen Zuhörern wild und leider falsch interpretiert wurden, weil sie Verachtung oder Verachtung implizieren. Sie waren peinlich und überzeugend genug, um mich gegen den Begriff zu wenden. "indikator" ist für mich klar und unkompliziert.

Nick Cox

Antworten:

Ich würde sagen, "Dummy-Variable" ist eine allgemeinere Methode, um auf eine der numerischen Variablen zu verweisen, die einen kategorialen Prädiktor darstellen (zusammen darstellen). daher gilt der Begriff auch für die in Helmert & effect coding verwendeten ^† . Dies liegt hauptsächlich an der allgemeinen Verwendung von "Dummy" als "Stand-In". "Indikatorvariable" Ich beziehe mich auf Indikatorfunktionen ^‡ - diese können also nur Eins oder Null sein, um anzuzeigen, ob eine Eigenschaft vorliegt oder nicht. Daher bezieht sich der Begriff nur auf diejenigen, die in der Referenzcodierung verwendet werden ^※ . Natürlich verwenden einige Leute "Dummy-Codierung", um "Referenzniveau-Codierung" zu bedeuten; Vermutlich haben sie eine engere Definition von "Dummy-Variablen" oder sollten es zumindest sein.

† Und wenn Sie diese „Dummies“ nicht nennen, was Sie nennen Sie sie?

‡ So ist zB der Dummy eine Indikatorvariable für den dass die te Person männlich ist (ein Mitglied der Menge ): $x_i$ $i$ $u_i$ $M$

x_{ich} = 1_{M} (u_{ich}) = {\begin{cases} 1 & w h e n u_{ich} \in M \\ 0 & w h e n u_{ich} \notin M \end{cases}

$x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$

wo wird die Indikatorfunktion für die Mitgliedschaft in . $\boldsymbol{1}_M(\cdot)$ $M$

※ Oder, wie @gung bereits betont hat, Level-Means-Codierung.

Scortchi - Wiedereinsetzung von Monica
quelle

Huh ... kannst du Links zu Ressourcen bereitstellen, die das motivieren? Nach meiner Erfahrung wird "Dummy-Variable" häufig für die 0/1-Codierung verwendet. Ich bin mir nicht sicher, ob ich Dummy verwendet habe, wie Sie es vorschlagen, und weiß, dass andere es in einem entgegengesetzten Sinne verwenden. Zum Beispiel Alkharusi, H. (2012) "Kategoriale Variablen in der Regressionsanalyse: Ein Vergleich von Dummy- und Effektcodierung" International Journal of Education 4 (2): 202–210.

Alexis

Ich habe nicht gesagt, dass "Dummy-Variable" nicht für die 0/1-Codierung verwendet wird, nur damit es allgemeiner verwendet werden kann.

Scortchi

In der Tat heißt es in dem von Ihnen zitierten Artikel, dass die Dummy-Variablen unter Verwendung der Effektcodierung "die Werte 1, 0 und -1 annehmen". (Natürlich denke ich, sie hätten etwas anderes als "Dummy-Codierung" bezeichnen sollen, wenn sie das sagen würden.)

Scortchi - Reinstate Monica

Ich nenne sie in der Regel "kategoriale Variablen mit XXX-Codierung".

Alexis

Der Punkt wird am besten von Knuth in arxiv.org/abs/math/9205211 gemacht. Er schreibt die Idee KE Iverson zu. Kurz gesagt, wir müssen keine Indikatorfunktion erfinden oder aufrufen, sondern müssen in einer formellen Diskussion nachvollziehen, was unsere Software für uns leistet.

Nick Cox

@Scortchi hat hier eine gute Antwort geliefert. Lassen Sie mich einen kleinen Punkt hinzufügen. : Auch die strengere Definition der Indikatorvariable verwendet, kann dies immer noch mit (mindestens) zwei verschiedenen Codierschemata für kategorische Daten in einem Regressionsmodell-Typ zugeordnet werden , viz. Referenzpegelkodierung und Pegelmittelkodierung . Bei der Level-Mean-Codierung haben Sie eine Level- kategoriale Variable , die mit Indikatorvariablen dargestellt wird. Sie geben jedoch keinen Vektor von s für den Achsenabschnitt an (dh der Achsenabschnitt wird unterdrückt). (Für eine ausführlichere Erläuterung mit Beispielmodellmatrizen siehe meine Antwort hier: Wie kann die logistische Regression einen faktoriellen Prädiktor und keinen Achsenabschnitt haben? $k$ $k$ $1$ ) Wenn es nur eine einzige kategoriale Variable gibt, wird die Modellausgabe auf eine einfache Art und Weise erbracht, die möglicherweise von einigen Personen bevorzugt wird. (Ein Beispiel, in dem die Verwendung dieses Schemas interessante Vergleiche erleichtert, finden Sie hier meine Antwort: Warum unterscheiden sich die geschätzten Werte von einem besten linearen vorurteilsfreien Prädiktor (BLUP) von einem besten linearen vorurteilsfreien Schätzer (BLUE)? )

gung - Wiedereinsetzung von Monica
quelle