"Dummy-Variable" und "Indikatorvariable" sind häufig verwendete Bezeichnungen zur Beschreibung der Zugehörigkeit zu einer Kategorie mit 0/1 Kodierung. in der Regel 0: kein Mitglied der Kategorie, 1: Mitglied der Kategorie.
Am 26.11.2014 ergab eine schnelle Suche auf scholar.google.com (mit Anführungszeichen), dass in ungefähr 318.000 Artikeln "Dummy-Variable" und in ungefähr 112.000 Artikeln "Indikator-Variable" verwendet wird. Der Begriff "Scheinvariable" hat in der nichtstatistischen Mathematik auch eine Bedeutung für " gebundene Variable ", was wahrscheinlich zur stärkeren Verwendung von "Scheinvariable" in indizierten Artikeln beiträgt.
Meine aktuell verknüpften Fragen:
- Sind diese Begriffe auch immer (innerhalb der Statistik)?
- Wird einer dieser Begriffe jemals in akzeptabler Weise auf andere Formen der kategorialen Codierung angewendet (z. B. Effektcodierung , Helmert-Codierung usw. )?
- Welche statistischen oder disziplinarischen Gründe sprechen dafür, einen Begriff dem anderen vorzuziehen?
male
mit Werten1
oder codiert sein0
. Wenn es eine kategoriale Variable mit mehr als 2 Kategorien gibt, die dann zu Indikatorvariablen für die Zugehörigkeit in jeder Ebene erweitert wird, würde ich "Dummy-Variablen" verwenden, um diesen Satz von Indikatorvariablen zu beschreiben.sex
.male
, wobei 1 wahr (in diesem Fall männlich) und 0 falsch (in diesem Fall weiblich) bedeutet. Wenn ich den Variablennamen verwende, musssex
ich jedes Mal nachsehen, wie ich diese Variable codiert habe, wenn ich zu diesem Datensatz zurückkehre.Antworten:
Ich würde sagen, "Dummy-Variable" ist eine allgemeinere Methode, um auf eine der numerischen Variablen zu verweisen, die einen kategorialen Prädiktor darstellen (zusammen darstellen). daher gilt der Begriff auch für die in Helmert & effect coding verwendeten † . Dies liegt hauptsächlich an der allgemeinen Verwendung von "Dummy" als "Stand-In". "Indikatorvariable" Ich beziehe mich auf Indikatorfunktionen ‡ - diese können also nur Eins oder Null sein, um anzuzeigen, ob eine Eigenschaft vorliegt oder nicht. Daher bezieht sich der Begriff nur auf diejenigen, die in der Referenzcodierung verwendet werden ※ . Natürlich verwenden einige Leute "Dummy-Codierung", um "Referenzniveau-Codierung" zu bedeuten; Vermutlich haben sie eine engere Definition von "Dummy-Variablen" oder sollten es zumindest sein.
† Und wenn Sie diese „Dummies“ nicht nennen, was Sie nennen Sie sie?
‡ So ist zB der Dummy eine Indikatorvariable für den dass die te Person männlich ist (ein Mitglied der Menge ): i u i M x i = 1 M ( u i ) = { 1 w h e n u i ≤ M 0 w h e n u i ≤ Mxich ich uich M
wo wird die Indikatorfunktion für die Mitgliedschaft in .M1M( ⋅ ) M
※ Oder, wie @gung bereits betont hat, Level-Means-Codierung.
quelle
@Scortchi hat hier eine gute Antwort geliefert. Lassen Sie mich einen kleinen Punkt hinzufügen. : Auch die strengere Definition der Indikatorvariable verwendet, kann dies immer noch mit (mindestens) zwei verschiedenen Codierschemata für kategorische Daten in einem Regressionsmodell-Typ zugeordnet werden , viz. Referenzpegelkodierung und Pegelmittelkodierung . Bei der Level-Mean-Codierung haben Sie eine Level- kategoriale Variable , die mit Indikatorvariablen dargestellt wird. Sie geben jedoch keinen Vektor von s für den Achsenabschnitt an (dh der Achsenabschnitt wird unterdrückt). (Für eine ausführlichere Erläuterung mit Beispielmodellmatrizen siehe meine Antwort hier: Wie kann die logistische Regression einen faktoriellen Prädiktor und keinen Achsenabschnitt haben?k 1k k 1 ) Wenn es nur eine einzige kategoriale Variable gibt, wird die Modellausgabe auf eine einfache Art und Weise erbracht, die möglicherweise von einigen Personen bevorzugt wird. (Ein Beispiel, in dem die Verwendung dieses Schemas interessante Vergleiche erleichtert, finden Sie hier meine Antwort: Warum unterscheiden sich die geschätzten Werte von einem besten linearen vorurteilsfreien Prädiktor (BLUP) von einem besten linearen vorurteilsfreien Schätzer (BLUE)? )
quelle