Dummy-Codierung für Kontraste: 0,1 vs. 1, -1

8

Ich bitte Sie um Ihre Hilfe, um den Unterschied zwischen zwei verschiedenen Kontrasten für dichotome Variablen zu verstehen.

Auf dieser Seite: http://www.psychstat.missouristate.edu/multibook/mlt08.htm unter "Dichotome Prädiktorvariablen" gibt es zwei Möglichkeiten, dichotome Prädiktoren zu codieren: Verwenden des Kontrasts 0,1 oder des Kontrasts 1, -1 . Ich verstehe die Unterscheidung hier irgendwie (0,1 ist Dummy-Codierung und 1, -1 addiert zu einer Gruppe und subtrahiert von der anderen), verstehe aber nicht, welche ich in meiner Regression verwenden soll.

Wenn ich zum Beispiel zwei dichotome Prädiktoren habe, Geschlecht (m / w) und Athlet (j / n), könnte ich Kontraste 0,1 für beide oder 1, -1 für beide verwenden. Was wäre die Interpretation eines Haupteffekts oder eines Interaktionseffekts bei Verwendung der beiden unterschiedlichen Kontraste? Kommt es darauf an, ob meine Zellen unterschiedlich groß sind?

Dan
quelle

Antworten:

13

"Dichotome Prädiktorvariablen" gibt es zwei Möglichkeiten, dichotome Prädiktoren zu codieren: Verwenden des Kontrasts 0,1 oder des Kontrasts 1, -1.

Das ist sachlich falsch. Die Anzahl der Codierungsmöglichkeiten ist unbegrenzt. Diese beiden sind nur die häufigsten (tatsächlich fast allgegenwärtig) und wahrscheinlich die am einfachsten zu behandelnden.

Ich verstehe die Unterscheidung hier irgendwie (0,1 ist Dummy-Codierung und 1, -1 addiert zu einer Gruppe und subtrahiert von der anderen), verstehe aber nicht, welche ich in meiner Regression verwenden soll.

Was auch immer bequemer / angemessener ist. Wenn Sie ein entworfenes Experiment mit jeweils gleichen Zahlen haben, hat der zweite Ansatz einige nette Aspekte. Wenn Sie dies nicht tun, ist der erste wahrscheinlich in mehrfacher Hinsicht einfacher.

Wenn ich zum Beispiel zwei dichotome Prädiktoren habe, Geschlecht (m / w) und Athlet (j / n), könnte ich Kontraste 0,1 für beide oder 1, -1 für beide verwenden.

Was wäre die Interpretation eines Haupteffekts oder eines Interaktionseffekts bei Verwendung der beiden unterschiedlichen Kontraste?

a) (i) Betrachten Sie einen geschlechtsspezifischen Haupteffekt (der Einfachheit halber ohne Interaktion) {m = 0, f = 1} - dann misst der diesem Dummy entsprechende Koeffizient den Mittelwertunterschied zwischen Frauen und Männern (und der Achsenabschnitt wäre der Mittelwert der Männchen).

(ii) Für {m = -1, f = 1} ist der geschlechtsspezifische Haupteffekt die Hälfte des Mittelwertunterschieds, und der Achsenabschnitt ist der Durchschnitt der Mittelwerte (wenn das Design ausgewogen ist, ist es auch der Durchschnitt aller Daten). . Entsprechend ist der Haupteffekt die Differenz jedes Gruppenmittelwerts vom Achsenabschnitt.

b) (i) Betrachten Sie eine Interaktion zwischen Geschlecht {m = 0, f = 1} und Athlet {n = 0, y = 1}

Nun stellt der Achsenabschnitt den Mittelwert der männlichen Nicht-Athleten dar (0,0), der geschlechtsspezifische Haupteffekt ist der Unterschied zwischen den Mitteln der weiblichen Nicht-Athleten und der männlichen Nicht-Athleten, der Athleten-Haupteffekt repräsentiert den Unterschied zwischen dem Mittelwert der männlichen Athleten und der männlichen Nicht-Athleten und die Interaktion ist der Unterschied zwischen zwei Unterschieden - es ist der mittlere Unterschied zwischen Athleten und Nicht-Athleten für Frauen abzüglich des mittleren Unterschieds zwischen Athleten und Nicht-Athleten für Marken.

(ii) Betrachten Sie eine Interaktion zwischen Geschlecht {m = -1, f = -1} und Athlet {n = -1, y = 1}

Jetzt stellt der Achsenabschnitt den Mittelwert der vier Gruppenmittelwerte dar (und wenn das Design vollständig ausgewogen wäre, wäre dies auch der Gesamtmittelwert). Der Abschnitt ist ein Viertel dessen, was es vorher war.

Die Haupteffekte sind Durchschnittswerte der Differenzeffekte - der Geschlechtseffekt ist der Durchschnitt der Unterschiede zwischen Frauen und Männern bei Athleten und der Unterschiede zwischen Frauen und Männern bei Nicht-Sportlern. Der Haupteffekt des Athleten ist der Durchschnitt des Unterschieds zwischen Athleten und Nicht-Athleten bei Frauen und des Unterschieds zwischen Athleten und Nicht-Athleten bei Männern.

Kommt es darauf an, ob meine Zellen unterschiedlich groß sind?

Was meinst du mit "verschiedenen Größen"? Meinen Sie damit, dass die Anzahl der Beobachtungen in jeder Zelle unterschiedlich ist? (Wenn ja, habe ich größtenteils darauf eingegangen, dass oben - gleiche Zellzahlen zusätzliche Bedeutungen ergeben / die Interpretation vereinfachen, z. B. den Achsenabschnitt zum Hauptmittelwert der Daten und nicht nur zum Mittelwert der Gruppenmittelwerte zu machen.)

Glen_b -Reinstate Monica
quelle
1
Sehr umfassende Antwort. Ich werde hinzufügen, dass ich buchstäblich keinen Grund sehe, jemals Kontraste mit einem -1, 1-Format für Ebenen zu codieren. Dies ergibt nicht nur Effektgrößen, die nicht direkt interpretiert werden können (z. B. "ein damit verbundener doppelter Unterschied im Ergebnis im Vergleich eines Einheitsunterschieds im Prädiktor"), sondern macht auch die Interpretation des Abschnitts als fiktive Größe (eher) als das erwartete Ergebnis für alle Variablen gleich Null). Ich würde empfehlen, immer eine 0/1-Codierung für Dummy-Variablen zu verwenden.
AdamO
1
@AdamO Ich bin anderer Meinung. 1) Wenn Sie befürchten, dass -1, + 1 Codes keine "direkte" Interpretation haben, verwenden Sie einfach -.5, +. 5. 2) Wie von Glen_b angegeben, stellt der Achsenabschnitt unter solchen Codes den Mittelwert der Gruppenmittelwerte dar; Es ist völlig unklar, wie dies mehr oder weniger eine "fiktive Größe" ist, als die Gruppe selbst bedeutet (was JEDER der Beobachtungen im Datensatz entsprechen kann oder nicht!). 3) Wechselwirkungen zwischen Dummy-codierten Faktoren machen die einfachen Effekte praktisch immer frei von jeglicher interessanten / sinnvollen Interpretation; Kontrastcodes bieten hier eine weitaus natürlichere Interpretation
Jake Westfall
Vielen Dank an alle. In der Tat hatte ich Probleme, die Haupteffekte bei Vorhandensein einer Interaktion zu interpretieren, wenn ich Dummy-Codierung verwendete. Ich erkannte, dass der Haupteffekt des Geschlechts nur für Nicht-Athleten war (keine Art von Effekt des Geschlechts, gemittelt über Athleten und Nicht-Athleten, was ich mit Kontrasten bekomme). Dan
Dan
"Der Achsenabschnitt unter solchen Codes stellt den Mittelwert der Gruppenmittelwerte dar": Der Mittelwert der Mittelwerte ist nicht der Grenzmittelwert, der der einzige Parameter ist, von dem ich denke, dass er uns interessiert. Nur bei einem ausgewogenen Design würden wir dem nahe kommen, und diese Annahme ist für unsere Zwecke zu unpraktisch.
AdamO
@JakeWestfall Wie Sie wissen, ist die Interpretation des Abschnitts ein Durchschnittswert in der Antwort, wenn alle Werte von Regressoren auf 0 gesetzt sind. Wenn dieser Wert nicht wahrscheinlich oder schlimmer noch nicht einmal möglich ist, wird der Abschnitt zu einer fiktiven Größe. Angenommen, ich gebe sogar für 0/1-Binärdateien zwei Regressoren an (0: schwanger, 1: nicht schwanger) (0: männlich 1: weiblich) für FEV. Der Achsenabschnitt im Modell ist das durchschnittliche FEV bei schwangeren Männern. Wenn ich nun -1: männlich 1: weiblich codiere, hat der Achsenabschnitt überhaupt keine Interpretation außer dem "Durchschnitt der durchschnittlichen Antwort bei Männern und Frauen".
AdamO