Indikatorvariable für Binärdaten: {-1,1} vs {0,1}

10

Ich bin an behandlungs Kovariable Wechselwirkungen im Rahmen von Experimenten / randomisierten kontrollierten Studien, mit einer binären Behandlung Zuordnungskennzeichen .T

Abhängig von der spezifischen Methode / Quelle habe ich sowohl als auch T = { 1 , - 1 } für die behandelten bzw. die unbehandelten Probanden gesehen.T={1,0}T={1,1}

Gibt es eine Faustregel, wann oder { 1 , - 1 } verwendet werden soll ?{1,0}{1,1}

Inwiefern unterscheidet sich die Interpretation?

Cecefuss
quelle
FWIW ... Dieser erste Link bietet einen ziemlich umfassenden Überblick über verschiedene Codierungsschemata ... ats.ucla.edu/stat/r/library/contrast_coding.htm Dieser zweite Link behandelt die Codierung von Indikatoren (Dummy), Effekten und orthogonalen (Kontrasten) ... Fakultät.cas.usf.edu
Mike Hunter

Antworten:

10

Die Interpretation sowohl des Schätzers der Indikatorvariablen als auch des Abschnitts unterscheidet sich. Beginnen wir mit :{1,0}

Angenommen, Sie haben das folgende Modell

yi=β0+treatmentβ1

wo

treatment={0if placebo1if drug

In diesem Fall erhalten Sie die folgenden Formeln für :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

Die Interpretation von ist also die Wirkung des Placebos und die Interpretation von β 1 ist der Unterschied zwischen der Wirkung des Placebos und der Wirkung des Arzneimittels. In der Tat können Sie β 1 als die Verbesserung interpretieren , die das Medikament bietet.β0β1β1


Schauen wir uns nun :{1,1}

Sie haben dann (wieder) folgendes Modell:

yi=β0+treatmentβ1

aber wo

treatment={1if placebo1if drug

yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

β0β1


Also was benutzt du?

β0{0,1}

Aber am Ende ist alles eine Frage der Interpretation, die ich oben erklärt habe. Sie sollten also Ihre Hypothesen bewerten und prüfen, welche Interpretation das Ziehen von Schlussfolgerungen am einfachsten macht.

JAD
quelle
6
Die Konstante bei Verwendung der -1, 1-Codierung ist der Mittelwert, wenn die Anzahl der Befragten in der behandelten Gruppe der Anzahl der Befragten in der Kontrollgruppe entspricht.
Maarten Buis
y
9
Hilfreich. Ich versuche aus mindestens zwei Gründen immer, die Verwendung des Wortindikators anstelle von Dummy (wie in der ursprünglichen Frage!) Zu fördern . Erstens habe ich zu viele Geschichten gehört, in denen Präsentationen sehr schlecht ankamen, weil Begriffe wie "Gender Dummy" von weniger technischen Leuten wild als abwertend oder beleidigend interpretiert wurden. Zweitens lässt der Begriff Dummy das gesamte Gerät ein wenig wie einen Fudge oder ein Ausweichen erscheinen, während es eine perfekt saubere und elegante Methode ist. Ich habe nicht viele Chancen, fest verwurzelte Praktiken in einigen Bereichen zu ändern, aber hier ist der Versuch.
Nick Cox
Einverstanden, es klingt auch professioneller. Außerdem ist es eine bessere Beschreibung dessen, was es tatsächlich tut.
JAD
2
Ich bin froh, dass du damit einverstanden bist. Hier ist eine einfache Erklärung: Es wird als Indikator bezeichnet, weil es anzeigt!
Nick Cox
6

xi{0,1}

yi{1,1}

Versuchen Sie, die Standardnotation für alles zu verwenden, was Sie tun / verwenden.


XX~=XAAAy^

Matthew Gunn
quelle
{1,1}
yi{1,1}
5
{1,1}
@matthewgunn Der Autor spricht die Kovariaten, dh die Eingaben, nicht die Ausgaben. Das {-1, 1} ist für Unterstützungsvektoren für die Ausgabe sinnvoll, spielt jedoch für die Eingabe keine Rolle. Siehe hier: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo
@FranciscoArceo Punkt genommen; Ich habe bearbeitet, um genauer zu sein.
Matthew Gunn
2

Dies ist abstrakter (und vielleicht nutzlos), aber ich werde bemerken, dass diese beiden Darstellungen im mathematischen Sinne tatsächlich Gruppendarstellungen sind und es einen Isomorphismus zwischen ihnen gibt.

TT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

pTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt

jwimberley
quelle
Das ist beeindruckend, aber ich finde es ausreichend zu bemerken, dass jede gültige Entsprechung zwischen {-1, 1} und {0, 1} eins zu eins sein muss: Es besteht keine Notwendigkeit, etwas anderes als die Mathematik der High School aufzurufen. Wir sprechen notwendigerweise von denselben Informationen, die nur unterschiedlich codiert sind.
Nick Cox