Eine zufällige Zuordnung ist wertvoll, da sie die Unabhängigkeit der Behandlung von potenziellen Ergebnissen gewährleistet. Auf diese Weise führt dies zu unvoreingenommenen Schätzungen des durchschnittlichen Behandlungseffekts. Andere Zuweisungsschemata können jedoch auch systematisch die Unabhängigkeit der Behandlung von potenziellen Ergebnissen sicherstellen. Warum brauchen wir also eine zufällige Zuordnung? Anders ausgedrückt, was ist der Vorteil einer zufälligen Zuweisung gegenüber nicht zufälligen Zuweisungsschemata, die auch zu einer unvoreingenommenen Folgerung führen?
Sei ein Vektor von Behandlungszuordnungen, in dem jedes Element 0 (Einheit, die nicht der Behandlung zugeordnet ist) oder 1 (Einheit, die der Behandlung zugeordnet ist) ist. In einem JASA-Artikel sagen Angrist, Imbens und Rubin (1996, 446-47) , dass die Behandlungszuordnung zufällig ist, wenn für alle \ mathbf {c} und \ mathbf {c'}, so dass \ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '} , wobei \ iota a ist Spaltenvektor mit allen Elementen gleich 1.
Mit Worten, die Behauptung ist, dass die Zuweisung zufällig ist, wenn ein Vektor von Zuweisungen, der Zuordnungen zur Behandlung enthält, genauso wahrscheinlich ist wie jeder andere Vektor, der Zuweisungen zur Behandlung enthält.
Um jedoch die Unabhängigkeit potenzieller Ergebnisse von der Behandlungszuweisung sicherzustellen, reicht es aus, sicherzustellen, dass jede Einheit in der Studie die gleiche Wahrscheinlichkeit für die Zuordnung zur Behandlung hat. Und das kann leicht auftreten, selbst wenn die meisten Behandlungszuweisungsvektoren keine Wahrscheinlichkeit haben, ausgewählt zu werden. Das heißt, es kann auch bei nicht zufälliger Zuweisung auftreten.
Hier ist ein Beispiel. Wir wollen ein Experiment mit vier Einheiten durchführen, in denen genau zwei behandelt werden. Es gibt sechs mögliche Zuweisungsvektoren:
- 1100
- 1010
- 1001
- 0110
- 0101
- 0011
wobei die erste Ziffer in jeder Nummer angibt, ob die erste Einheit behandelt wurde, die zweite Ziffer angibt, ob die zweite Einheit behandelt wurde, und so weiter.
Angenommen, wir führen ein Experiment durch, bei dem wir die Möglichkeit der Zuweisungsvektoren 3 und 4 ausschließen, bei dem jedoch jeder der anderen Vektoren die gleiche (25%) Chance hat, ausgewählt zu werden. Dieses Schema ist keine zufällige Zuordnung im Sinne von AIR. In Erwartung führt dies jedoch zu einer unvoreingenommenen Schätzung des durchschnittlichen Behandlungseffekts. Und das ist kein Zufall. Jedes Zuweisungsschema, das den Probanden die gleiche Wahrscheinlichkeit für die Zuordnung zur Behandlung gibt, ermöglicht eine unvoreingenommene Schätzung der ATE.
Also: Warum brauchen wir eine zufällige Zuordnung im Sinne von AIR? Mein Argument wurzelt in der Randomisierungsinferenz; Wenn man stattdessen in modellbasierter Inferenz denkt, scheint die AIR-Definition vertretbarer zu sein?
Antworten:
Dies folgt auf Gungs Kommentar. Insgesamt ist der durchschnittliche Behandlungseffekt nicht der Punkt.
Angenommen, Sie haben neue Diabetesfälle, bei denen das Subjekt zwischen und alt ist , und neue Diabetes-Patienten über . Sie möchten der Behandlung die Hälfte zuweisen. Warum nicht eine Münze werfen und auf den Köpfen alle jungen Patienten und auf den Schwänzen alle älteren Patienten behandeln? Jeder hätte eine1000 5 15 1000 30 50% Die Chance, für die Behandlung ausgewählt zu werden, würde das durchschnittliche Ergebnis der Behandlung nicht beeinträchtigen, aber viele Informationen wegwerfen. Es wäre keine Überraschung, wenn sich herausstellen würde, dass jugendlicher Diabetes oder jüngere Patienten viel besser oder schlechter ansprechen als ältere Patienten mit Typ-II- oder Schwangerschaftsdiabetes. Der beobachtete Behandlungseffekt könnte unvoreingenommen sein, aber zum Beispiel hätte er eine viel größere Standardabweichung als durch zufällige Zuordnung, und trotz der großen Stichprobe könnten Sie nicht viel sagen. Wenn Sie eine zufällige Zuordnung verwenden, erhalten mit hoher Wahrscheinlichkeit etwa Fälle in jeder Altersgruppe die Behandlung, sodass Sie die Behandlung ohne Behandlung in jeder Altersgruppe vergleichen können. 500
Möglicherweise können Sie es besser machen, als eine zufällige Zuordnung zu verwenden. Wenn Sie einen Faktor bemerken, von dem Sie glauben, dass er das Ansprechen auf die Behandlung beeinflusst, möchten Sie möglicherweise sicherstellen, dass Probanden mit diesem Attribut gleichmäßiger aufgeteilt werden, als dies durch zufällige Zuordnung der Fall wäre. Durch zufällige Zuordnung können Sie mit allen Faktoren gleichzeitig einigermaßen gut umgehen, sodass Sie anschließend viele mögliche Muster analysieren können.
quelle
In Ihrem Beispiel können Sie auch 2 und 5 weglassen und sich nicht widersprechen. Auf Gegenstandsstufe besteht immer noch die gleiche Chance, 1 oder 0 zu sein, wenn nur eine 1: 1-Wahrscheinlichkeit besteht, 1 oder 6 auszuwählen. Aber jetzt wird klarer, was Sie durch Entfernen von 3 und 4 getan haben.
quelle
Hier ist eine weitere lauernde oder verwirrende Variable: Zeit (oder instrumentelle Drift, Auswirkungen der Probenlagerung usw.).
Es gibt also Argumente gegen die Randomisierung (wie Douglas sagt: Sie können es besser machen als die Randomisierung). Sie können beispielsweise im Voraus wissen, dass Ihre Fälle im Laufe der Zeit ausgeglichen werden sollen. So wie Sie vorher wissen können, dass Sie Geschlecht und Alter in Einklang bringen möchten.
Mit anderen Worten, wenn Sie eines Ihrer 6 Schemata manuell auswählen möchten, würde ich sagen, dass 1100 (oder 0011) eine ausgesprochen schlechte Wahl ist. Beachten Sie, dass die ersten Möglichkeiten, die Sie verworfen haben, diejenigen sind, die zeitlich am ausgewogensten sind ... Und die schlimmsten zwei bleiben übrig, nachdem John vorgeschlagen hat, auch 2 und 5 auszuschalten (gegen die Sie nicht protestiert haben).
Mit anderen Worten, Ihre Intuition, welche Schemata "nett" sind, führt leider zu einem schlechten experimentellen Design (IMHO ist dies ziemlich häufig; vielleicht sehen geordnete Dinge besser aus - und es ist sicher einfacher, logische Sequenzen während des Experiments zu verfolgen).
Sie können möglicherweise mit nicht randomisierten Schemata besser abschneiden, aber Sie können auch viel schlechter abschneiden. Meiner Meinung nach sollten Sie in der Lage sein, physikalische / chemische / biologische / medizinische / ... Argumente für das bestimmte nicht zufällige Schema, das Sie verwenden, anzugeben, wenn Sie sich für ein nicht zufälliges Schema entscheiden.
quelle