Oft lesen Sie in Forschungsartikeln, die die Forscher für bestimmte Variablen kontrolliert haben. Dies kann durch Methoden wie Matching, Blocking usw. erfolgen.
Aber ich habe immer gedacht, dass die Kontrolle von Variablen statistisch durchgeführt wird, indem mehrere Variablen gemessen werden, die Einfluss haben könnten, und statistische Analysen dieser Variablen durchgeführt werden, die sowohl in echten als auch in Quasi-Experimenten durchgeführt werden können. So hätten Sie zum Beispiel eine Umfrage oder einen anderen Test, bei dem Sie die unabhängige Variable und einige möglicherweise verwirrende Variablen messen und eine Analyse durchführen würden.
- Ist es möglich, Variablen in Quasi-Experimenten zu kontrollieren?
- Welche Verbindung besteht zwischen Methoden wie Matching und statistischer Kontrolle von Variablen?
experiment-design
random-variable
controlling-for-a-variable
Renée Damstra
quelle
quelle
Antworten:
Wie bei AdamO denke ich, dass der Schlüssel zur Beantwortung dieser Frage der Begriff der kausalen Folgerung ist und wie man mithilfe von Beobachtungsaufbauten einem kausalen Modell "näher kommt".
In einer perfekten Welt hätten wir eine sogenannte kontrafaktische Population - die Studienpopulation, die in jeder Hinsicht identisch ist, mit Ausnahme der einzigen Sache, an der wir interessiert sind. Der Unterschied zwischen diesen beiden Populationen, basierend auf diesem Unterschied, ist ein echtes kausales Ergebnis.
Offensichtlich können wir das nicht haben.
Es gibt jedoch Möglichkeiten, sich dem anzunähern:
Randomisierung: Theoretisch (wenn die Randomisierung korrekt durchgeführt wird) sollten Sie zwei identische Populationen erhalten, mit Ausnahme der Behandlung nach der Randomisierung.
Schichtung: Sie können eine Population innerhalb von Kovariatenebenen betrachten, in der Sie Vergleiche mit "Gleichem mit Gleichem" anstellen. Dies funktioniert hervorragend für eine kleine Anzahl von Ebenen, wird jedoch schnell umständlich.
Matching: Matching ist ein Versuch, eine Studienpopulation so zusammenzustellen, dass Gruppe A der Gruppe B ähnelt und daher vergleichbar ist.
Statistische Anpassung: Die Einbeziehung von Kovariaten in ein Regressionsmodell ermöglicht die Abschätzung eines Effekts innerhalb der Ebenen der Kovariaten - wiederum Vergleich von Gleichem mit Gleichem oder zumindest Versuch.
Alle sind ein Versuch, dieser kontrafaktischen Bevölkerung näher zu kommen. Wie Sie am besten dazu kommen, hängt davon ab, was Sie herausholen möchten und wie Ihr Studium aussieht.
quelle
Ich denke, kausale Modellierung ist der Schlüssel zur Beantwortung dieser Frage. Man muss zu Beginn den richtigen angepassten / geschichteten / kontrollierten Effekt von Interesse identifizieren, bevor man sich überhaupt Daten ansieht. Wenn ich die Beziehung zwischen Körpergröße und Lungenkapazität bei Erwachsenen abschätzen würde, würde ich mich an den Raucherstatus anpassen, da das Rauchen das Wachstum bremst und die Lungenkapazität beeinflusst. Confounder sind Variablen, die kausal mit dem Prädiktor des Interesses zusammenhängen und mit dem Ergebnis des Interesses verbunden sind. Siehe Kausalität von Judea Pearl, 2. Aufl. Man sollte ihre Analyse für die richtigen verwirrenden Variablen spezifizieren und durchführen, bevor der Datenerfassungsprozess überhaupt mit rationaler Logik und Vorkenntnissen aus früheren explorativen Studien beginnt.
Dies bedeutet jedoch nicht, dass sich einige Forscher nicht auf datengesteuerte Methoden verlassen, um Anpassungsvariablen auszuwählen. Ich bin damit nicht einverstanden, dies in der Praxis zu tun, wenn Bestätigungsanalysen durchgeführt werden. Einige gängige Techniken bei der Modellauswahl für mehrere angepasste Modelle sind die Vorwärts- / Rückwärtsmodellauswahl, bei der Sie sich auf Modellklassen beschränken können, die Sie für zumindest plausibel halten. Das Blackbox-AIC-Auswahlkriterium hierfür hängt mit der Wahrscheinlichkeit und damit dem Grad der Reduktion desR2 für lineare Modelle für diese Anpassungsvariablen. Ein weiterer in der Epidemiologie üblicher Prozess besteht darin, dass Variablen nur dann zum Modell hinzugefügt werden, wenn sie die Schätzung des Haupteffekts (wie eine Odds Ratio oder Hazard Ratio) um mindestens 10% ändern. Dies ist zwar "korrekter" als die AIC-basierte Modellauswahl, aber ich denke immer noch, dass dieser Ansatz große Einschränkungen aufweist.
Meine Empfehlung ist, die gewünschte Analyse als Teil einer Hypothese vorzugeben. Das altersbereinigte Rauch- / Krebsrisiko ist ein anderer Parameter und führt in einer kontrollierten Studie zu einer anderen Schlussfolgerung als das rohe Rauch- / Krebsrisiko. Die Verwendung von Fachwissen ist der beste Weg, um Prädiktoren für die Anpassung in Regressionsanalysen oder als Schichtungs-, Matching- oder Gewichtungsvariablen in verschiedenen anderen Arten von "kontrollierten" Analysen des experimentellen und quasiexperimentellen Designs auszuwählen.
quelle
Die Geschichte über die Beziehung zwischen Matching und Regression wird hier in einem Blog-Beitrag kurz zusammengefasst . Zusamenfassend
Siehe auch Abschnitt 3.3 von Mostly Harmless Econometrics oder Abschnitt 5.3 von Counterfactuals and Causal Inference für eine gründliche Diskussion, einschließlich der Vor- und Nachteile der D-gegebenen X-Gewichtung, die die Regression implizit bietet.
@EpiGrad gibt einen guten Start für Ihre erste Frage. Die oben verlinkten Bücher behandeln es fast ausschließlich. Wenn Sie keinen Hintergrund in Informatik / Mathematik haben, kann es sein, dass Pearl Schwierigkeiten hat (obwohl es sich am Ende lohnt!).
quelle