Wie genau steuert man "für andere Variablen"?

141

Hier ist der Artikel, der diese Frage motiviert hat: Macht uns Ungeduld dick?

Mir hat dieser Artikel gefallen und er zeigt sehr gut das Konzept des „Kontrollierens für andere Variablen“ (IQ, Karriere, Einkommen, Alter usw.), um die wahre Beziehung zwischen den beiden fraglichen Variablen am besten zu isolieren.

Können Sie mir erklären, wie Sie für Variablen in einem typischen Datensatz tatsächlich steuern?

Wenn Sie beispielsweise zwei Personen mit der gleichen Ungeduld und dem gleichen BMI, aber unterschiedlichen Einkommen haben, wie gehen Sie mit diesen Daten um? Kategorisieren Sie sie in verschiedene Untergruppen mit ähnlichem Einkommen, Geduld und BMI? Aber irgendwann gibt es Dutzende von Variablen, die kontrolliert werden müssen (IQ, Karriere, Einkommen, Alter usw.). Wie aggregieren Sie dann diese (potenziellen) Hunderte von Untergruppen? Tatsächlich habe ich das Gefühl, dass dieser Ansatz den falschen Baum anstachelt, jetzt, wo ich ihn verbalisiert habe.

Vielen Dank, dass Sie etwas beleuchtet haben, das ich seit einigen Jahren erforschen möchte ...!

JackOfAll
quelle
3
Epi & Bernd, vielen Dank für den Versuch, dies zu beantworten. Leider sind diese Antworten ein großer Sprung von meiner Frage und gehen mir über den Kopf. Vielleicht ist es b / c, dass ich keine Erfahrung mit R habe und nur eine grundlegende Statistik 101-Grundlage. Genau wie das Feedback zu Ihrer Lehre, haben Sie mich total verloren, wenn Sie sich von BMI, Alter, Ungeduld usw. zu "Kovariate" usw. verabschiedet haben. Die automatische Generierung von Pseudodaten war ebenfalls nicht hilfreich bei der Klärung der Konzepte. In der Tat machte es noch schlimmer. Es ist schwer , auf Dummy - Daten ohne inhärente Bedeutung zu lernen, wenn Sie bereits wissen , das Prinzip erklärt wird (dh: Lehrer weiß ich
JackOfAll
7
Vielen Dank, dass Sie diese Frage von grundlegender Bedeutung gestellt haben, @JackOfAll - die Website wäre unvollständig, ohne eine Frage in dieser Richtung - ich habe diese Frage "favorisiert". Die Antworten hier waren sehr hilfreich für mich und anscheinend viele andere, basierend auf der Anzahl der Upvotes. Wenn Sie nach langem Überlegen die Antworten selbst als hilfreich empfunden haben (oder die Antworten auf eine Ihrer Fragen), empfehle ich Ihnen, Ihre Upvotes zu verwenden und eine Antwort zu akzeptieren, wenn Sie sie für endgültig halten. Klicken Sie dazu auf die kleinen nach oben weisenden Glockenkurven neben der Antwort bzw. dem Häkchen.
Makro
4
Dies ist keine vollständige Antwort oder etwas anderes, aber ich denke, es lohnt sich, "Let 's Put Garbage-Can Regressions und Garbage-Can Probits Where They Belong" von Chris Achen zu lesen. (PDF-Link: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Dies gilt sowohl für Bayesian als auch für Frequentist. Das bloße Einfügen von Begriffen in Ihr Setup reicht nicht aus, um die Effekte zu "kontrollieren", aber leider wird dies in einem Großteil der Literatur als Kontrolle angesehen.
Ely
9
Sie fragen " wie die Computersoftware mathematisch alle Variablen gleichzeitig steuert ". Sie sagen auch "Ich brauche eine Antwort ohne Formeln". Ich verstehe nicht, wie es möglich ist, beides gleichzeitig zu tun. Zumindest nicht ohne ernsthaftes Risiko, Sie mit fehlerhafter Intuition zurückzulassen.
Glen_b
2
Ich bin überrascht, dass diese Frage nicht mehr beachtet wurde. Ich stimme der Bemerkung des OP zu, dass andere Fragen auf der Website nicht genau das spezifische Problem abdecken, das hier angesprochen wird. @Jen, die sehr kurze Antwort auf Ihre (zweite) Frage ist, dass die multiplen Kovariaten wirklich gleichzeitig und nicht iterativ herausgefiltert werden, wie Sie beschreiben. Nun werde ich darüber nachdenken, wie eine detailliertere und intuitivere Antwort auf diese Fragen aussehen würde.
Jake Westfall

Antworten:

124

Es gibt viele Möglichkeiten, Variablen zu steuern.

Am einfachsten ist es, Ihre Daten so zu schichten, dass Sie Untergruppen mit ähnlichen Merkmalen haben. Sie können diese Ergebnisse dann zusammenfassen, um eine einzige "Antwort" zu erhalten. Dies funktioniert, wenn Sie eine sehr kleine Anzahl von Variablen haben, die Sie steuern möchten, aber wie Sie zu Recht festgestellt haben, fällt dies schnell auseinander, wenn Sie Ihre Daten in immer kleinere Abschnitte aufteilen.

Ein gängigerer Ansatz besteht darin, die zu steuernden Variablen in ein Regressionsmodell einzubeziehen. Wenn Sie beispielsweise ein Regressionsmodell haben, das konzeptionell wie folgt beschrieben werden kann:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Die Schätzung, die Sie für Ungeduld erhalten, ist die Auswirkung von Ungeduld innerhalb der Ebenen der anderen Kovariaten. Mit der Regression können Sie im Wesentlichen Bereiche glätten, in denen Sie nicht über viele Daten verfügen (das Problem mit dem Schichtungsansatz). Dies sollte jedoch getan werden mit Vorsicht.

Es gibt noch ausgefeiltere Möglichkeiten, andere Variablen zu steuern. Wenn jedoch jemand sagt, dass andere Variablen gesteuert werden, bedeutet dies, dass sie in ein Regressionsmodell einbezogen wurden.

Okay, Sie haben nach einem Beispiel gefragt, an dem Sie arbeiten können, um zu sehen, wie das geht. Ich werde Sie Schritt für Schritt begleiten. Alles was Sie brauchen ist eine Kopie von R installiert.

Zunächst benötigen wir einige Daten. Schneiden Sie die folgenden Codestücke aus und fügen Sie sie in R ein. Beachten Sie, dass dies ein Beispiel ist, das ich vor Ort erfunden habe, aber es zeigt den Prozess.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Das sind deine Daten. Beachten Sie, dass wir die Beziehung zwischen dem Ergebnis, der Exposition und der Kovariate bereits kennen - das ist der Punkt vieler Simulationsstudien (von denen dies ein äußerst grundlegendes Beispiel ist. Sie beginnen mit einer Struktur, die Sie kennen, und Sie stellen sicher, dass Ihre Methode dies kann bekommst du die richtige Antwort.

Nun also zum Regressionsmodell. Geben Sie Folgendes ein:

lm(outcome~exposure)

Haben Sie einen Intercept = 2.0 und einen Exposure = 0.6766 erhalten? Oder etwas in der Nähe, wenn die Daten zufällig variieren? Gut - diese Antwort ist falsch. Wir wissen, dass es falsch ist. Warum ist es falsch? Es ist uns nicht gelungen, eine Variable zu bestimmen, die sich auf das Ergebnis und die Belichtung auswirkt. Es ist eine binäre Variable, machen Sie es nach Belieben - Geschlecht, Raucher / Nichtraucher usw.

Führen Sie nun dieses Modell aus:

lm(outcome~exposure+covariate)

Dieses Mal sollten Sie Koeffizienten von Intercept = 2.00, Exposition = 0.50 und eine Kovariate von 0.25 erhalten. Dies ist bekanntlich die richtige Antwort. Sie haben für andere Variablen gesteuert.

Was passiert nun, wenn wir nicht wissen, ob wir uns um alle Variablen gekümmert haben, die wir brauchen (was wir nie wirklich tun)? Dies wird als Residuum Confounding bezeichnet und ist in den meisten Beobachtungsstudien ein Problem, das wir nur unvollkommen kontrolliert haben, und unsere Antwort ist zwar nah rechts, aber nicht genau. Hilft das mehr?

Fomite
quelle
Vielen Dank. Kennt jemand ein einfaches Beispiel, das auf Regression basiert, online oder in einem Lehrbuch, das ich durcharbeiten kann?
JackOfAll
@JackOfAll Es gibt wahrscheinlich Hunderte solcher Beispiele - für welche Bereiche / Fragetypen interessieren Sie sich und welche Softwarepakete können Sie verwenden?
Fomite
Nun, jedes akademische / erfundene Beispiel ist in Ordnung für mich. Ich habe Excel, das eine Regression mit mehreren Variablen ausführen kann, richtig? Oder brauche ich dafür so etwas wie R?
JackOfAll
10
+1 Für die Beantwortung ohne die Negativität, die ich verwenden würde. :) Im typischen Sprachgebrauch bedeutet das Kontrollieren für andere Variablen, dass die Autoren sie in die Regression geworfen haben. Das bedeutet nicht wirklich, was sie denken, wenn sie nicht bestätigt haben, dass die Variablen relativ unabhängig sind und dass die gesamte Modellstruktur (normalerweise irgendeine Art von GLM) gut fundiert ist. Kurz gesagt, meine Ansicht ist, dass, wenn jemand diesen Ausdruck verwendet, er sehr wenig Ahnung von Statistiken hat und die Ergebnisse mit der von Ihnen angebotenen Schichtungsmethode neu berechnet werden sollten.
Iterator
7
@SibbsGambling Sie werden feststellen, dass der ursprüngliche Fragesteller nach einem einfachen Beispiel gefragt hat .
Fomite
56
  1. Einführung

    Ich mag die Antwort von @ EpiGrad (+1), aber lassen Sie mich eine andere Perspektive einnehmen. Im Folgenden beziehe ich mich auf dieses PDF-Dokument: "Multiple Regression Analysis: Estimation" , das einen Abschnitt zu "A 'Partialling Out' Interpretation der multiplen Regression" (S. 83f.) Enthält. Leider habe ich keine Ahnung, wer der Autor dieses Kapitels ist, und ich werde es als REGCHAPTER bezeichnen. Eine ähnliche Erklärung finden Sie in Kohler / Kreuter (2009) "Datenanalyse mit Stata" , Kapitel 8.2.3 "Was bedeutet" unter Kontrolle "?".

    Ich werde @ EpiGrads Beispiel verwenden, um diesen Ansatz zu erläutern. R-Code und Ergebnisse finden Sie im Anhang.

    Es ist auch zu beachten, dass "Steuerung für andere Variablen" nur dann Sinn macht, wenn die erklärenden Variablen mäßig korreliert sind (Kollinearität). In dem oben erwähnten Beispiel beträgt die Produkt-Moment-Korrelation zwischen exposureund covariate0,50, dh

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Rückstände

    Ich gehe davon aus, dass Sie ein grundlegendes Verständnis des Konzepts der Residuen in der Regressionsanalyse haben. Hier die Wikipedia-Erklärung : "Wenn man auf einige Daten eine Regression ausführt, dann sind die Abweichungen der abhängigen Variablenbeobachtungen von der angepassten Funktion die Residuen."

  3. Was bedeutet "unter Kontrolle"?

    Wenn Sie die Variable steuern covariate, kann der Effekt (Regressionsgewicht) von exposureon outcomewie folgt beschrieben werden (ich bin schlampig und überspringe die meisten Indizes und alle Hüte. Beziehen Sie sich für eine genaue Beschreibung auf den oben genannten Text):

    β1=resichdich1yichresichdich12

    resichdich1 sind die Residuen , wenn wir zurückgehen exposureauf covariate, das heißt,

    eXpOsure=cOnst.+βcOveinricheintecOveinricheinte+resichd

    Die "Residuen [..] sind der Teil von , der nicht mit . [...] Somit misst die Stichprobenbeziehung zwischen und nachdem ist teilweise ausgeschlossen "(REGKAPITEL 84). "Ausgeschlossen" bedeutet "kontrolliert für". x i 2 β 1 y x 1 x 2Xich1Xich2β^1yX1X2

    Ich werde diese Idee anhand der Beispieldaten von @ EpiGrad demonstrieren. Zuerst werde ich Regress exposureauf covariate. Da mich nur die Residuen interessieren lmEC.resid, lasse ich die Ausgabe aus.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Der nächste Schritt ist die Regression outcomedieser Residuen ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Wie Sie sehen, ist das Regressionsgewicht für lmEC.resid(siehe Spalte Schätzung, ) in dieser einfachen Regression gleich dem multiplen Regressionsgewicht für , das ebenfalls (siehe @ EpiGrads Antwort oder die R-Ausgabe) unten).0,50βlmEC.resichd=0,50covariate0,50

Blinddarm

R-Code

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R Ausgang

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 
Bernd Weiss
quelle
5
Dieses Kapitel sieht aus wie Baby Wooldridge (auch bekannt als Introductory Econometrics: A Modern Approach von Jeffrey M. Wooldridge)
Dimitriy V. Masterov
2
Ich verstehe vielleicht etwas falsch, aber warum müssen Sie nicht auch das Ergebnis für die Kovariate zurückführen und dann schließlich die Ergebnisreste für die Expositionsreste zurückführen?
Hlinee
@hlinee ist richtig. Können Sie erklären, warum Sie das nicht tun?
Parseltongue
41

Natürlich wird etwas Mathe dabei sein, aber es ist nicht viel: Euklid hätte es gut verstanden. Alles, was Sie wirklich wissen müssen, ist das Hinzufügen und Skalieren von Vektoren. Obwohl dies heutzutage unter dem Namen "lineare Algebra" bekannt ist, müssen Sie es nur in zwei Dimensionen visualisieren. Dadurch können wir die Matrixmaschinerie der linearen Algebra umgehen und uns auf die Konzepte konzentrieren.


Eine geometrische Geschichte

y 1 α x 1 x 1yy1αX1X1ααβγ

Abbildung 1

X1yyX1X1yαyy1yX1"zeigt konsistent an, welche Vektoren" abgeglichen "," herausgenommen "oder" kontrolliert "wurden."

X1X2X1βX1X21

Figur 2

X1x 1 y x 1 x 3 , x 4 , x 1X2X1yX1X3,X4,X1

Betrachten Sie nun die Ebene mit den beiden Residuen und . Ich werde das Bild ausrichten, um horizontal zu machen, genauso wie ich die vorherigen Bilder ausrichtete , um horizontal zu machen , da dieses Mal die Rolle des Matchers spielt: x 2 1 x 2 1 x 1 x 2 1y1X21X21X1X21

Figur 3

Beachten Sie, dass in jedem der drei Fälle der Rest senkrecht zur Übereinstimmung ist. (Wenn dies nicht der Fall wäre, könnten wir die Übereinstimmung anpassen, um sie noch näher an , oder .)x 2 y 1yX2y1

y 1X21y1X1y1X1γX21y12X1

X31,X41,X2

y12X1X2y12X1,X2,yX1,X2yX1X2X2X1

(Wenn es zusätzliche Vektoren gibt, würden wir diesen "take out a matcher" -Prozess fortsetzen, bis jeder dieser Vektoren an der Reihe gewesen wäre, der Matcher zu sein. In jedem Fall wären die Operationen die gleichen wie hier gezeigt und würden immer in einem auftreten Flugzeug .)


Anwendung auf multiple Regression

X1X2,Y.X1X2Y.X1X2X1,X2,

  1. Das Matching kann nacheinander und nacheinander erfolgen

  2. Die Reihenfolge, in der der Abgleich durchgeführt wird, spielt keine Rolle.

Der Vorgang des "Herausnehmens" eines Matchers durch Ersetzen aller anderen Vektoren durch ihre Residuen wird häufig als "Steuern" des Matchers bezeichnet. Wie wir in den Figuren gesehen haben, nehmen alle nachfolgenden Berechnungen Anpassungen vor, die senkrecht zu diesem Matcher sind, sobald ein Matcher kontrolliert wurde. Wenn Sie möchten, können Sie sich "Controlling" als "Abrechnung (im kleinsten Quadrat) des Beitrags / Einflusses / Effekts / der Zuordnung eines Matchers zu allen anderen Variablen" vorstellen.


Verweise

Sie können dies alles in Aktion mit Daten und Arbeitscode in der Antwort unter https://stats.stackexchange.com/a/46508 sehen . Diese Antwort könnte eher für Leute interessant sein, die lieber rechnen als Flugzeugbilder. (Die Arithmetik zum Anpassen der Koeffizienten, wenn Matcher nacheinander eingegeben werden, ist dennoch unkompliziert.) Die Sprache des Matchings stammt von Fred Mosteller und John Tukey.

whuber
quelle
1
Weitere Illustrationen in diesem Sinne finden sich in Wickens Buch "The Geometry of Multivariate Statistics" (1994). Einige Beispiele finden Sie in dieser Antwort .
Caracal
2
Xich
1
Ich liebe diese Antwort, weil sie viel intuitiver ist als die Algebra. Übrigens, ich bin mir nicht sicher, ob du den YouTube-Kanal dieses Typen überprüft hast . Ich habe es sehr genossen
Haitao Du
3

Bisher gibt es eine ausgezeichnete Diskussion über die kovariate Anpassung als Mittel zum "Kontrollieren für andere Variablen". Aber ich denke, das ist nur ein Teil der Geschichte. Tatsächlich gibt es viele (andere) auf Design, Modell und maschinellem Lernen basierende Strategien, um die Auswirkungen einer Reihe möglicher Störgrößen zu berücksichtigen. Dies ist eine kurze Übersicht über einige der wichtigsten (nicht angepassten) Themen. Während Anpassung das am häufigsten verwendete Mittel zum "Kontrollieren" anderer Variablen ist, sollte ein guter Statistiker meiner Meinung nach verstehen, was er im Kontext anderer Prozesse und Verfahren tut (und was nicht).

Passend:

Matching ist eine Methode zum Entwerfen einer gepaarten Analyse, bei der Beobachtungen in Zweiergruppen gruppiert werden, die sich ansonsten in ihren wichtigsten Aspekten ähneln. Sie können zum Beispiel zwei Personen befragen, die in Bezug auf Bildung, Einkommen, Berufstätigkeit, Alter, Familienstand (usw. usw.) nicht übereinstimmen, aber in Bezug auf ihre Ungeduld nicht übereinstimmen. Bei binären Belichtungen reicht der einfache Paired-T-Test aus, um auf einen mittleren Unterschied in der BMI- Steuerung für alle übereinstimmenden Merkmale zu testen . Wenn Sie eine kontinuierliche Belichtung modellieren, wäre ein analoges Maß ein Regressionsmodell durch den Ursprung für die Differenzen. Siehe Carlin 2005

E[Y.1-Y.2]=β0(X1-X2)

Gewichtung

XY.berücksichtigt die Wahrscheinlichkeit einer binären Exposition und kontrolliert diesbezüglich diese Variablen. Dies ähnelt der direkten Standardisierung einer Exposition. Siehe Rothman, Modern Epidemiology, 3. Auflage.

Randomisierung und Quasirandomisierung

Es ist ein subtiler Punkt, aber wenn Sie tatsächlich in der Lage sind, Menschen zu einer bestimmten experimentellen Bedingung zu randomisieren, wird der Einfluss anderer Variablen gemindert. Es ist eine bemerkenswert stärkere Bedingung, da Sie nicht einmal wissen müssen, was diese anderen Variablen sind. In diesem Sinne haben Sie ihren Einfluss "kontrolliert". Dies ist in der Beobachtungsforschung nicht möglich, es stellt sich jedoch heraus, dass die Propensity-Score-Methoden ein einfaches probabilistisches Maß für die Exposition darstellen, mit dem die Teilnehmer gewichtet, angepasst oder abgeglichen werden können, so dass sie auf die gleiche Weise wie eine quasi-randomisierte Studie analysiert werden können . Siehe Rosenbaum, Rubin 1983 .

Mikrosimulation

Eine andere Möglichkeit, Daten zu simulieren, die möglicherweise aus einer randomisierten Studie stammen, ist die Durchführung einer Mikrosimulation. Hier kann man sich auf größere und komplexere Modelle konzentrieren, die dem maschinellen Lernen ähneln. Ein Begriff, den Judea Pearl für mich geprägt hat, ist " Oracle Models ": komplexe Netzwerke, die Vorhersagen und Prognosen für eine Reihe von Funktionen und Ergebnissen erstellen können. Es hat sich herausgestellt, dass die Informationen eines solchen Orakelmodells "heruntergeklappt" werden können, um die Ergebnisse in einer ausgewogenen Kohorte von Personen zu simulieren, die eine randomisierte Kohorte repräsentieren, in ihrer "Kontrollvariablen" -Verteilung ausgewogen sind und einfache T-Test-Routinen zur Bewertung der Ergebnisse verwenden Größe und Genauigkeit möglicher Unterschiede. Siehe Rutter, Zaslavsky und Feuer 2012

Matching, Gewichtung und Kovariatenanpassung in einem Regressionsmodell schätzen alle die gleichen Assoziationen, und daher kann von allen behauptet werden, dass sie Methoden zur "Steuerung" anderer Variablen sind .

AdamO
quelle
Total über meinem Kopf.
JackOfAll
Es ist eine Antwort auf die gestellte Frage, die gute Diskussion ist bisher eher einseitig zugunsten einer Anpassung in multivariaten Modellen.
AdamO
Multivariate Modelle, Matching usw. sind allesamt gültige Techniken. Aber wann verwendet ein Forscher normalerweise eine Technik gegenüber einer anderen?
14.
-1

Y.=Xβ+εb=(XTX)-1XTY.

Aksakal
quelle
4
Vielen Dank, dass Sie die Gelegenheit genutzt haben, diese Informationen anzubieten. Um die in der Frage angegebenen Bedürfnisse zu beantworten, müssten wir die Bedeutung der Primzahl im zweiten Ausdruck und die Bedeutung des zweiten Ausdrucks kennen. Ich verstehe, dass Steigung die Änderung in einer Achse gegenüber der Änderung in der anderen ist. Denken Sie daran, dass Notation eine spezielle Sprache ist, die ursprünglich mit nichtnotationalem Vokabular erstellt und gelernt wurde. Um Menschen zu erreichen, die diese Sprache nicht beherrschen, müssen andere Wörter verwendet werden, und das ist die ständige Herausforderung, Wissen disziplinübergreifend zu vermitteln.
Jen
2
XX