Wie problematisch ist es, in einer Beobachtungsstudie (dh nicht randomisiert) nicht unabhängige Kovariaten zu kontrollieren?

11

Miller und Chapman (2001) argumentieren, dass es absolut unangemessen ist, in einer Beobachtungsstudie (nicht randomisiert) nicht unabhängige Kovariaten zu kontrollieren, die sowohl mit den unabhängigen als auch mit den abhängigen Variablen zusammenhängen - obwohl dies in den Sozialwissenschaften routinemäßig durchgeführt wird. Wie problematisch ist das? Wie geht man am besten mit diesem Problem um? Wenn Sie in einer Beobachtungsstudie in Ihrer eigenen Forschung routinemäßig nach nicht unabhängigen Kovariaten suchen, wie rechtfertigen Sie dies? Ist dies ein Kampf, der es wert ist, ausgewählt zu werden, wenn man mit seinen Kollegen über die Methodik argumentiert (dh ist das wirklich wichtig)?

Vielen Dank

Miller, GA & Chapman, JP (2001). Missverständnisanalyse der Kovarianz. Journal of Abnormal Psychology, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

Patrick
quelle
Die folgende Frage zur "intuitiven Erklärung der Multikollinearität" kann im obigen Kontext hilfreich sein.

Antworten:

4

Es ist so problematisch wie der Grad der Korrelation.

Die Ironie ist, dass Sie sich nicht die Mühe machen würden, zu kontrollieren, wenn keine Korrelation mit einer der Variablen erwartet würde. Und wenn Sie erwarten, dass Ihre unabhängige Variable Ihre abhängige Variable beeinflusst, korreliert sie notwendigerweise etwas mit beiden. Wenn sie jedoch stark korreliert sind, sollten Sie sie möglicherweise nicht steuern, da dies gleichbedeutend mit der Steuerung der tatsächlichen unabhängigen oder abhängigen Variablen ist.

John
quelle
Ich weiß, dass dies eine alte Antwort ist, aber haben Sie einige Referenzen, die detaillierter beschrieben werden? Ihre erste Zeile, insbesondere diejenigen, die dies unter ausdrücklicher Bezugnahme auf Miller & Chapman diskutieren?
Jona
4

In den Sozialwissenschaften nennen wir dieses Thema oft "Voreingenommenheit nach der Behandlung". Wenn Sie den Effekt einer Behandlung (Ihre unabhängige Variable) in Betracht ziehen, einschließlich Variablen, die nach der Behandlung auftreten (im kausalen Sinne), kann Ihre Einschätzung des Behandlungseffekts verzerrt sein. Wenn Sie diese Variablen einbeziehen, kontrollieren Sie in gewissem Sinne die Auswirkungen der Behandlung. Wenn die Behandlung T das Ergebnis Y verursacht und andere Variablen A und A Y verursachen, ignoriert die Steuerung für A den Einfluss, den T über Y auf Y hat. Diese Vorspannung kann positiv oder negativ sein.

In den Sozialwissenschaften kann dies besonders schwierig sein, da A T verursachen kann, was sich auf A stützt, und A und T beide Y verursachen. Beispielsweise kann ein hohes BIP zu einem hohen Grad an Demokratisierung führen (unsere Behandlung), was dazu führt Ein höheres BIP und ein höheres BIP sowie eine höhere Demokratisierung führen beispielsweise zu weniger Korruption in der Regierung. Da das BIP eine Demokratisierung verursacht, haben wir, wenn wir es nicht kontrollieren, ein Endogenitätsproblem oder eine "Verzerrung der ausgelassenen Variablen". Wenn wir jedoch das BIP kontrollieren, haben wir eine Tendenz zur Nachbehandlung. Abgesehen von randomisierten Studien, wenn wir können, können wir kaum etwas anderes tun, um unser Schiff zwischen Scylla und Charybdis zu steuern. Gary King spricht über diese Fragen als seine Nominierung für Harvard „Hardest ungelösten Probleme in den Sozialwissenschaften“ Initiative hier .

Charlie
quelle
3

Aus meiner Sicht gibt es zwei grundlegende Probleme mit Beobachtungsstudien, die eine Reihe unabhängiger Variablen "kontrollieren". 1) Sie haben das Problem, dass erklärende Variablen fehlen und somit Modellfehlspezifikationen auftreten. 2) Sie haben das Problem mehrerer korrelierter unabhängiger Variablen - ein Problem, das in (gut) entworfenen Experimenten nicht existiert - und die Tatsache, dass Regressionskoeffizienten und ANCOVA-Tests von Kovariaten auf Partials basieren, was ihre Interpretation erschwert. Die erste ist der Natur der Beobachtungsforschung eigen und wird im wissenschaftlichen Kontext und im Prozess der Wettbewerbsausarbeitung behandelt. Letzteres ist eine Frage der Bildung und beruht auf einem klaren Verständnis der Regressions- und ANCOVA-Modelle und genau dessen, was diese Koeffizienten darstellen.

In Bezug auf das erste Problem lässt sich leicht nachweisen, dass statistische Kontrollmethoden wirksam sind und gute Vorhersagen und Schätzungen der Auswirkungen für einzelne Variablen liefern, wenn alle Einflüsse auf eine abhängige Variable bekannt sind und in einem Modell enthalten sind. Das Problem in den "Soft Sciences" ist, dass alle relevanten Einflüsse selten einbezogen oder sogar bekannt sind und daher die Modelle schlecht spezifiziert und schwer zu interpretieren sind. In diesen Bereichen gibt es jedoch viele lohnende Probleme. Den Antworten fehlt einfach die Gewissheit. Das Schöne am wissenschaftlichen Prozess ist, dass er sich selbst korrigiert und Modelle hinterfragt, ausgearbeitet und verfeinert werden. Die Alternative besteht darin, vorzuschlagen, dass wir diese Probleme nicht wissenschaftlich untersuchen können, wenn wir keine Experimente entwerfen können.

Das zweite Problem ist ein technisches Problem in Form von ANCOVA- und Regressionsmodellen. Analysten müssen sich darüber im Klaren sein, was diese Koeffizienten und Tests darstellen. Korrelationen zwischen den unabhängigen Variablen beeinflussen Regressionskoeffizienten und ANCOVA-Tests. Sie sind Teiltests. Diese Modelle nehmen die Varianz in einer bestimmten unabhängigen Variablen und der abhängigen Variablen heraus, die allen anderen Variablen im Modell zugeordnet sind, und untersuchen dann die Beziehung in diesen Residuen. Infolgedessen sind die einzelnen Koeffizienten und Tests außerhalb des Kontextes eines klaren konzeptionellen Verständnisses des gesamten enthaltenen Variablensatzes und ihrer Wechselbeziehungen sehr schwer zu interpretieren. Dies führt jedoch zu KEINEN Problemen bei der Vorhersage - seien Sie nur vorsichtig bei der Interpretation bestimmter Tests und Koeffizienten.

Eine Randnotiz: Das letztere Problem bezieht sich auf ein Problem, das zuvor in diesem Forum zur Umkehrung von Regressionszeichen - z. B. von negativ zu positiv - erörtert wurde, wenn andere Prädiktoren in ein Modell eingeführt werden. Bei Vorhandensein korrelierter Prädiktoren und ohne ein klares Verständnis der vielfältigen und komplexen Beziehungen zwischen dem gesamten Satz von Prädiktoren gibt es keinen Grund, einen (von Natur aus partiellen) Regressionskoeffizienten mit einem bestimmten Vorzeichen zu ERWARTEN. Wenn es eine starke Theorie und ein klares Verständnis dieser Wechselbeziehungen gibt, können solche Vorzeichen "Umkehrungen" aufschlussreich und theoretisch nützlich sein. Angesichts der Komplexität vieler sozialwissenschaftlicher Probleme wäre ein ausreichendes Verständnis nicht üblich, würde ich erwarten.

Haftungsausschluss: Ich bin ausgebildeter Soziologe und Politologe.

Brett
quelle
2

Ich habe die erste Seite ihres Papiers gelesen und habe ihren Standpunkt vielleicht falsch verstanden, aber es scheint mir, dass sie im Grunde das Problem der Einbeziehung multikollinearer unabhängiger Variablen in die Analyse diskutieren. Das Beispiel, das sie für Alter und Klasse nehmen, veranschaulicht diese Idee, indem sie Folgendes angeben:

Das Alter ist so eng mit der Schulnote verbunden, dass die Beseitigung der mit dem Alter verbundenen Unterschiede in der Basketballfähigkeit erhebliche (möglicherweise fast alle) Unterschiede in der mit der Klasse verbundenen Basketballfähigkeit beseitigen würde

ANCOVA ist eine lineare Regression, wobei die Ebenen als Dummy-Variablen dargestellt werden und die Kovariaten auch als unabhängige Variablen in der Regressionsgleichung erscheinen. Wenn ich ihren Punkt nicht falsch verstanden habe (was durchaus möglich ist, da ich ihre Arbeit nicht vollständig gelesen habe), scheinen sie zu sagen, dass sie keine abhängigen Kovariaten einschließen, was der Angabe entspricht, multikollineare Variablen zu vermeiden.


quelle
Ihr Argument betrifft nicht korrelierte Variablen an sich, sondern Variablen, die praktisch untrennbar miteinander verbunden sind. Variablen, für die man fast sagen könnte: "Ohne das ist das bedeutungslos." Anstelle des statistisch bewertbaren Korrelationsgrades ist das Problem konzeptionell zu erarbeiten. Kann die Note ohne Alterserhöhung steigen? Kaum. Kann sich die Depression verstärken, ohne dass die Angst zunimmt? Das ist schwieriger.
Rolando2
1

Das (größte) Problem besteht darin, dass die Gruppenvariable (n) und die Kovariate (n) zusammen auf der Prädiktorseite der Gleichung liegen und die Gruppenvariable (n) nicht mehr die Gruppenvariable (n) sind Sind diese Variablen mit ausgeschiedener Kovariate nicht mehr als Gruppenvariablen erkennbar oder interpretierbar, von denen Sie dachten, dass Sie sie studieren? Riesiges Problem.

Die Schlüsselzeile befindet sich auf Seite 45. "ANCOVA entfernt bedeutsame Abweichungen von" Gruppe "und hinterlässt eine nicht charakterisierte, verbleibende Restgruppenvariable mit einer unsicheren Beziehung zu dem von dieser Gruppe dargestellten Konstrukt."

Meine derzeitige Lösung besteht darin, die Kovariate aus dem DV herauszuarbeiten und dann den DV-Rest als Alternative zur Verwendung von ANCOVA einer regulären ANOVA zu unterziehen.

Todd
quelle
2
Aber das ist das gleiche wie Ancova?!
0

Einige der von Gary King und Kollegen entwickelten Matching-Tools sehen vielversprechend aus:

Jeromy Anglim
quelle
2. Link ist nicht mehr aktuell.
Rolando2
Welches der vielen dort aufgeführten Software-Tools empfehlen Sie?
Rolando2