Hier ist der Artikel, der diese Frage motiviert hat: Macht uns Ungeduld dick?
Mir hat dieser Artikel gefallen und er zeigt sehr gut das Konzept des „Kontrollierens für andere Variablen“ (IQ, Karriere, Einkommen, Alter usw.), um die wahre Beziehung zwischen den beiden fraglichen Variablen am besten zu isolieren.
Können Sie mir erklären, wie Sie für Variablen in einem typischen Datensatz tatsächlich steuern?
Wenn Sie beispielsweise zwei Personen mit der gleichen Ungeduld und dem gleichen BMI, aber unterschiedlichen Einkommen haben, wie gehen Sie mit diesen Daten um? Kategorisieren Sie sie in verschiedene Untergruppen mit ähnlichem Einkommen, Geduld und BMI? Aber irgendwann gibt es Dutzende von Variablen, die kontrolliert werden müssen (IQ, Karriere, Einkommen, Alter usw.). Wie aggregieren Sie dann diese (potenziellen) Hunderte von Untergruppen? Tatsächlich habe ich das Gefühl, dass dieser Ansatz den falschen Baum anstachelt, jetzt, wo ich ihn verbalisiert habe.
Vielen Dank, dass Sie etwas beleuchtet haben, das ich seit einigen Jahren erforschen möchte ...!
Antworten:
Es gibt viele Möglichkeiten, Variablen zu steuern.
Am einfachsten ist es, Ihre Daten so zu schichten, dass Sie Untergruppen mit ähnlichen Merkmalen haben. Sie können diese Ergebnisse dann zusammenfassen, um eine einzige "Antwort" zu erhalten. Dies funktioniert, wenn Sie eine sehr kleine Anzahl von Variablen haben, die Sie steuern möchten, aber wie Sie zu Recht festgestellt haben, fällt dies schnell auseinander, wenn Sie Ihre Daten in immer kleinere Abschnitte aufteilen.
Ein gängigerer Ansatz besteht darin, die zu steuernden Variablen in ein Regressionsmodell einzubeziehen. Wenn Sie beispielsweise ein Regressionsmodell haben, das konzeptionell wie folgt beschrieben werden kann:
Die Schätzung, die Sie für Ungeduld erhalten, ist die Auswirkung von Ungeduld innerhalb der Ebenen der anderen Kovariaten. Mit der Regression können Sie im Wesentlichen Bereiche glätten, in denen Sie nicht über viele Daten verfügen (das Problem mit dem Schichtungsansatz). Dies sollte jedoch getan werden mit Vorsicht.
Es gibt noch ausgefeiltere Möglichkeiten, andere Variablen zu steuern. Wenn jedoch jemand sagt, dass andere Variablen gesteuert werden, bedeutet dies, dass sie in ein Regressionsmodell einbezogen wurden.
Okay, Sie haben nach einem Beispiel gefragt, an dem Sie arbeiten können, um zu sehen, wie das geht. Ich werde Sie Schritt für Schritt begleiten. Alles was Sie brauchen ist eine Kopie von R installiert.
Zunächst benötigen wir einige Daten. Schneiden Sie die folgenden Codestücke aus und fügen Sie sie in R ein. Beachten Sie, dass dies ein Beispiel ist, das ich vor Ort erfunden habe, aber es zeigt den Prozess.
Das sind deine Daten. Beachten Sie, dass wir die Beziehung zwischen dem Ergebnis, der Exposition und der Kovariate bereits kennen - das ist der Punkt vieler Simulationsstudien (von denen dies ein äußerst grundlegendes Beispiel ist. Sie beginnen mit einer Struktur, die Sie kennen, und Sie stellen sicher, dass Ihre Methode dies kann bekommst du die richtige Antwort.
Nun also zum Regressionsmodell. Geben Sie Folgendes ein:
Haben Sie einen Intercept = 2.0 und einen Exposure = 0.6766 erhalten? Oder etwas in der Nähe, wenn die Daten zufällig variieren? Gut - diese Antwort ist falsch. Wir wissen, dass es falsch ist. Warum ist es falsch? Es ist uns nicht gelungen, eine Variable zu bestimmen, die sich auf das Ergebnis und die Belichtung auswirkt. Es ist eine binäre Variable, machen Sie es nach Belieben - Geschlecht, Raucher / Nichtraucher usw.
Führen Sie nun dieses Modell aus:
Dieses Mal sollten Sie Koeffizienten von Intercept = 2.00, Exposition = 0.50 und eine Kovariate von 0.25 erhalten. Dies ist bekanntlich die richtige Antwort. Sie haben für andere Variablen gesteuert.
Was passiert nun, wenn wir nicht wissen, ob wir uns um alle Variablen gekümmert haben, die wir brauchen (was wir nie wirklich tun)? Dies wird als Residuum Confounding bezeichnet und ist in den meisten Beobachtungsstudien ein Problem, das wir nur unvollkommen kontrolliert haben, und unsere Antwort ist zwar nah rechts, aber nicht genau. Hilft das mehr?
quelle
Einführung
Ich mag die Antwort von @ EpiGrad (+1), aber lassen Sie mich eine andere Perspektive einnehmen. Im Folgenden beziehe ich mich auf dieses PDF-Dokument: "Multiple Regression Analysis: Estimation" , das einen Abschnitt zu "A 'Partialling Out' Interpretation der multiplen Regression" (S. 83f.) Enthält. Leider habe ich keine Ahnung, wer der Autor dieses Kapitels ist, und ich werde es als REGCHAPTER bezeichnen. Eine ähnliche Erklärung finden Sie in Kohler / Kreuter (2009) "Datenanalyse mit Stata" , Kapitel 8.2.3 "Was bedeutet" unter Kontrolle "?".
Ich werde @ EpiGrads Beispiel verwenden, um diesen Ansatz zu erläutern. R-Code und Ergebnisse finden Sie im Anhang.
Es ist auch zu beachten, dass "Steuerung für andere Variablen" nur dann Sinn macht, wenn die erklärenden Variablen mäßig korreliert sind (Kollinearität). In dem oben erwähnten Beispiel beträgt die Produkt-Moment-Korrelation zwischen
exposure
undcovariate
0,50, dhRückstände
Ich gehe davon aus, dass Sie ein grundlegendes Verständnis des Konzepts der Residuen in der Regressionsanalyse haben. Hier die Wikipedia-Erklärung : "Wenn man auf einige Daten eine Regression ausführt, dann sind die Abweichungen der abhängigen Variablenbeobachtungen von der angepassten Funktion die Residuen."
Was bedeutet "unter Kontrolle"?
Wenn Sie die Variable steuern
covariate
, kann der Effekt (Regressionsgewicht) vonexposure
onoutcome
wie folgt beschrieben werden (ich bin schlampig und überspringe die meisten Indizes und alle Hüte. Beziehen Sie sich für eine genaue Beschreibung auf den oben genannten Text):exposure
aufcovariate
, das heißt,Die "Residuen [..] sind der Teil von , der nicht mit . [...] Somit misst die Stichprobenbeziehung zwischen und nachdem ist teilweise ausgeschlossen "(REGKAPITEL 84). "Ausgeschlossen" bedeutet "kontrolliert für". x i 2 β 1 y x 1 x 2Xich 1 Xi 2 β^1 y X1 X2
Ich werde diese Idee anhand der Beispieldaten von @ EpiGrad demonstrieren. Zuerst werde ich Regress
exposure
aufcovariate
. Da mich nur die Residuen interessierenlmEC.resid
, lasse ich die Ausgabe aus.Der nächste Schritt ist die Regression
outcome
dieser Residuen (lmEC.resid
):Wie Sie sehen, ist das Regressionsgewicht fürβl m EC. r e s i d= 0,50 0,50
lmEC.resid
(siehe Spalte Schätzung, ) in dieser einfachen Regression gleich dem multiplen Regressionsgewicht für , das ebenfalls (siehe @ EpiGrads Antwort oder die R-Ausgabe) unten).0,50covariate
Blinddarm
R-Code
R Ausgang
quelle
Natürlich wird etwas Mathe dabei sein, aber es ist nicht viel: Euklid hätte es gut verstanden. Alles, was Sie wirklich wissen müssen, ist das Hinzufügen und Skalieren von Vektoren. Obwohl dies heutzutage unter dem Namen "lineare Algebra" bekannt ist, müssen Sie es nur in zwei Dimensionen visualisieren. Dadurch können wir die Matrixmaschinerie der linearen Algebra umgehen und uns auf die Konzepte konzentrieren.
Eine geometrische Geschichte
y ≤ 1 α x 1 x 1y y⋅ 1 α x1 X1 α α β γ
Betrachten Sie nun die Ebene mit den beiden Residuen und . Ich werde das Bild ausrichten, um horizontal zu machen, genauso wie ich die vorherigen Bilder ausrichtete , um horizontal zu machen , da dieses Mal die Rolle des Matchers spielt: x 2 ≤ 1 x 2 ≤ 1 x 1 x 2 ≤ 1y⋅ 1 X2 ⋅ 1 X2 ⋅ 1 X1 X2 ⋅ 1
Beachten Sie, dass in jedem der drei Fälle der Rest senkrecht zur Übereinstimmung ist. (Wenn dies nicht der Fall wäre, könnten wir die Übereinstimmung anpassen, um sie noch näher an , oder .)x 2 y ⋅ 1y X2 y⋅ 1
y ≤ 1X2 ⋅ 1 y⋅ 1 X1 y⋅ 1 X1 γX2 ⋅ 1 y⋅ 12 X1
(Wenn es zusätzliche Vektoren gibt, würden wir diesen "take out a matcher" -Prozess fortsetzen, bis jeder dieser Vektoren an der Reihe gewesen wäre, der Matcher zu sein. In jedem Fall wären die Operationen die gleichen wie hier gezeigt und würden immer in einem auftreten Flugzeug .)
Anwendung auf multiple Regression
Das Matching kann nacheinander und nacheinander erfolgen
Die Reihenfolge, in der der Abgleich durchgeführt wird, spielt keine Rolle.
Der Vorgang des "Herausnehmens" eines Matchers durch Ersetzen aller anderen Vektoren durch ihre Residuen wird häufig als "Steuern" des Matchers bezeichnet. Wie wir in den Figuren gesehen haben, nehmen alle nachfolgenden Berechnungen Anpassungen vor, die senkrecht zu diesem Matcher sind, sobald ein Matcher kontrolliert wurde. Wenn Sie möchten, können Sie sich "Controlling" als "Abrechnung (im kleinsten Quadrat) des Beitrags / Einflusses / Effekts / der Zuordnung eines Matchers zu allen anderen Variablen" vorstellen.
Verweise
Sie können dies alles in Aktion mit Daten und Arbeitscode in der Antwort unter https://stats.stackexchange.com/a/46508 sehen . Diese Antwort könnte eher für Leute interessant sein, die lieber rechnen als Flugzeugbilder. (Die Arithmetik zum Anpassen der Koeffizienten, wenn Matcher nacheinander eingegeben werden, ist dennoch unkompliziert.) Die Sprache des Matchings stammt von Fred Mosteller und John Tukey.
quelle
Bisher gibt es eine ausgezeichnete Diskussion über die kovariate Anpassung als Mittel zum "Kontrollieren für andere Variablen". Aber ich denke, das ist nur ein Teil der Geschichte. Tatsächlich gibt es viele (andere) auf Design, Modell und maschinellem Lernen basierende Strategien, um die Auswirkungen einer Reihe möglicher Störgrößen zu berücksichtigen. Dies ist eine kurze Übersicht über einige der wichtigsten (nicht angepassten) Themen. Während Anpassung das am häufigsten verwendete Mittel zum "Kontrollieren" anderer Variablen ist, sollte ein guter Statistiker meiner Meinung nach verstehen, was er im Kontext anderer Prozesse und Verfahren tut (und was nicht).
Passend:
Matching ist eine Methode zum Entwerfen einer gepaarten Analyse, bei der Beobachtungen in Zweiergruppen gruppiert werden, die sich ansonsten in ihren wichtigsten Aspekten ähneln. Sie können zum Beispiel zwei Personen befragen, die in Bezug auf Bildung, Einkommen, Berufstätigkeit, Alter, Familienstand (usw. usw.) nicht übereinstimmen, aber in Bezug auf ihre Ungeduld nicht übereinstimmen. Bei binären Belichtungen reicht der einfache Paired-T-Test aus, um auf einen mittleren Unterschied in der BMI- Steuerung für alle übereinstimmenden Merkmale zu testen . Wenn Sie eine kontinuierliche Belichtung modellieren, wäre ein analoges Maß ein Regressionsmodell durch den Ursprung für die Differenzen. Siehe Carlin 2005
Gewichtung
Randomisierung und Quasirandomisierung
Es ist ein subtiler Punkt, aber wenn Sie tatsächlich in der Lage sind, Menschen zu einer bestimmten experimentellen Bedingung zu randomisieren, wird der Einfluss anderer Variablen gemindert. Es ist eine bemerkenswert stärkere Bedingung, da Sie nicht einmal wissen müssen, was diese anderen Variablen sind. In diesem Sinne haben Sie ihren Einfluss "kontrolliert". Dies ist in der Beobachtungsforschung nicht möglich, es stellt sich jedoch heraus, dass die Propensity-Score-Methoden ein einfaches probabilistisches Maß für die Exposition darstellen, mit dem die Teilnehmer gewichtet, angepasst oder abgeglichen werden können, so dass sie auf die gleiche Weise wie eine quasi-randomisierte Studie analysiert werden können . Siehe Rosenbaum, Rubin 1983 .
Mikrosimulation
Eine andere Möglichkeit, Daten zu simulieren, die möglicherweise aus einer randomisierten Studie stammen, ist die Durchführung einer Mikrosimulation. Hier kann man sich auf größere und komplexere Modelle konzentrieren, die dem maschinellen Lernen ähneln. Ein Begriff, den Judea Pearl für mich geprägt hat, ist " Oracle Models ": komplexe Netzwerke, die Vorhersagen und Prognosen für eine Reihe von Funktionen und Ergebnissen erstellen können. Es hat sich herausgestellt, dass die Informationen eines solchen Orakelmodells "heruntergeklappt" werden können, um die Ergebnisse in einer ausgewogenen Kohorte von Personen zu simulieren, die eine randomisierte Kohorte repräsentieren, in ihrer "Kontrollvariablen" -Verteilung ausgewogen sind und einfache T-Test-Routinen zur Bewertung der Ergebnisse verwenden Größe und Genauigkeit möglicher Unterschiede. Siehe Rutter, Zaslavsky und Feuer 2012
Matching, Gewichtung und Kovariatenanpassung in einem Regressionsmodell schätzen alle die gleichen Assoziationen, und daher kann von allen behauptet werden, dass sie Methoden zur "Steuerung" anderer Variablen sind .
quelle
quelle