In den letzten Wochen habe ich über OVB (Omitted Variable Bias) im Zusammenhang mit Regression und Lösung dafür nachgedacht (wie man dieses Problem vermeidet). Ich kenne Shalizis Vorlesungen (2.2), aber er beschreibt dies nur mathematisch.
Diese Woche jemand gesagt , dass es ist ganz einfach - die Lösung für die OVB ist es, alle diese Prädiktoren enthalten , die die Wirkung der Verwechselung Kovariaten kontrollieren, nicht alle Prädiktoren für abhängige Variable Y .
Ich bin mir nicht sicher, ob dies wahr ist, und ja, ich habe das Gefühl, dass mir tieferes Wissen fehlt.
multiple-regression
bias
causality
Lil'Lobster
quelle
quelle
Antworten:
Dies ist nicht unbedingt falsch, aber nicht immer machbar und auch kein kostenloses Mittagessen.
Eine ausgelassene Variable kann zu Verzerrungen führen (siehe z. B. die Kommentare unten für zusätzliche Überlegungen zu diesem Thema), wenn beide (a) mit dem Ergebnis zusammenhängenY. und (b) mit dem Prädiktor korreliert X. deren Wirkung auf Y. Du bist hauptsächlich interessiert an.
Betrachten Sie ein Beispiel: Sie möchten mehr über die kausalen Auswirkungen zusätzlicher Schulbildung auf das spätere Einkommen erfahren. Eine andere Variable, die mit Sicherheit die Bedingungen (a) und (b) erfüllt, ist "Motivation" - motiviertere Menschen werden beide erfolgreicher in ihrer Arbeit sein (unabhängig davon, ob sie eine hohe Schulbildung haben oder nicht) und sich im Allgemeinen für mehr Bildung entscheiden, da Sie lernen wahrscheinlich gern und finden es nicht zu schmerzhaft, für Prüfungen zu lernen.
Wenn Sie also das Einkommen von hochschulischen und wenigerschulischen Mitarbeitern vergleichen, ohne die Motivation zu kontrollieren, würden Sie wahrscheinlich zumindest teilweise nicht zwei Gruppen vergleichen, die sich nur hinsichtlich ihrer Schulbildung (an deren Wirkung Sie interessiert sind), sondern auch hinsichtlich ihrer Schulbildung unterscheiden Motivation, so dass der beobachtete Unterschied im Einkommen nicht nur auf Unterschiede in der Schulbildung zurückzuführen ist.
Nun wäre es in der Tat eine Lösung, die Motivation zu kontrollieren, indem man sie in die Regression einbezieht. Das wahrscheinliche Problem ist natürlich: Werden Sie Daten zur Motivation haben? Selbst wenn Sie selbst eine Umfrage durchführen würden (anstatt beispielsweise Verwaltungsdaten zu verwenden, die höchstwahrscheinlich keine Einträge zur Motivation enthalten), wie würden Sie diese überhaupt messen?
Warum das Einschließen von allem kein kostenloses Mittagessen ist: Wenn Sie eine kleine Stichprobe haben, kann das Einbeziehen aller verfügbaren Kovariaten schnell zu einer Überanpassung führen, wenn Vorhersage Ihr Ziel ist. Siehe zum Beispiel diese sehr schöne Diskussion.
quelle
Ja, das ist richtig, wenn Sie genauer sind. Zu Identifikationszwecken sollten Sie die Variablen einbeziehen, die den Effekt der Verwirrung steuern, und diejenigen vermeiden, die verwirrende Pfade öffnen oder den Effekt vermitteln, den Sie messen möchten (wenn Sie an dem Gesamteffekt interessiert sind) - das heißt, Sie sollten einbeziehen die Variablen, die das Backdoor-Kriterium erfüllen . Sie sollten nicht alle Prädiktoren von wahllos einbeziehenY. , wenn Sie mit Prädiktor etwas meinen, was "vorhersagt" Y. --- Dies könnte Ihre Schätzung beeinflussen.
In diesem Sinne ist es erwähnenswert, dass Christophs Antwort nicht genau richtig ist:
Das ist nicht wahr. Korrelationskriterien sind weder notwendig noch ausreichend, um zu definieren, was ein Störfaktor ist. Dies ist ein weit verbreitetes Missverständnis bei der Definition von Störfaktoren, das in dieser anderen Antwort dargestellt wird.
Welche Variablen einbezogen werden müssen, um die Identifizierung zu gewährleisten, betrifft natürlich nur die Frage, ob konsistente Schätzungen der kausalen interessierenden Menge vorliegen. Sie müssen viele andere Probleme angehen, z. B. die Effizienz Ihrer Schätzung (Sie können also Variablen auswählen / vermeiden, die die Varianz verringern / erhöhen), Verzerrungen aufgrund einer falschen Angabe der Funktionsform usw.
quelle
Theoretisch eliminiert das Einbeziehen aller relevanten Prädiktoren die ausgelassene variable Vorspannung. Es ist jedoch möglicherweise nicht immer möglich, alle relevanten erklärenden Variablen in Ihre Regression einzubeziehen (aufgrund der Unkenntnis relevanter Variablen oder des Mangels an Daten).
In Bezug auf den Mangel an Wissen über die ausgelassene variable Verzerrung. Es gibt ein paar gute Vorträge über die OVB. Wenn Sie sich umschauen, könnte eine der umfassendsten Vorlesungen über die ausgelassene variable Verzerrung folgende sein:
https://economictheoryblog.com/2018/05/04/omitted-variable-bias
Es enthält auch einen Abschnitt, in dem mögliche Strategien gegen eine ausgelassene variable Verzerrung erörtert werden.
quelle
Carlos 'Antwort ist insofern gut, als sie einen großen Mangel in der Regressionsmodellierungspraxis behebt. Der Begriff OVB ist sehr ungenau. Außer unter atypischen mathematischen Strukturen, die Anpassung für andere Variablen wird die Wirkung verändern für einen primären Regressor geschätzt. Dies allein bedeutet nicht, dass alle diese Variablen in ein Modell aufgenommen werden sollten.
Das "Backdoor-Kriterium" befasst sich speziell mit verwirrenden Vorurteilen. Ein Expertenpublikum akzeptiert / glaubt im Allgemeinen keine Ergebnisse von Modellen, bei denen verwirrende Variablen bei der Anpassung weggelassen werden. Das hat gute Gründe. Ausgelassene Störfaktoren haben in großen Bestätigungsstudien zu völlig falschen Schlussfolgerungen geführt und außerdem zu Richtlinien, Arzneimittelindikationen oder Medienberichterstattung, die kostspielig und schädlich waren. Die bevorzugte Terminologie ist hier eher eine verwirrende Verzerrung als nur eine OVB. Dies gilt für alle Arten von Modellen, einschließlich der am weitesten verbreiteten linearen Regression.
Das zweithäufigste (vielleicht) Modell ist die logistische Regression. Es gibt eine andere Art von "Voreingenommenheit" (vielleicht), die sich aus logistischen Modellen ergibt, die nichts mit Verwirrung zu tun haben. Sie können den primären Effekt ändern, indem Sie Variablen anpassen, die nicht mit dem primären Regressor korreliert sind. Dies liegt an der Nichtkollabierbarkeit des Quotenverhältnisses . Dies tritt auf, wenn die primäre Exposition eine heterogene Verteilung von Kovariaten aufweist, die dem Basisrisiko des Ergebnisses zugrunde liegen. Die Steigung des Sigmoid, die die "gemittelte" Akkumulation des Risikos pro Einheitsdifferenz in einem primären Regressor schätzt, wird abgeschwächt. Diese Art von Verzerrung tritt auf, wenn das Ziel der Inferenz eher das Risiko auf individueller Ebene als das gemittelte Bevölkerungsniveau war.
Im Allgemeinen wird den Modellierern empfohlen, prognostische Variablen oder Variablen anzupassen , die, obwohl sie nicht mit dem primären Regressor zusammenhängen, das Ergebnis kausal vorhersagen. Beispiele könnten in einer Studie über Lungenkrebs und Rauchen sein, Gruppen von Teilnehmern durch Umweltverschmutzung. Nehmen wir im Moment an, dass keine Beweise darauf hindeuten, dass Unterschiede in der Regionalität die Backdoor-Kriterien erfüllen, um die Beziehung zwischen Rauchen und Krebs zu verwechseln. Der Unterschied im Risiko für diese Umweltexposition sagt jedoch im Wesentlichen das Risiko für Lungenkrebs voraus. Die Anpassung an die Umweltexposition schichtet diese Teilnehmer feiner, so dass die offensichtlichen Unterschiede zwischen Rauchen und Nichtrauchen sowie das Krebsrisiko offensichtlich sind.
Eine sehr schöne Beschreibung des Unterschieds finden Sie hier: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3147074/pdf/dyr041.pdf
quelle