Was können wir über Modelle zu Beobachtungsdaten ohne Instrumente sagen?

10

In der Vergangenheit wurden mir einige Fragen zu veröffentlichten Artikeln in einer Reihe von Bereichen gestellt, in denen Regressionen (und verwandte Modelle wie Panelmodelle oder GLMs) für Beobachtungsdaten verwendet werden (dh Daten, die nicht durch kontrollierte Experimente erzeugt wurden in vielen Fällen - aber nicht immer - Daten, die im Laufe der Zeit beobachtet wurden), aber kein Versuch unternommen wird, instrumentelle Variablen einzuführen.

Ich habe als Antwort eine Reihe von Kritikpunkten geäußert (z. B. die Beschreibung von Problemen mit Voreingenommenheit, wenn wichtige Variablen fehlen könnten), aber da andere Leute hier zweifellos weitaus besser über dieses Thema informiert sind als ich, dachte ich, ich würde fragen:

  1. Was sind die Hauptprobleme / Konsequenzen des Versuchs, in solchen Situationen zu Schlussfolgerungen über Beziehungen zu gelangen (insbesondere, aber nicht beschränkt auf kausale Schlussfolgerungen)?

  2. Kann mit Studien, die ohne Instrumente zu solchen Modellen passen, etwas Nützliches getan werden?

  3. Was sind einige gute Referenzen (Bücher oder Papiere) zu den Themen mit einer solchen Modellierung (vorzugsweise mit klarer nichttechnischer Motivation der Konsequenzen, da die Fragesteller normalerweise unterschiedliche Hintergründe haben, einige ohne viele Statistiken), auf die sich die Leute bei der Kritik beziehen könnten ein Papier? Die Diskussion von Vorsichtsmaßnahmen / Problemen mit Instrumenten wäre ebenfalls nützlich.

(Grundlegende Verweise auf instrumentelle Variablen finden Sie hier . Wenn Sie dort jedoch etwas hinzufügen müssen, wäre dies ebenfalls hilfreich.)

Hinweise auf gute praktische Beispiele für das Finden und Verwenden von Instrumenten wären ein Bonus, stehen jedoch nicht im Mittelpunkt dieser Frage.

[Ich werde wahrscheinlich andere auf gute Antworten hinweisen, wenn solche Fragen zu mir kommen. Ich kann ein oder zwei Beispiele hinzufügen, sobald ich sie bekomme.]

Glen_b - Monica neu starten
quelle

Antworten:

8

Die überwiegende Mehrheit meines Fachgebiets (obwohl nicht der Teil, in dem ich am meisten arbeite) befasst sich mit genau diesem Thema - der Anpassung von GLM-Modellen an Beobachtungsdaten. Instrumentelle Variablen sind größtenteils eine Seltenheit, entweder aufgrund mangelnder Vertrautheit mit der Technik oder, was noch wichtiger ist, aufgrund des Fehlens eines guten Instruments. So beantworten Sie Ihre Fragen in der Reihenfolge:

  1. Das Hauptproblem ist natürlich eine Art Restverwirrung durch eine nicht beobachtete Variable, die sowohl mit der Exposition als auch mit dem Ergebnis des Interesses verbunden ist. Die Klartextversion ist, dass Ihre Antwort möglicherweise falsch ist, Sie aber nicht unbedingt wissen, wie oder warum. Entscheidungen, die über diese Informationen getroffen werden (z. B. ob eine bestimmte Behandlung angewendet werden soll oder nicht, ob X-Objekte in der Umgebung gefährlich sind usw.), sind Entscheidungen, die mit den falschen Informationen getroffen werden.

  2. Ich würde behaupten, dass die Antwort darauf ja lautet, weil diese Studien größtenteils versuchen, zu etwas zu gelangen, bei dem es nicht unbedingt ein gutes Instrument gibt oder bei dem eine Randomisierung unmöglich ist. Wenn es darum geht, ist die Alternative "Nur raten". Diese Modelle sind nicht zuletzt eine Formalisierung unserer Gedanken und ein solider Versuch, der Antwort nahe zu kommen, und sie sind leichter zu handhaben.

Sie können beispielsweise fragen, wie ernst die Verzerrung sein müsste, um Ihre Antwort qualitativ zu ändern (dh "Ja, X ist schlecht für Sie ..."), und beurteilen, ob Sie der Meinung sind, dass es vernünftig ist, dass ein unbekannter Faktor vorliegt oder nicht dieser Stärke lauert außerhalb Ihrer Daten.

Zum Beispiel ist der Befund, dass eine HPV-Infektion extrem stark mit Gebärmutterhalskrebs assoziiert ist, ein wichtiger Befund, und die Stärke eines nicht gemessenen Faktors, der die Tendenz bis zur Null beeinflussen würde, müsste erstaunlich stark sein.

Darüber hinaus sollte beachtet werden, dass ein Instrument dies nicht behebt - es funktioniert auch nur ohne einige nicht gemessene Assoziationen, und selbst randomisierte Studien leiden unter Problemen (unterschiedlicher Ausfall zwischen Behandlung und Kontrollen, Verhaltensänderungen nach der Randomisierung, Generalisierbarkeit auf die tatsächliche Zielgruppe), die auch ein wenig beschönigt werden.

  1. Rothman, Greenland und Lash haben die neueste Ausgabe von Modern Epidemiology geschrieben, die im Wesentlichen ein Buch ist, das sich dem Versuch widmet, dies bestmöglich zu tun.
Fomite
quelle
8

Im Gegensatz zu der Ansicht von Fomite aus epidemiologischer Sicht sind instrumentelle Variablen ein wesentliches Instrumentarium in der Wirtschaft, das relativ früh gelehrt wird. Der Grund dafür ist, dass heutzutage ein großer Schwerpunkt auf dem Versuch liegt, kausale Fragen in der Wirtschaftsforschung zu beantworten, was zu einem Ausmaß führt, in dem bloße Korrelationen sogar als uninteressant angesehen werden. Die Hauptbeschränkung besteht darin, dass die Wirtschaft ein Bereich ist, in dem es von Natur aus schwierig ist, randomisierte Experimente durchzuführen. Wenn ich wissen möchte, wie sich ein früher elterlicher Tod auf die langfristigen Bildungsergebnisse eines Kindes auswirkt, würden die meisten Menschen dies über einen zufälligen Kontrollpfad ablehnen - und das zu Recht. In diesem Handzettel aus einem MIT-Kurs wird auf Seite 3-5 erläutert, welche anderen Probleme bei Experimenten auftreten.

Um jeden Punkt der Reihe nach anzusprechen:

  1. Abhängig von der zu beantwortenden Frage sind es nicht nur ausgelassene Variablen, die Analysen von Beobachtungsdaten ohne den Einsatz nicht experimenteller Methoden ungültig machen können. Auswahlprobleme, Messfehler, umgekehrte Kausalität oder Gleichzeitigkeit können gleichermaßen wichtig sein. Das Haupt Problem ist , dass der Datenanalyst bewusst die Grenzen dieser Einstellung sein muss. Dies bezieht sich hauptsächlich auf den Business Case, da dies in einem akademischen Szenario schnell aufgedeckt würde. Manchmal sehe ich Marktanalysten, die eine Preiselastizität schätzen möchten, um einen Kunden zu informieren (z. B. um wie viel sinkt die Nachfrage, wenn wir die Preise um erhöhenx%), also schätzen sie eine Nachfragegleichung und vergessen oder ignorieren völlig die Tatsache, dass Angebot und Nachfrage gleichzeitig bestimmt werden und dass eines das andere beeinflusst. Die Konsequenzen hängen also viel mehr vom Bewusstsein des Forschers / Datenanalysten in Bezug auf die Einschränkungen der Daten ab als von den Daten selbst, aber die daraus resultierenden Konsequenzen können von etwas Trivialem bis zu einem Ausmaß reichen, in dem sie das Leben der Menschen negativ beeinflussen.

  2. DiSie können den Effekt dieser Behandlung berechnen, dasselbe für die nicht beobachtbaren Objekte tun und fragen, wie groß die Verschiebung der nicht beobachtbaren Objekte sein muss, um den beobachteten Behandlungseffekt zu erklären. Wenn die unbeobachtete Verschiebung sehr groß sein muss, können wir unseren Ergebnissen etwas vertrauensvoller gegenüberstehen. Die Referenz hierfür ist Altonji, Elder und Taber (2000) .
  3. Wahrscheinlich würde jeder angewandte Ökonom Angrist und Pischke (2009) "Mostly Harmless Econometrics" empfehlen . Obwohl dieses Buch hauptsächlich für Doktoranden und Forscher gedacht ist, ist es möglich, die mathematischen Teile davon zu überspringen und nur die Intuition zu erhalten, die auch gut erklärt wird. Sie führen zunächst die Idee einer experimentellen Umgebung ein, tendieren dann zu OLS und seinen Einschränkungen in Bezug auf Endogenität aus ausgelassenen Variablen, Gleichzeitigkeit, Auswahl usw. und diskutieren dann ausführlich instrumentelle Variablen mit einem guten Anteil von Beispielen aus der angewandten Literatur. Sie diskutieren auch Probleme mit instrumentellen Variablen wie schwachen Instrumenten oder der Verwendung zu vieler von ihnen. Angrist und Krueger (2001) Sie bieten auch einen nicht-technischen Überblick über instrumentelle Variablen und mögliche Fallstricke. Außerdem verfügen sie über eine Tabelle, in der mehrere Studien und ihre Instrumente zusammengefasst sind.

Wahrscheinlich war das alles viel länger als eine typische Antwort hier sein sollte, aber die Frage ist sehr weit gefasst. Ich möchte nur betonen, dass instrumentelle Variablen (die oft schwer zu finden sind) nicht die einzige Kugel in unserer Tasche sind. Es gibt andere nicht experimentelle Methoden, um kausale Effekte aus Beobachtungsdaten aufzudecken, wie z. B. Differenzunterschiede, Regressionsdiskontinuitätsdesigns, Matching oder Regression mit festen Effekten (wenn unsere Confounder zeitinvariant sind). All dies wird in Angrist und Pischke (2009) und in dem am Anfang verlinkten Handout besprochen.

Andy
quelle