Ich habe eine philosophische Frage bezüglich der ausgelassenen variablen Verzerrung.
Wir haben das typische Regressionsmodell (Populationsmodell) dem die Stichproben stammen , und dann eine Reihe von Bedingungen, unter denen sich die OLS-Schätzungen recht gut verhalten.
Dann wissen wir, dass, wenn wir eine der , dies die Schätzungen von . Dies würde zumindest die geschätzte Auswirkung der übrigen Variablen auf und auch die Hypothesentests zu , da die vorhergesagten Werte nicht zuverlässig sind.
Die Sache ist, wir wissen nicht, welche Variablen im wahren Populationsmodell sind. Stattdessen haben wir eine Reihe von Kandidaten, aus denen wir die am besten geeignete Teilmenge analysieren und herausfinden sollten. Bei diesem Prozess der Variablenauswahl werden erneut OLS-Schätzungen und Hypothesentests verwendet. Auf dieser Grundlage lehnen wir verschiedene Variablen ab oder schließen sie ein. Aber da jedes Kandidatenmodell relevante Variablen weglässt (Sie werden nie das wahre Modell finden können), würden diese Entscheidungen nicht auf voreingenommenen Ergebnissen basieren? Warum sollten wir ihnen dann vertrauen?
(Ich denke zum Beispiel an eine schrittweise Vorwärtsmethode, bei der Sie eine Variable auswählen und dann den Rest hinzufügen. Sie vergleichen die Modelle, die Inferenz durchführen, und ich denke, dass ausgelassene Variablen alles stören können.)
Ich war nie zu besorgt über dieses Thema, bis ich anfing darüber nachzudenken, und ich bin sicher, dass ich irgendwo falsch liege.
quelle
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
ist das wirklich das, was du meinst oder getan hast, ein Teil deines Satzes wird abgeschnitten. Sie haben auch einen Rechtschreibfehler im Titel der Frage.Antworten:
Das Hauptproblem hierbei ist die Art der ausgelassenen variablen Vorspannung . Wikipedia sagt:
Es ist wichtig, das zweite Kriterium sorgfältig zu beachten. Ihre Betas sind nur unter bestimmten Umständen voreingenommen. Insbesondere wenn zwei Variablen zu der Antwort beitragen, die miteinander korreliert sind, Sie jedoch nur eine davon einbeziehen, werden (im Wesentlichen) die Auswirkungen beider Variablen der enthaltenen Variablen zugeordnet, was zu einer Verzerrung bei der Schätzung von führt dieser Parameter. Vielleicht sind nur einige Ihrer Betas voreingenommen, nicht unbedingt alle.
Angesichts der Tatsache, dass in seinem Gleichgewichtszustand letztendlich alles mit allem auf der Welt korreliert, könnte dies alles sehr beunruhigend sein. In der Tat ist es bei Beobachtungsforschung immer am besten anzunehmen, dass jede Variable endogen ist .
Diesem sind jedoch Grenzen gesetzt (vgl. Cornfields Ungleichung ). Erstens unterbricht die Durchführung echter Experimente die Korrelation zwischen einer Fokusvariablen (der Behandlung) und anderen ansonsten relevanten, aber nicht beobachteten erklärenden Variablen. Es gibt einige statistische Techniken, die mit Beobachtungsdaten verwendet werden können, um solche unbeobachteten Verwirrungen zu berücksichtigen (prototypisch: Regression instrumenteller Variablen , aber auch andere).
Wenn man diese Möglichkeiten beiseite lässt (sie stellen wahrscheinlich eine Minderheit der Modellierungsansätze dar), wie sieht die langfristige Perspektive für die Wissenschaft aus? Dies hängt von der Größe der Verzerrung und dem Umfang der explorativen Forschung ab, die durchgeführt wird. Selbst wenn die Zahlen etwas abweichen, befinden sie sich häufig in der Nachbarschaft und sind so eng, dass Beziehungen entdeckt werden können. Auf lange Sicht können Forscher dann klarer werden, welche Variablen relevant sind. In der Tat tauschen Modellierer manchmal explizit eine erhöhte Verzerrung gegen eine verringerte Varianz in den Stichprobenverteilungen ihrer Parameter aus (vgl. Meine Antwort hier ). Kurzfristig lohnt es sich, sich immer an das berühmte Zitat aus Box zu erinnern :
quelle