Ausgelassene variable Verzerrung bei linearer Regression

Ich habe eine philosophische Frage bezüglich der ausgelassenen variablen Verzerrung.

Wir haben das typische Regressionsmodell (Populationsmodell) dem die Stichproben stammen , und dann eine Reihe von Bedingungen, unter denen sich die OLS-Schätzungen recht gut verhalten.

Y = β_{0} + β_{1} X_{1} + . . . + β_{n} X_{n} + υ,

$Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon,$

(Y, X_{1}, . . ., X_{n})

$(Y,X_1,...,X_n)$

Dann wissen wir, dass, wenn wir eine der , dies die Schätzungen von . Dies würde zumindest die geschätzte Auswirkung der übrigen Variablen auf und auch die Hypothesentests zu , da die vorhergesagten Werte nicht zuverlässig sind. $X_k$ $\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_n$ $Y$ $\beta_1, \beta_2, ...$

Die Sache ist, wir wissen nicht, welche Variablen im wahren Populationsmodell sind. Stattdessen haben wir eine Reihe von Kandidaten, aus denen wir die am besten geeignete Teilmenge analysieren und herausfinden sollten. Bei diesem Prozess der Variablenauswahl werden erneut OLS-Schätzungen und Hypothesentests verwendet. Auf dieser Grundlage lehnen wir verschiedene Variablen ab oder schließen sie ein. Aber da jedes Kandidatenmodell relevante Variablen weglässt (Sie werden nie das wahre Modell finden können), würden diese Entscheidungen nicht auf voreingenommenen Ergebnissen basieren? Warum sollten wir ihnen dann vertrauen?

(Ich denke zum Beispiel an eine schrittweise Vorwärtsmethode, bei der Sie eine Variable auswählen und dann den Rest hinzufügen. Sie vergleichen die Modelle, die Inferenz durchführen, und ich denke, dass ausgelassene Variablen alles stören können.)

Ich war nie zu besorgt über dieses Thema, bis ich anfing darüber nachzudenken, und ich bin sicher, dass ich irgendwo falsch liege.

regression model-selection assumptions bias Josu Momediano
quelle

In dem Teil samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.ist das wirklich das, was du meinst oder getan hast, ein Teil deines Satzes wird abgeschnitten. Sie haben auch einen Rechtschreibfehler im Titel der Frage.

Andy W

Ja, das habe ich gemeint. Sie haben die Stichprobe / Beobachtungen und dann die Bedingungen (Gauss-Markov), die garantieren, dass die Schätzer die besten unbefangenen usw. sind

Josu Momediano

Nebenbei bemerkt, es ist sehr unwahrscheinlich, dass schrittweise Auswahlmethoden (z. B. schrittweise vorwärts) das Modell auswählen, das Sie verwenden sollten. Wenn dies keinen Sinn ergibt, können Sie meine Antwort hier lesen: Algorithmen für die automatische Modellauswahl .

Gung - Reinstate Monica

Aber unabhängig von der Methode, die Sie verwenden (einschließlich Fachwissen), beginnen Sie bei 0 und haben zu 100% das Problem, über das ich

spreche

Sie haben Recht, besorgt zu sein. Viele Schlussfolgerungen basieren auf der Annahme, dass wir das wahre Modell haben. Ich habe lange Zeit Regressionen durchgeführt und ich hatte nie das wahre Modell. Für meine Zwecke ist es selten sinnvoll zu glauben, dass es ein echtes Modell gibt. Fragen Sie sich stattdessen, welche Ziele Ihre Modellierung verfolgt (Vorhersage in der Stichprobe, Vorhersage außerhalb der Stichprobe, Schätzung des durchschnittlichen kausalen Effekts von x3, Datenzusammenfassung usw.), da Ihre Ziele angeben, welche Modellierungsstrategien am besten geeignet sind.

Michael Bishop

Antworten:

Das Hauptproblem hierbei ist die Art der ausgelassenen variablen Vorspannung . Wikipedia sagt:

Zwei Bedingungen müssen zutreffen, damit eine Verzerrung mit ausgelassenen Variablen in der linearen Regression existiert:

Die ausgelassene Variable muss eine Determinante der abhängigen Variablen sein (dh ihr wahrer Regressionskoeffizient ist nicht Null). und

Die ausgelassene Variable muss mit einer oder mehreren der enthaltenen unabhängigen Variablen korreliert sein (dh cov (z, x) ist ungleich Null).

Es ist wichtig, das zweite Kriterium sorgfältig zu beachten. Ihre Betas sind nur unter bestimmten Umständen voreingenommen. Insbesondere wenn zwei Variablen zu der Antwort beitragen, die miteinander korreliert sind, Sie jedoch nur eine davon einbeziehen, werden (im Wesentlichen) die Auswirkungen beider Variablen der enthaltenen Variablen zugeordnet, was zu einer Verzerrung bei der Schätzung von führt dieser Parameter. Vielleicht sind nur einige Ihrer Betas voreingenommen, nicht unbedingt alle.

$Z$ $Z$ $Z$ $Z$ $Z$ $Z$

Angesichts der Tatsache, dass in seinem Gleichgewichtszustand letztendlich alles mit allem auf der Welt korreliert, könnte dies alles sehr beunruhigend sein. In der Tat ist es bei Beobachtungsforschung immer am besten anzunehmen, dass jede Variable endogen ist .

Diesem sind jedoch Grenzen gesetzt (vgl. Cornfields Ungleichung ). Erstens unterbricht die Durchführung echter Experimente die Korrelation zwischen einer Fokusvariablen (der Behandlung) und anderen ansonsten relevanten, aber nicht beobachteten erklärenden Variablen. Es gibt einige statistische Techniken, die mit Beobachtungsdaten verwendet werden können, um solche unbeobachteten Verwirrungen zu berücksichtigen (prototypisch: Regression instrumenteller Variablen , aber auch andere).

Wenn man diese Möglichkeiten beiseite lässt (sie stellen wahrscheinlich eine Minderheit der Modellierungsansätze dar), wie sieht die langfristige Perspektive für die Wissenschaft aus? Dies hängt von der Größe der Verzerrung und dem Umfang der explorativen Forschung ab, die durchgeführt wird. Selbst wenn die Zahlen etwas abweichen, befinden sie sich häufig in der Nachbarschaft und sind so eng, dass Beziehungen entdeckt werden können. Auf lange Sicht können Forscher dann klarer werden, welche Variablen relevant sind. In der Tat tauschen Modellierer manchmal explizit eine erhöhte Verzerrung gegen eine verringerte Varianz in den Stichprobenverteilungen ihrer Parameter aus (vgl. Meine Antwort hier ). Kurzfristig lohnt es sich, sich immer an das berühmte Zitat aus Box zu erinnern :

Alle Modelle sind falsch, aber einige sind nützlich.

$X$ $Y$ $Y$ $X$ $X$ $Z$ $Y$ $Y$

gung - Monica wieder einsetzen
quelle