Ist es möglich, eine Regression durchzuführen, bei der Sie eine unbekannte / nicht erkennbare Feature-Variable haben?

Sag ich habe $y_n = a_0 + a_1 x_1 + a_2 x_2 + a_3 x_3$ aber ich kann / kann den Wert der Merkmalsvariablen nicht messen $x_3$ . Kann ich trotzdem eine Regression durchführen, um die Koeffizienten zu ermitteln? $a_i$ ?

Wie wäre es, wenn ich etwas über die Statistik weiß, wie $x_3$ wird ausgeliefert? Wenn ich das weiß $x_3$ wird aus einer Gaußschen Verteilung gezogen $\mathcal{N}(0, \sigma^2)$ mit bekannt $\sigma$ erlaubt mir dies, die Regression durchzuführen, um die Werte von zu ermitteln $a_i$ ?

regression machine-learning stochastic-processes SomeRandomPhysicist
quelle

Nein, woher wissen Sie, was auf die Funktion zurückzuführen ist und was nur zufällig ist?

user2974951

Wenn es möglich wäre, wäre die Welt schön! Stellen Sie sich vor: keine Datenerfassung! Kein Daten-Wrangling! Keine Personen senden Ihnen Daten als Screenshot in Word-Dokument

eingebettet

Vielen Dank für die Antworten, ich wollte nur eine Bestätigung, dass dies der Fall war, wie ich vermutet hatte. Ich denke, man könnte immer noch die Regression für die anderen Feature-Variablen durchführen, wenn der Effekt von

x_{3}

$x_3$ war im Vergleich zu den anderen Merkmalsvariablen sehr schwach und konnte daher vollständig vernachlässigt werden, aber in dem Fall, in dem es sich um einen großen Beitrag handelt, ist eine Regression unmöglich.

SomeRandomPhysicist

@ user2974951 Warum nicht eine Antwort daraus machen? Ich denke nicht einmal, dass Sie das erweitern müssten.

mkt - Monica

Was ist mit einem Zustandsraummodell?

Chris Haug

Antworten:

Die vollständige Formel für ein lineares Modell lautet (in Quasi-Matrixform).

Y = β X + ϵ

$Y=\beta X+\epsilon$

Wir haben also mehrere Koeffizienten für die Variablen, für die wir steuern, und dann haben wir $\epsilon$ Das ist alles andere, was wir mit unseren enthaltenen Variablen nicht erklärt haben.

In diesen Fehlerbegriff gehören alle Variablen, die wir nicht berücksichtigt haben, entweder weil wir keine Informationen für sie haben oder weil wir sie einfach nicht kennen (zufällige Abweichung).

Sie können also einfach nicht wissen, was in diesem Begriff zu welchem unbekannten Begriff gehört.

user2974951
quelle

Upvoted für die Exzellenz und Klarheit der Antwort.

James Phillips

Wie wäre es, wenn ich etwas über die Statistik der Verteilung von x3 weiß?

Wenn Sie die Regression von tun $y$ auf $x_1$ und $x_2$ , wenn Sie bereit sind, fundierte Vermutungen anzustellen, wie $x_3$ Korreliert mit jedem dieser Faktoren, können Sie berechnen, was diese Vermutungen für die Änderung der von Ihnen geschätzten Koeffizienten bedeuten würden, wenn Sie dies beobachten könnten $x_3$ und lief die volle Regression.

Nehmen wir zum Beispiel das an $x_3$ ist nicht korreliert mit $x_1$ . Dann

$\alpha_{2, \text{your regression}} =\alpha_{2, \text{full regression}} + \alpha_3 \cdot \frac{cov(x_3, x_2)}{var(x_2)}$

Also wenn $x_3$ ist wahrscheinlich nur schwach korreliert mit $y$ oder $x_1$ und $x_2$ es würde sich nicht viel ändern. Wenn dies der Fall ist, können Sie diese Formeln für ausgelassene variable Verzerrungen verwenden, um vorherzusagen, wie sich die Dinge ändern würden.

CloseToC
quelle

Es ist immer möglich ... aber Ihre Schätzungen werden in vielen Fällen voreingenommen sein. Der günstigste Fall tritt auf:
(a) Wann $x_{3n}$ ist nicht mit den anderen Regressoren korreliert, in diesem Fall Regress $y_n$ auf $(\iota,x_{1},x_{2})$ und Sie haben unvoreingenommene Schätzungen von $a_0,a_1,a_2$ (Frish-Waugh-Lovell-Theorem)
(b) Wenn Sie zusätzlich zu (a) wissen $\sigma$ und $x_3 \sim \mathcal{N}(0, \sigma^2)$ , dann können Sie sogar identifizieren $a_3$ : zeichnen $N$ iid Werte für $x_{3n} \sim \mathcal{N}(0, \sigma^2)$ und Rückschritt $y_n$ auf $(\iota,x_{1},x_{2},x_{3})$ .

Bertrand
quelle

Können Sie weiter erklären, wie die Regression in Situation (b) durchgeführt wird? Generieren Sie Werte für das Unbekannte?

x_{3}

$x_3$ indem man sie aus zeichnet

N (0, σ^{2})

$\mathcal{N}(0, \sigma^2)$ und dann darauf zurückgehen?

SomeRandomPhysicist

Ja, das ist der Weg, es zu tun. Es ist möglich, die Erzeugung und Schätzung von Zufallszahlen zu wiederholen, dies scheint jedoch in Ihrem einfachen Fall nicht interessant zu sein. Es gibt eine aufkeimende Literatur zu simulationsbasierten Methoden, die einen ähnlichen Ansatz verwenden, aber sie sind etwas komplizierter als in Ihrem Beispiel: siehe zum Beispiel Gouriéroux und Monfort. Siehe auch die pädagogische Beschreibung im Texbook von Cameron und Trivedi (2005).

Bertrand