Ist es möglich, eine Regression durchzuführen, bei der Sie eine unbekannte / nicht erkennbare Feature-Variable haben?

7

Ist es möglich, eine Regression durchzuführen, bei der Sie eine unbekannte / nicht erkennbare Feature-Variable haben?

Sag ich habe yn=a0+a1x1+a2x2+a3x3 aber ich kann / kann den Wert der Merkmalsvariablen nicht messen x3. Kann ich trotzdem eine Regression durchführen, um die Koeffizienten zu ermitteln?ai?

Wie wäre es, wenn ich etwas über die Statistik weiß, wie x3wird ausgeliefert? Wenn ich das weißx3 wird aus einer Gaußschen Verteilung gezogen N(0,σ2)mit bekannt σ erlaubt mir dies, die Regression durchzuführen, um die Werte von zu ermitteln ai?

SomeRandomPhysicist
quelle
4
Nein, woher wissen Sie, was auf die Funktion zurückzuführen ist und was nur zufällig ist?
user2974951
7
Wenn es möglich wäre, wäre die Welt schön! Stellen Sie sich vor: keine Datenerfassung! Kein Daten-Wrangling! Keine Personen senden Ihnen Daten als Screenshot in Word-Dokument
eingebettet
Vielen Dank für die Antworten, ich wollte nur eine Bestätigung, dass dies der Fall war, wie ich vermutet hatte. Ich denke, man könnte immer noch die Regression für die anderen Feature-Variablen durchführen, wenn der Effekt vonx3war im Vergleich zu den anderen Merkmalsvariablen sehr schwach und konnte daher vollständig vernachlässigt werden, aber in dem Fall, in dem es sich um einen großen Beitrag handelt, ist eine Regression unmöglich.
SomeRandomPhysicist
@ user2974951 Warum nicht eine Antwort daraus machen? Ich denke nicht einmal, dass Sie das erweitern müssten.
mkt - Monica
Was ist mit einem Zustandsraummodell?
Chris Haug

Antworten:

13

Die vollständige Formel für ein lineares Modell lautet (in Quasi-Matrixform).

Y=βX+ϵ

Wir haben also mehrere Koeffizienten für die Variablen, für die wir steuern, und dann haben wir ϵDas ist alles andere, was wir mit unseren enthaltenen Variablen nicht erklärt haben.

In diesen Fehlerbegriff gehören alle Variablen, die wir nicht berücksichtigt haben, entweder weil wir keine Informationen für sie haben oder weil wir sie einfach nicht kennen (zufällige Abweichung).

Sie können also einfach nicht wissen, was in diesem Begriff zu welchem ​​unbekannten Begriff gehört.

user2974951
quelle
1
Upvoted für die Exzellenz und Klarheit der Antwort.
James Phillips
3

Wie wäre es, wenn ich etwas über die Statistik der Verteilung von x3 weiß?

Wenn Sie die Regression von tun y auf x1 und x2, wenn Sie bereit sind, fundierte Vermutungen anzustellen, wie x3 Korreliert mit jedem dieser Faktoren, können Sie berechnen, was diese Vermutungen für die Änderung der von Ihnen geschätzten Koeffizienten bedeuten würden, wenn Sie dies beobachten könnten x3 und lief die volle Regression.

Nehmen wir zum Beispiel das an x3 ist nicht korreliert mit x1. Dann

α2,your regression=α2,full regression+α3cov(x3,x2)var(x2)

Also wenn x3 ist wahrscheinlich nur schwach korreliert mit y oder x1 und x2es würde sich nicht viel ändern. Wenn dies der Fall ist, können Sie diese Formeln für ausgelassene variable Verzerrungen verwenden, um vorherzusagen, wie sich die Dinge ändern würden.

CloseToC
quelle
0

Es ist immer möglich ... aber Ihre Schätzungen werden in vielen Fällen voreingenommen sein. Der günstigste Fall tritt auf:
(a) Wannx3n ist nicht mit den anderen Regressoren korreliert, in diesem Fall Regress yn auf (ι,x1,x2) und Sie haben unvoreingenommene Schätzungen von a0,a1,a2(Frish-Waugh-Lovell-Theorem)
(b) Wenn Sie zusätzlich zu (a) wissenσ und x3N(0,σ2), dann können Sie sogar identifizieren a3: zeichnen N iid Werte für x3nN(0,σ2) und Rückschritt yn auf (ι,x1,x2,x3).

Bertrand
quelle
Können Sie weiter erklären, wie die Regression in Situation (b) durchgeführt wird? Generieren Sie Werte für das Unbekannte?x3 indem man sie aus zeichnet N(0,σ2)und dann darauf zurückgehen?
SomeRandomPhysicist
Ja, das ist der Weg, es zu tun. Es ist möglich, die Erzeugung und Schätzung von Zufallszahlen zu wiederholen, dies scheint jedoch in Ihrem einfachen Fall nicht interessant zu sein. Es gibt eine aufkeimende Literatur zu simulationsbasierten Methoden, die einen ähnlichen Ansatz verwenden, aber sie sind etwas komplizierter als in Ihrem Beispiel: siehe zum Beispiel Gouriéroux und Monfort. Siehe auch die pädagogische Beschreibung im Texbook von Cameron und Trivedi (2005).
Bertrand