Ich habe ein theoretisches Wirtschaftsmodell, das wie folgt lautet:
Die Theorie besagt also, dass es , und Faktoren gibt, um abzuschätzen .
Jetzt habe ich die realen Daten und muss , , schätzen . Das Problem ist, dass der reale Datensatz nur Daten für und . Es liegen keine Daten für . Das Modell, auf das ich passen kann, ist also:
- Ist es in Ordnung, dieses Modell zu schätzen?
- Verliere ich irgendetwas, was ich einschätze?
- Wenn ich , schätze , wohin geht dann der Term ?
- Ist es durch Fehler Begriff entfallen ?
Und wir möchten annehmen, dass nicht mit x 1 und x 2 korreliert .
regression
multiple-regression
endogeneity
Renathie
quelle
quelle
Antworten:
Das Problem, über das Sie sich Sorgen machen müssen, heißt Endogenität . Insbesondere hängt es davon ab, ob in der Population mit x 1 oder x 2 korreliert . Wenn ja, so wird die zugehörige b j wird s vorgespannt werden. Das liegt daran, dass OLS- Regressionsmethoden die Residuen u i dazu zwingen , nicht mit Ihren Kovariaten x j s korreliert zu sein . Allerdings sind Ihre Reste einiger irreduziblen Zufälligkeit zusammengesetzt, ε i , und der unbeobachteten (aber relevant) Variable, x 3 , die durch Festlegungx3 x1 x2 bj ui xj εi x3 wird mit korrelierten und / oder x 2 . Wenn andererseits sowohl x 1 als auch x 2 nicht mit x 3 in der Grundgesamtheit korreliert sind , werden ihre bs dadurch nicht voreingenommen (sie können natürlich auch von etwas anderem voreingenommen sein). Eine Möglichkeit, wie Ökonomen versuchen, mit diesem Problem umzugehen, ist die Verwendung instrumenteller Variablen . x1 x2 x1 x2 x3 b
Der Klarheit halber habe ich in R eine schnelle Simulation geschrieben, die zeigt, dass die Stichprobenverteilung von unabhängig vom wahren Wert von β 2 ist , wenn sie nicht mit x 3 korreliert ist . Im zweiten Durchgang ist jedoch zu beachten, dass x 3 nicht mit x 1 , sondern nicht mit x 2 korreliert ist . Nicht zufällig ist b 1 unverzerrt, aber b 2 ist vorgespannt.b2 β2 x3 x3 x1 x2 b1 b2
quelle
Stellen wir uns das geometrisch vor. Denken Sie an einen "Ball", die Oberfläche eines Balls. Es wird beschrieben als . Wenn Sie nun die Werte für x 2 , y 2 , z 2 und r 2 haben , können Sie die Koeffizienten "a", "b" und "c" bestimmen. (Man könnte es Ellipsoid nennen, aber einen Ball zu nennen ist einfacher.)r2=ax2+by2+cz2+ϵ x2 y2 z2 r2
Wenn Sie nur die Terme und y 2 haben, können Sie einen Kreis bilden. Anstatt die Oberfläche einer Kugel zu definieren, beschreiben Sie einen ausgefüllten Kreis. Die Gleichung, die Sie stattdessen anpassen, ist r 2 ≤ a x 2 + b y 2 + ϵ .x2 y2 r2≤ax2+by2+ϵ
Sie projizieren die "Kugel", wie auch immer sie geformt sein mag, in den Ausdruck für den Kreis. Es könnte sich um eine diagonal ausgerichtete "Kugel" handeln, die eher wie eine Nähnadel geformt ist, sodass die Komponenten die Schätzungen der beiden Achsen völlig zunichte machen. Es könnte eine Kugel sein, die aussieht wie ein fast zerquetschtes M & M, bei dem die Münzachsen "x" und "y" sind und es keine Projektion gibt. Sie können ohne die " z " -Informationen nicht wissen, um welche es sich handelt .z z
Der letzte Absatz sprach von einem "reinen Informations" -Fall und berücksichtigte das Rauschen nicht. Messungen in der realen Welt haben das Signal mit Rauschen. Das Rauschen entlang des Umfangs, das an den Achsen ausgerichtet ist, wirkt sich viel stärker auf Ihre Passform aus. Obwohl Sie die gleiche Anzahl von Stichproben haben, werden Sie mehr Unsicherheit in Ihren Parameterschätzungen haben. Wenn es sich um eine andere Gleichung als diesen einfachen linearachsenorientierten Fall handelt, können die Dinge " birnenförmig " werden. Ihre aktuellen Gleichungen haben die Form einer Ebene. Anstatt eine Grenze (die Oberfläche des Balls) zu haben, werden die Z-Daten möglicherweise auf der gesamten Karte angezeigt - die Projektion könnte ein ernstes Problem darstellen.
Ist es in Ordnung zu modellieren? Das ist ein Urteilsspruch. Ein Experte, der die Einzelheiten des Problems versteht, könnte darauf antworten. Ich weiß nicht, ob jemand eine gute Antwort geben kann, wenn er weit vom Problem entfernt ist.
Sie verlieren einige gute Dinge, einschließlich der Gewissheit bei Parameterschätzungen und der Art des zu transformierenden Modells.
quelle
Die anderen Antworten sind zwar nicht falsch, erschweren das Problem jedoch ein wenig.
quelle