Was bedeuten "Endogenität" und "Exogenität" inhaltlich?

43

Ich verstehe, dass die grundlegende Definition der Endogenität darin besteht, dass nicht erfüllt ist, aber was bedeutet dies im Sinne der realen Welt? Ich habe den Wikipedia-Artikel mit dem Beispiel für Angebot und Nachfrage gelesen und versucht, einen Sinn daraus zu ziehen, aber es hat nicht wirklich geholfen. Ich habe die andere Beschreibung von endogen und exogen als innerhalb des Systems und außerhalb des Systems zu sein gehört, und das ergibt für mich immer noch keinen Sinn.

Xϵ=0
user25901
quelle
1
Alle drei Antworten sind sehr gut (jeweils +1). Wenn Sie eine andere Informationsquelle , bespreche ich dieses Thema hier: Schätzen von anstelle vonb 1 × 1 + b 2 × 2 + b 3 × 3b1x1+b2x2b1x1+b2x2+b3x3 und Illustrieren mit einer Simulation in R.
gung - Reinstate Monica
1
Wenn Sie Endogenität haben, verfügt Ihre Regression nicht mehr über verwendbare Schätzer oder Teststatistiken.
Ivan
1
Ich stimme @gung zu und möchte betonen, dass eine vollständige Antwort "Verwendbar für welchen Zweck " lauten würde . Viele der obigen Antworten befassen sich sehr gut mit dieser Frage.
Matthew Drury
@Matthew Es scheint mir, dass dieser Beitrag versucht, auf die Frage zu antworten, "was bedeutet das im wirklichen Sinne?" Es wäre schön zu sehen, wie die Erklärung konkretisiert wird, damit die Leute sie besser einschätzen können.
whuber
@whuber ich weiß nicht, es ist so kurz, dass ich nicht wirklich sagen kann. Aber ich dachte zum Beispiel, dass das geschätzte Modell für die Vorhersage (oder nur für die Assoziation) nützlich sein kann, selbst wenn Sie über Endogenität verfügen. "Hat keine verwendbaren Schätzer mehr" scheint also falsch zu sein, ohne dass dies geklärt wird.
Matthew Drury

Antworten:

69

Die Antwort von JohnRos ist sehr gut. Im Klartext bedeutet Endogenität, dass Sie die Ursache falsch verstanden haben. Dass das Modell, das Sie aufgeschrieben und geschätzt haben, die Wirkungsweise der Kausalität in der realen Welt nicht richtig erfasst. Wenn du schreibst:

Yi=β0+β1Xi+ϵi

Sie können sich diese Gleichung auf verschiedene Arten vorstellen. Sie können sich dies als eine bequeme Methode vorstellen, um basierend auf den -Werten vorherzusagen . Sie können sich dies als eine bequeme Methode zur Modellierung von . In beiden Fällen gibt es keine Endogenität, und Sie müssen sich darüber keine Sorgen machen.X E { Y | X }YXE{Y|X}

Sie können sich die Gleichung jedoch auch als Verkörperung der Kausalität vorstellen. Sie können sich als Antwort auf die Frage : "Was würde mit geschehen, wenn ich in dieses System eingreifen und experimentell um 1 erhöhen würde ?" Wenn Sie so darüber nachdenken möchten, müssen Sie bei der Schätzung von OLS davon ausgehen, dass: Y Xβ1YX

  1. YX verursachtY
  2. Yϵ verursachtY
  3. Xϵ verursacht keinX
  4. XY verursacht keinX
  5. Nichts, was verursacht, verursacht auchXϵX

Ein Ausfall von 5 führt im Allgemeinen zu oder, nicht ganz gleichbedeutend, zu . Instrumentelle Variablen sind eine Möglichkeit, die Tatsache zu korrigieren, dass Sie die Ursache falsch verstanden haben (indem Sie eine andere, andere, kausale Annahme treffen). Eine perfekt durchgeführte, randomisierte, kontrollierte Studie ist ein Weg , 3-5 zur Wahrheit zu zwingen . Wenn Sie Zufallsprinzip auswählen , wird es nicht durch , oder irgendetwas anderes verursacht. Sogenannte "Natural Experiment" -Methoden sind Versuche, besondere Umstände in der Welt herauszufinden, in denen 3-5 wahr sind, selbst wenn wir nicht glauben, dass 3-5 normalerweise wahr sind.C o v ( X , ) 0 X Y E{ϵ|X}0Cov(X,ϵ)0XYϵ

In JohnRos 'Beispiel benötigen Sie zur Berechnung des Lohnwerts von Bildung eine kausale Interpretation von , aber es gibt gute Gründe zu glauben, dass 3 oder 5 falsch sind.β1

Ihre Verwirrung ist jedoch verständlich. In Kursen nach dem linearen Modell ist es sehr typisch, dass der Kursleiter die kausale Interpretation von ich oben angegeben habe, während er vorgibt, keine Kausalität einzuführen, und vorgibt, dass "alles nur Statistik ist". Es ist eine feige Lüge, aber es ist auch sehr verbreitet. β1

Tatsächlich ist es Teil eines größeren Phänomens in der Biomedizin und den Sozialwissenschaften. Es ist fast immer so, dass wir versuchen, die kausale Wirkung von auf zu bestimmen - darum geht es doch in der Wissenschaft. Andererseits gibt es auch fast immer eine Geschichte, die zu dem Schluss führt, dass eine von 3-5 falsch ist. Es gibt also eine Art von praktizierter, fließender, uneindeutiger Unehrlichkeit, in der wir Einwände austauschen, indem wir sagen, dass wir nur Assoziationsarbeit leisten und dann die kausale Interpretation an anderer Stelle zurückschleichen (normalerweise in den Abschnitten Einleitung und Schlussfolgerung des Papiers).YXY

Wenn Sie wirklich interessiert sind, sollten Sie Judea Perl lesen . James Heckman ist auch gut.

Rechnung
quelle
5
+1 Tolle Erklärung und Kommentar. Willkommen auf unserer Webseite!.
Whuber
2
Können Sie angeben, welche Arbeit von Heckman Sie empfehlen würden, um ein grundlegendes und solides Verständnis für dieses Thema zu erlangen?
Kenny LJ
Ich habe eine Frage: Wie kann ich überprüfen, ob oder zutrifft Beobachtungsdatensatz ”? Ich habe das Gefühl, dass es keine Möglichkeit gibt, oder zu testen. Verwenden Sie einfach Daten, da nicht beobachtbar ist. Ist das dann wahr, dass Endogenität nicht mit Daten getestet werden kann? E[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
KevinKim
1
@ KevinKim Ja. nicht mit Statistiken getestet werden. kann nur dann wiederhergestellt / geschätzt werden, wenn eine Schätzung durchgeführt und anschließend Residuen erstellt werden. Die Wiederherstellung kann nur nach einer Schätzung erfolgen. Die Wiederherstellung ist nur dann korrekt, wenn die Schätzung korrekt durchgeführt wurde. Die Schätzung wird nur korrekt durchgeführt, wenn . Also, rundschreiben. Die Informationen, für die müssen aus fundiertem, nicht statistischem Wissen stammen. Ein Beispiel hierfür ist, dass wobei die OLS-Residuen sind. Dies gilt unabhängig davon, ob . E { | X } = 0 E { ϵ | X } = 0 C o v { X , e } = 0 e E { ϵ | X } = 0E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0
Bill
2
@ KevinKim Das ist richtig. Und es ist nicht nur das lineare Modell. Es geht nur um Statistiken. Beachten Sie , wenn jemand sagt : „Korrelation ist nicht Kausalität“ sie nie, nie gehen zu sagen , was ist Verursachung. Ursache ist Theorie und kann nur Theorie sein. Sogar eine (perfekt --- und somit nie --- durchgeführte) RCT sagt Ihnen keine Ursache ohne Theorie.
Bill
18

Lassen Sie mich ein Beispiel verwenden:

Angenommen, Sie möchten den (kausalen) Effekt von Bildung auf das Einkommen quantifizieren. Sie nehmen Bildungsjahre und Einkommensdaten und bilden sich gegeneinander zurück. Hast du wiedergefunden, was du wolltest? Wahrscheinlich nicht! Dies liegt daran, dass das Einkommen auch durch andere Dinge als Bildung verursacht wird, die jedoch mit Bildung korrelieren. Nennen wir sie "Geschicklichkeit": Wir können davon ausgehen, dass Bildungsjahre von "Geschicklichkeit" betroffen sind. Je qualifizierter Sie sind, desto einfacher ist es, eine Ausbildung zu erhalten. Wenn Sie also die Bildungsjahre auf das Einkommen reduzieren, absorbiert der Schätzer für den Bildungseffekt den Effekt der "Fertigkeit" und Sie erhalten eine zu optimistische Schätzung der Rückkehr zur Bildung. Dies bedeutet, dass die Auswirkungen von Bildung auf das Einkommen (nach oben) voreingenommen sind, da Bildung nicht einkommensexogen ist.

Endogenität ist nur dann ein Problem, wenn Sie kausale Effekte wiederherstellen möchten (im Gegensatz zu bloßen Korrelationen). Wenn Sie ein Experiment entwerfen können, können Sie durch zufällige Zuweisung sicherstellen, dass . Leider ist dies in den Sozialwissenschaften normalerweise nicht möglich.Cov(X,ϵ)=0

JohnRos
quelle
1
Danke für das Beispiel und die Erklärung. Ich weiß immer noch nicht, was Endogenität und Exogenität im Klartext bedeuten. Was genau meine ich, wenn ich sage, dass eine Variable endogen oder exogen ist?
user25901
@ JohnRos Du hast geschrieben "Endogenität ist nur dann ein Problem, wenn du kausale Effekte wiederherstellen willst", dann scheint es mir auch möglich zu sein zu sagen: "Exogenität impliziert Kausalität" ... Ich habe diesen Satz nie gelesen ... aber es stimmt? Wenn es richtig ist, scheint es mir, dass viele Lehrbücher, manchmal implizit, kausale Folgerungen als normale Ziele annehmen.
Markowitz
@markowitz: Wann immer Sie auf Regressionskoeffizienten schließen, wird impliziert, dass Sie Kausalität wollen. Wenn Sie nur Vorhersagen wünschen, spielt der Wert der Koeffizienten keine Rolle, vorausgesetzt, die Vorhersagen sind gut. Es ist wahr, dass klassische Lehrbücher diese Unterscheidung nicht treffen, weil vor der Aufgabe der Vorhersage nicht "Grundlagenforschung", sondern eher "Ingenieurwissenschaften" (und verzeihen Sie mir für diese grobe Verallgemeinerung)
JohnRos
Danke JohnRos, lassen Sie mich noch eine Frage zu einem verwandten Punkt stellen. Das Problem der voreingenommenen Abschätzung der Koeffizienten ist nur im Kausalitätsregressionsmodell sinnvoll, für Vorhersageziele hingegen definitiv nicht. Es ist richtig? Ich frage dies, weil dieser Punkt an keiner Stelle klar ist.
Markowitz
8

User25901 sucht nach einer einfachen Erklärung, was die Begriffe exogen und endogen bedeuten. Antworten mit arkanen Beispielen oder mathematischen Definitionen beantworten die gestellte Frage nicht wirklich.

Wie bekomme ich ein gutes Verständnis für diese beiden Begriffe?

Folgendes habe ich mir ausgedacht:

Exo - extern, außen Endo - intern, innen -gen - mit Ursprung in

Exogen: Eine Variable ist für ein Modell exogen, wenn sie nicht durch andere Parameter und Variablen im Modell bestimmt wird, sondern extern festgelegt wird und alle Änderungen daran von externen Kräften herrühren.

Endogen: Eine Variable ist in einem Modell endogen, wenn sie zumindest teilweise von anderen Parametern und Variablen in einem Modell abhängt.

Bearvarine
quelle
7
Dies sind vernünftige intuitive Definitionen, aber die anderen Antworten müssen nicht so abgewiesen werden.
gung - Reinstate Monica
3
Wenn man sich an die Etymologie erinnert, kann man sich gut merken, was Fachbegriffe bedeuten (das funktioniert für mich gut), aber es ist zu vermeiden , die Etymologie zu verwenden, um sie zu rechtfertigen . Nicht wenige Begriffe (in der Statistik und anderswo) werden nur durch sorgfältiges Studium ihrer mathematischen Definitionen richtig verstanden. Um diese Antwort zu verstehen, ist eine klare Vorstellung von der beabsichtigten Verwendung von Wörtern und Phrasen wie "bestimmt durch", "äußerlich festgelegt", "wechselt zu", "äußeren Kräften" und "teilweise [einer] Funktion" erforderlich, von denen keine unmittelbar ist offensichtlich oder eindeutig.
Whuber
6

Xϵ=0Xϵ^=0

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x. Es ist nur eine mathematische Tatsache. Dies ist die ausgelassene variable Vorspannung.

IYXIXXY

Das sind zweistufige kleinste Quadrate, was fast dem Wert von IV entspricht.

generic_user
quelle
Soweit ich weiß, ist 2SLS keine Möglichkeit, IV durchzuführen. Ich entschuldige mich, wenn ich mich irre.
user25901
2SLS-Standardfehler sind falsch. Ich vergesse warum oder wie, aber Sie würden wahrscheinlich etwas finden, wenn Sie "IV 2SLS-Standardfehler" googeln. Die meisten Softwarepakete implementieren 2sls mit der Methode solve (t (z)% *% (x)% *% t (z)% *% y
generic_user
1
X^X
Vielen Dank. Ich war frisch von angewandter Ökonometrie, als ich das schrieb.
generic_user
-1

In der Regression wollen wir den quantitativen Einfluss einer unabhängigen Variablen (von der wir annehmen, dass sie exogen ist und selbst nicht von etwas anderem abhängig ist) auf eine identifizierte abhängige Variable erfassen. Wir wollen wissen, welchen Nettoeffekt eine exogene Variable auf eine abhängige Variable hat - das heißt, die unabhängige Variable sollte frei von jeglichem Einfluss einer anderen Variablen sein. Eine schnelle Möglichkeit, um festzustellen, ob die Regression unter dem Problem der Endogenität leidet, besteht darin, die Korrelation zwischen der unabhängigen Variablen und den Residuen zu überprüfen. Dies ist jedoch nur eine grobe Überprüfung, da ansonsten formale Tests der Endogenität durchgeführt werden müssen.

Amon Magwiro
quelle
3
Das stimmt nicht. Die Korrelation zwischen den Residuen und den erklärenden Variablen einer Regression ist konstruktionsbedingt Null. Dies ist kein Test auf Endogenität.
Andy
E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x