Wie kann ich feststellen, ob ein statistisches Modell „identifiziert“ ist?

7

Mein Ökonometrieprofessor verwendete im Unterricht den Begriff "identifiziert". Wir betrachten der Form wobei eine Zufallsvariable und ein zufälliger Fehlerterm ist. Unsere Regressionslinien haben die Form

Y=β0+β1X+U
XU
Y=β0^+β1^X

Er gab die folgende Definition von "identifiziert":

β0 , werden identifiziert, wenn ein Datensatz genügend Informationen enthält, um eindeutige Werte für , zu " "β1{Xn}i=1β0β1

Ich bin mit dieser Definition unzufrieden, weil er weder spezifiziert, was "Information" ist, noch was "Pin-down" bedeutet.

Ein bisschen Kontext

In einer unserer Übungen erhielten wir . Laut meinem Professor verstößt dies gegen eine Annahme namens "Exogenität", die notwendig ist, damit ein Modell "identifizierbar" ist.E[UX]=α0

Insbesondere gemäß seinen Vorlesungsunterlagen,

Exogenität Annahme: Der Fehlerterm ist unkorreliert mit den Regressoren oder für alle . Unter der Annahme von kann dies als umgeschrieben werden für alleCov(Un,Xnk)=0k=1,2,3...,KE(Un|Xn1,Xn2,...,XnK)

Cov(Un,Xnk)=E(UnXnk)=0
k=1,2,3...,K

Es scheint, dass er in unserem Problem versucht, uns zu verstehen, warum ein Modell nicht identifiziert werden kann, wenn diese Exogenitätsannahme fehlschlägt. Hoffentlich kann dies den Antwortenden einen Kontext dafür geben, wie er den Begriff verwendet.

Meine Frage

Kann jemand klarstellen, was er unter "Information" und "Pin-down" versteht? Oder geben Sie eine bessere Definition insgesamt.

BEARBEITEN:

Aus Wikipedia gezogen:

Beobachtungsäquivalent --- Zwei Parameterwerte werden als beobachtungsäquivalent angesehen, wenn beide zur gleichen Wahrscheinlichkeitsverteilung beobachtbarer Daten führen.

Identifiziert - jede Situation, in der ein statistisches Modell ausnahmslos mehr als einen Satz von Parametern enthält, die dieselbe Verteilung von Beobachtungen erzeugen, was bedeutet, dass mehrere Parametrisierungen beobachtungsmäßig äquivalent sind.

Dies erklärt immer noch nicht wirklich, wo "Exogenität" ins Spiel kommt und warum es damit zusammenhängt, "identifiziert" zu werden.

Stan Shunpike
quelle
Das ist eine leider vage Definition. Wikipedia zur Rettung?
Shadowtalker
Siehe auch
Stan Shunpike
@ssdecontrol Ich habe die Definitionen hinzugefügt, bin mir aber nicht sicher, ob das wirklich ausreicht. Das ist eher eine qualitative Aussage. Ich würde etwas mathematischeres bevorzugen.
Stan Shunpike
Das Angebots- und Nachfragemodell, das Wikipedia gibt, zeigt genau, wonach Sie fragen
Shadowtalker
Sieht so aus, als hätte ich die falsche Seite verlinkt, aber alle Standardkommentare zur Google-Suche gelten hier: 1) en.m.wikipedia.org/wiki/Identifiability , 2) en.m.wikipedia.org/wiki/Parameter_identification_problem
shadowtalker

Antworten:

3

Die Identifizierbarkeit bezieht sich im Wesentlichen darauf, ob für die Parameter des Modells konsistente Schätzer existieren oder nicht. Anders ausgedrückt: Können wir die Modellparameter wiederherstellen, wenn uns die Verteilung der Daten mitgeteilt wird? Wenn nicht, ist unser Modell nicht identifizierbar.

Das vielleicht einfachste Beispiel für ein nicht identifizierbares Modell ist das überparametrisierte ANOVA-Modell. Dieses Modell hat die Form

Yij=μ+αi+ϵij

Dabei sind und beliebige Konstanten und normal . Wenn wir die Information erhalten, dass normal für einige Sätze von Konstanten und , und es ist wichtig zu beachten, dass dies alles ist, was wir jemals hoffen können, aus den Daten zu lernen. Dann gibt es keine eindeutige Möglichkeit, dies wieder in Konstanten , und . Dies liegt daran, dass wir immer undμ{αi}i=1kϵij(0,σ2)Yij(μi,σ2){μi}i=1kσ2μ{αi}i=1kσ2μ+cαicum den gleichen Mittelwertparameter für verschiedene Werte der Modellparameter zu erhalten. Selbst wenn wir unendlich viele Daten hätten, könnten wir niemals hoffen, diese Werte wiederherzustellen. Aus diesem Grund legen wir die Einschränkung die eine Eins-zu-Eins-Zuordnung zwischen Modell- und Verteilungsparametern garantiert.μi=μ+αii=1kαi=0

dsaxton
quelle