Statistische Inferenz unter Modellfehlspezifikation

9

Ich habe eine allgemeine methodologische Frage. Möglicherweise wurde es bereits beantwortet, aber ich kann den entsprechenden Thread nicht finden. Ich werde Hinweise auf mögliche Duplikate schätzen.

( Hier ist eine ausgezeichnete, aber ohne Antwort. Dies ist auch im Geist ähnlich, selbst mit einer Antwort, aber letztere ist aus meiner Sicht zu spezifisch. Dies ist auch nah, entdeckt nach dem Posten der Frage.)


Das Thema ist, wie eine gültige statistische Inferenz durchgeführt werden kann, wenn das Modell, das vor dem Anzeigen der Daten formuliert wurde, den Datenerzeugungsprozess nicht angemessen beschreibt . Die Frage ist sehr allgemein, aber ich werde ein bestimmtes Beispiel anbieten, um den Punkt zu veranschaulichen. Ich erwarte jedoch, dass sich die Antworten eher auf die allgemeine methodologische Frage konzentrieren als auf die Details des jeweiligen Beispiels.


Betrachten Sie ein konkretes Beispiel: In einer Zeitreiheneinstellung ich davon aus, dass der Datengenerierungsprozess mit . Ich möchte die Hypothese des Gegenstandes testen, dass . Ich habe dies in Bezug auf Modell gegossen , um ein funktionsfähiges statistisches Gegenstück zu meiner Subjekthypothese zu erhalten, und dies ist So weit, ist es gut. Wenn ich jedoch die Daten beobachte, stelle ich fest, dass das Modell die Daten nicht angemessen beschreibt. Nehmen wir an, es gibt einen linearen Trend, so dass der wahre Datenerzeugungsprozess y_t = \ gamma_0 + \ gamma_1 x_t + \ gamma_2 t + v_t \ tag {2} mit v_t \ sim iiN (0, \ sigma_v ^ 2) ist. uti. ich. N(0,σ 2 u )dy

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2)(1)H0:β1=1. y t = γ 0 + γ 1 x t + γ 2 t + v tdydx=1(1)
H0: β1=1.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2).

Wie kann ich eine gültige statistische Schlussfolgerung zu meiner Subjekthypothese ?dydx=1

  • Wenn ich das ursprüngliche Modell verwende, werden seine Annahmen verletzt und der Schätzer von hat nicht die nette Verteilung, die er sonst hätte. Daher kann ich die Hypothese nicht mit dem Test testen . tβ1t

  • Wenn ich, nachdem ich die Daten gesehen habe, von Modell zu wechsle und meine statistische Hypothese von zu , sind die Modellannahmen erfüllt und ich sich einen gut erzogenen Schätzer für und können Sie ohne Schwierigkeiten mit dem Test . Der Wechsel von zu( 2 ) H 0 : β 1 = 1 H ' 0 : γ 1 = 1 γ 1 H ' 0 t ( 1 ) ( 2 )(1)(2)H0: β1=1H0: γ1=1γ1H0t
    (1)(2)wird durch den Datensatz informiert, an dem ich die Hypothese testen möchte. Dies macht die Schätzerverteilung (und damit auch die Inferenz) von der Änderung des zugrunde liegenden Modells abhängig, die auf die beobachteten Daten zurückzuführen ist. Die Einführung einer solchen Konditionierung ist eindeutig nicht zufriedenstellend.

Gibt es einen guten Ausweg? (Wenn nicht häufig, dann vielleicht eine Bayes'sche Alternative?)

Richard Hardy
quelle
3
Ihr Unbehagen ist bei klassischen Ansätzen zur Vergabe von Promotionen endemisch: sorgfältige Spezifikation von Hypothesen, gefolgt von einem empirischen Test und endend mit einer deskriptiven kausalen Folgerung. In dieser Welt lautet die kurze Antwort "Nein", es gibt keinen Ausweg. Die Welt entwickelt sich jedoch weg von diesem strengen Paradigma. In einem Artikel in der VRE mit dem Titel Prediction Policy Problems von Kleinberg et al. Im letzten Jahr wird beispielsweise Data Mining und Vorhersage als nützliches Instrument für die wirtschaftspolitische Entscheidungsfindung angeführt, wobei Fälle angeführt werden, in denen "kausale Inferenz nicht zentral oder sogar zentral ist" notwendig." Es ist einen Blick wert.
Mike Hunter
2
Meiner Meinung nach müsste die direkte Antwort sein, dass es keinen Ausweg gibt. Andernfalls würden Sie sich der schlimmsten Art von Data Mining schuldig machen - die Neufassung der Hypothesen, um sie an die Daten anzupassen - ein Kapitalverbrechen in einer strengen, paradigmatischen Welt.
Mike Hunter
3
Wenn ich das richtig verstehe, sammeln Sie Daten, wählen ein Modell aus und testen dann Hypothesen. Ich kann mich irren, aber es scheint mir, dass das von Taylor und Tibshirani (unter anderem) untersuchte selektive Inferenzparadigma mit Ihrem Problem zusammenhängen könnte. Andernfalls könnten Kommentare, Antworten und verknüpfte Antworten auf diese Frage von Interesse sein.
DeltaIV
3
@ DeltaIV, das heißt, wenn ich Inferenz mache, interessieren mich nicht die am wenigsten falschen Parameter wie unter P-Konsistenz, sondern die wahren (die wahre partielle Ableitung von wrt ). xyx
Richard Hardy
3
@RichardHardy, klar, obwohl ich ein Statistik-Student bin, glaube ich nicht mehr wirklich an Inferenz. Es ist ein Kartenhaus, das so zerbrechlich ist, dass unklar ist, ob es überhaupt sinnvoll ist, außer unter sehr strengen und kontrollierten Umständen. Was lustig ist, ist, dass jeder das weiß, aber niemand (gut) kümmert sich darum.
Hejseb

Antworten:

3

Der Ausweg ist buchstäblich aus dem Probentest heraus, ein wahrer. Nicht die, bei der Sie die Stichprobe in Training aufteilen und wie bei der Kreuzvalidierung durchhalten, sondern die wahre Vorhersage. Dies funktioniert sehr gut in den Naturwissenschaften. In der Tat ist es der einzige Weg, wie es funktioniert. Sie bauen eine Theorie auf einigen Daten auf und müssen dann eine Vorhersage für etwas treffen, das noch nicht beobachtet wurde. Offensichtlich funktioniert dies in den meisten Sozialwissenschaften (so genannten Wirtschaftswissenschaften) nicht.

In der Industrie funktioniert dies wie in den Wissenschaften. Wenn der Handelsalgorithmus beispielsweise nicht funktioniert, verlieren Sie schließlich Geld und geben es dann auf. Kreuzvalidierungs- und Trainingsdatensätze werden häufig in der Entwicklung und bei der Entscheidung zur Bereitstellung des Algorithmus verwendet. Nach der Produktion geht es jedoch nur darum, Geld zu verdienen oder zu verlieren. Sehr einfach außerhalb des Probentests.

Aksakal
quelle
Hilft das bei der Schätzung von ? yx
Richard Hardy
@RichardHardy, ja, Sie testen die gleiche Hypothese für die neuen Daten. Wenn es gilt, bist du gut. Wenn Ihr Modell falsch spezifiziert ist, sollte es irgendwann ausfallen, ich meine auch andere Diagnosen. Sie sollten sehen, dass das Modell nicht mit neuen Daten arbeitet.
Aksakal
OK, dann klingt es wie das gute alte Rezept, die Stichprobe in eine Teilstichprobe für die Modellbildung und eine andere für die Prüfung von Hypothesen aufzuteilen. Ich hätte diese Überlegung bereits in das OP aufnehmen sollen. In jedem Fall scheint das eine vernünftige Strategie zu sein. Das Problem mit der Makroökonomie wäre beispielsweise, dass dasselbe Modell fast nie gut zu unsichtbaren Daten passt (da sich der Datenerzeugungsprozess im Laufe der Zeit ändert), sodass genau das gleiche Problem bestehen bleibt, mit dem wir beginnen. Aber das ist ein Beispiel, bei dem im Grunde jede Methode versagt, also keine faire Kritik.
Richard Hardy
In der Mikroökonomie bei der Einstellung von Querschnittsdaten könnte dies inzwischen funktionieren. +1 für jetzt. Wenn ein Modell jedoch an alle verfügbaren Daten angepasst wurde, funktioniert diese Lösung nicht mehr. Ich denke, das habe ich mir gedacht, als ich die Frage geschrieben habe, und ich suche nach Antworten, die sich mit der Titelfrage befassen: Schlussfolgerung aus einem falsch spezifizierten Modell.
Richard Hardy
2
Ich sympathisiere mit Ihrer Ansicht. Da die Aufteilung der Stichproben in "alt" und "neu" dem Sammeln neuer Daten entspricht, verstehe ich nicht, wo Sie einen großen Unterschied zwischen den beiden sehen.
Richard Hardy
1

Sie könnten ein "kombiniertes Verfahren" definieren und seine Eigenschaften untersuchen. Angenommen, Sie gehen von einem einfachen Modell aus und lassen zu, dass ein, zwei oder drei komplexere (oder nichtparametrische) Modelle angepasst werden, falls das einfache Modell nicht passt. Sie müssen eine formale Regel angeben, nach der Sie sich entscheiden, nicht zum einfachen Modell zu passen, sondern zu einem der anderen (und zu welchem). Sie benötigen auch Tests, damit Ihre interessierende Hypothese unter allen beteiligten Modellen (parametrisch oder nichtparametrisch) angewendet werden kann.

Mit einem solchen Setup können Sie die Merkmale simulieren, dh mit welchem ​​Prozentsatz Ihre Nullhypothese endgültig zurückgewiesen wird, falls dies zutrifft, und bei mehreren interessierenden Abweichungen. Sie können auch aus allen beteiligten Modellen simulieren und Dinge wie Bedingungsniveau und bedingte Leistung betrachten, wenn Daten aus Modell X, Y oder Z stammen oder wenn das Testverfahren für Modellfehlspezifikationen Modell X, Y oder Z ausgewählt hat.

Sie können feststellen, dass die Modellauswahl nicht viel Schaden anrichtet, da das erreichte Niveau immer noch sehr nahe an dem von Ihnen gewünschten Niveau liegt und die Leistung in Ordnung ist, wenn nicht sogar ausgezeichnet. Oder Sie stellen möglicherweise fest, dass die datenabhängige Modellauswahl die Dinge wirklich durcheinander bringt. Dies hängt von den Details ab (wenn Ihr Modellauswahlverfahren sehr zuverlässig ist, sind die Chancen hoch und die Leistung wird nicht sehr stark beeinträchtigt).

Dies ist nicht ganz das Gleiche wie die Angabe eines Modells und die anschließende Betrachtung der Daten und die Entscheidung "Oh, ich brauche ein anderes", aber es ist wahrscheinlich so nah wie möglich an der Untersuchung der Merkmale eines solchen Ansatzes. Es ist nicht trivial, weil Sie eine Reihe von Entscheidungen treffen müssen, um dies in Gang zu bringen.

Allgemeine Bemerkung: Ich halte es für irreführend, angewandte statistische Methoden binär in "gültig" und "ungültig" zu klassifizieren. Nichts ist jemals zu 100% gültig, da Modellannahmen in der Praxis niemals genau zutreffen. Auf der anderen Seite kann man, obwohl man gültige (!) Gründe findet, etwas als "ungültig" zu bezeichnen, wenn man die Merkmale des vermeintlich ungültigen Ansatzes eingehend untersucht, feststellen, dass es immer noch ziemlich gut funktioniert.

Lewian
quelle
Ich frage mich, ob dies in der Praxis abgesehen von den einfachsten Problemen realistisch ist. Die Rechenkosten für Simulationen würden unsere Fähigkeiten in den meisten Fällen schnell übersteigen, glauben Sie nicht? Ihr Kommentar zur Gültigkeit ist natürlich logisch. Ohne diese einfache, aber nützliche Vorstellung (um unsere Argumentation zu unterstützen) wären wir jedoch noch mehr verloren als wir damit - das ist meine Perspektive.
Richard Hardy
Ich sage nicht, dass dies jedes Mal getan werden sollte, wenn eine solche Situation in der Praxis auftritt. Es ist eher ein Forschungsprojekt; Eine Nachricht zum Mitnehmen ist jedoch, dass meiner Meinung nach die datenabhängige Modellauswahl aus den angegebenen Gründen die Schlussfolgerung, die sonst gültig gewesen wäre, nicht genau ungültig macht. Solche kombinierten Verfahren können in vielen Situationen recht gut funktionieren, obwohl dies derzeit nicht richtig untersucht wird.
Lewian
Ich denke, wenn dies machbar wäre, würde es bereits verwendet werden. Das Hauptproblem könnte die Unmöglichkeit sein, da viele Modellierungsoptionen datenabhängig sind (zurück zu meinem ersten Kommentar). Oder sehen Sie dort kein Problem?
Richard Hardy
Es gibt die seltsame Simulation in der Literatur, die zuerst den Fehlspezifikationstest / die Modellauswahl und dann die parametrische Inferenz untersucht, die vom Ergebnis abhängig ist. Die Ergebnisse sind meines Wissens gemischt. Ein "klassisches" Beispiel ist hier: tandfonline.com/doi/abs/10.1080/…
Lewian
Aber du hast recht; Das Modellieren des gesamten Prozesses mit allen möglichen Modellierungsoptionen würde viele Auswahlmöglichkeiten erfordern. Ich denke immer noch, dass es ein lohnendes Projekt wäre, obwohl man es nicht verlangen könnte, wenn Modelle aus denselben Daten ausgewählt werden, an die sie angepasst sind. Aris Spanos spricht sich übrigens gegen die Idee aus, dass Fehlspezifikationstests oder Modellprüfungen der Daten die Inferenz ungültig machen. onlinelibrary.wiley.com/doi/abs/10.1111/joes.12200
Lewian