Ich habe eine allgemeine methodologische Frage. Möglicherweise wurde es bereits beantwortet, aber ich kann den entsprechenden Thread nicht finden. Ich werde Hinweise auf mögliche Duplikate schätzen.
( Hier ist eine ausgezeichnete, aber ohne Antwort. Dies ist auch im Geist ähnlich, selbst mit einer Antwort, aber letztere ist aus meiner Sicht zu spezifisch. Dies ist auch nah, entdeckt nach dem Posten der Frage.)
Das Thema ist, wie eine gültige statistische Inferenz durchgeführt werden kann, wenn das Modell, das vor dem Anzeigen der Daten formuliert wurde, den Datenerzeugungsprozess nicht angemessen beschreibt . Die Frage ist sehr allgemein, aber ich werde ein bestimmtes Beispiel anbieten, um den Punkt zu veranschaulichen. Ich erwarte jedoch, dass sich die Antworten eher auf die allgemeine methodologische Frage konzentrieren als auf die Details des jeweiligen Beispiels.
Betrachten Sie ein konkretes Beispiel: In einer Zeitreiheneinstellung ich davon aus, dass der Datengenerierungsprozess mit . Ich möchte die Hypothese des Gegenstandes testen, dass . Ich habe dies in Bezug auf Modell gegossen , um ein funktionsfähiges statistisches Gegenstück zu meiner Subjekthypothese zu erhalten, und dies ist So weit, ist es gut. Wenn ich jedoch die Daten beobachte, stelle ich fest, dass das Modell die Daten nicht angemessen beschreibt. Nehmen wir an, es gibt einen linearen Trend, so dass der wahre Datenerzeugungsprozess y_t = \ gamma_0 + \ gamma_1 x_t + \ gamma_2 t + v_t \ tag {2} mit v_t \ sim iiN (0, \ sigma_v ^ 2) ist. ut∼i. ich. N(0,σ 2 u )dy
Wie kann ich eine gültige statistische Schlussfolgerung zu meiner Subjekthypothese ?
Wenn ich das ursprüngliche Modell verwende, werden seine Annahmen verletzt und der Schätzer von hat nicht die nette Verteilung, die er sonst hätte. Daher kann ich die Hypothese nicht mit dem Test testen . t
Wenn ich, nachdem ich die Daten gesehen habe, von Modell zu wechsle und meine statistische Hypothese von zu , sind die Modellannahmen erfüllt und ich sich einen gut erzogenen Schätzer für und können Sie ohne Schwierigkeiten mit dem Test . Der Wechsel von zu( 2 ) H 0 : β 1 = 1 H ' 0 : γ 1 = 1 γ 1 H ' 0 t ( 1 ) ( 2 )
wird durch den Datensatz informiert, an dem ich die Hypothese testen möchte. Dies macht die Schätzerverteilung (und damit auch die Inferenz) von der Änderung des zugrunde liegenden Modells abhängig, die auf die beobachteten Daten zurückzuführen ist. Die Einführung einer solchen Konditionierung ist eindeutig nicht zufriedenstellend.
Gibt es einen guten Ausweg? (Wenn nicht häufig, dann vielleicht eine Bayes'sche Alternative?)
quelle
Antworten:
Der Ausweg ist buchstäblich aus dem Probentest heraus, ein wahrer. Nicht die, bei der Sie die Stichprobe in Training aufteilen und wie bei der Kreuzvalidierung durchhalten, sondern die wahre Vorhersage. Dies funktioniert sehr gut in den Naturwissenschaften. In der Tat ist es der einzige Weg, wie es funktioniert. Sie bauen eine Theorie auf einigen Daten auf und müssen dann eine Vorhersage für etwas treffen, das noch nicht beobachtet wurde. Offensichtlich funktioniert dies in den meisten Sozialwissenschaften (so genannten Wirtschaftswissenschaften) nicht.
In der Industrie funktioniert dies wie in den Wissenschaften. Wenn der Handelsalgorithmus beispielsweise nicht funktioniert, verlieren Sie schließlich Geld und geben es dann auf. Kreuzvalidierungs- und Trainingsdatensätze werden häufig in der Entwicklung und bei der Entscheidung zur Bereitstellung des Algorithmus verwendet. Nach der Produktion geht es jedoch nur darum, Geld zu verdienen oder zu verlieren. Sehr einfach außerhalb des Probentests.
quelle
Sie könnten ein "kombiniertes Verfahren" definieren und seine Eigenschaften untersuchen. Angenommen, Sie gehen von einem einfachen Modell aus und lassen zu, dass ein, zwei oder drei komplexere (oder nichtparametrische) Modelle angepasst werden, falls das einfache Modell nicht passt. Sie müssen eine formale Regel angeben, nach der Sie sich entscheiden, nicht zum einfachen Modell zu passen, sondern zu einem der anderen (und zu welchem). Sie benötigen auch Tests, damit Ihre interessierende Hypothese unter allen beteiligten Modellen (parametrisch oder nichtparametrisch) angewendet werden kann.
Mit einem solchen Setup können Sie die Merkmale simulieren, dh mit welchem Prozentsatz Ihre Nullhypothese endgültig zurückgewiesen wird, falls dies zutrifft, und bei mehreren interessierenden Abweichungen. Sie können auch aus allen beteiligten Modellen simulieren und Dinge wie Bedingungsniveau und bedingte Leistung betrachten, wenn Daten aus Modell X, Y oder Z stammen oder wenn das Testverfahren für Modellfehlspezifikationen Modell X, Y oder Z ausgewählt hat.
Sie können feststellen, dass die Modellauswahl nicht viel Schaden anrichtet, da das erreichte Niveau immer noch sehr nahe an dem von Ihnen gewünschten Niveau liegt und die Leistung in Ordnung ist, wenn nicht sogar ausgezeichnet. Oder Sie stellen möglicherweise fest, dass die datenabhängige Modellauswahl die Dinge wirklich durcheinander bringt. Dies hängt von den Details ab (wenn Ihr Modellauswahlverfahren sehr zuverlässig ist, sind die Chancen hoch und die Leistung wird nicht sehr stark beeinträchtigt).
Dies ist nicht ganz das Gleiche wie die Angabe eines Modells und die anschließende Betrachtung der Daten und die Entscheidung "Oh, ich brauche ein anderes", aber es ist wahrscheinlich so nah wie möglich an der Untersuchung der Merkmale eines solchen Ansatzes. Es ist nicht trivial, weil Sie eine Reihe von Entscheidungen treffen müssen, um dies in Gang zu bringen.
Allgemeine Bemerkung: Ich halte es für irreführend, angewandte statistische Methoden binär in "gültig" und "ungültig" zu klassifizieren. Nichts ist jemals zu 100% gültig, da Modellannahmen in der Praxis niemals genau zutreffen. Auf der anderen Seite kann man, obwohl man gültige (!) Gründe findet, etwas als "ungültig" zu bezeichnen, wenn man die Merkmale des vermeintlich ungültigen Ansatzes eingehend untersucht, feststellen, dass es immer noch ziemlich gut funktioniert.
quelle