Die klassische Behandlung der statistischen Inferenz beruht auf der Annahme, dass eine korrekt spezifizierte Statistik verwendet wird. Das heißt, die Verteilung , die die beobachteten Daten ist Teil des statistischen Modells :
Was passiert mit Schätzern für Konfidenzsätze? Fassen wir die Schätzer der Konfidenzsätze zusammen. Sei ein , wobei der Abtastraum und die über den Parameterraum . Was wir wissen möchten, ist die Wahrscheinlichkeit des Ereignisses, dass die von \ delta erzeugten Mengen die wahre Verteilung \ mathbb {P} ^ * enthalten , dh \ mathbb {P} ^ * (\ mathbb {P} ^ * \ in \ {P_ \ Theta: \ Theta \ in \ Delta (Y) \}): = A.
Allerdings kennen wir natürlich die wahre Distribution . Die korrekt angegebene Annahme besagt, dass . Wir wissen jedoch immer noch nicht, um welche Verteilung des Modells es sich handelt. Aber
Wenn wir die korrekt spezifizierte Annahme fallen lassen, ist nicht unbedingt eine Untergrenze für , den Begriff, an dem wir tatsächlich interessiert sind. In der Tat, wenn wir annehmen, dass das Modell falsch spezifiziert ist, was wahrscheinlich für die realistischsten Situationen der Fall ist, ist 0, da die wahre Verteilung nicht im statistischen Modell .
Aus einer anderen Perspektive könnte man darüber nachdenken, worauf sich bezieht, wenn das Modell falsch spezifiziert ist. Dies ist eine spezifischere Frage. Hat noch eine Bedeutung, wenn das Modell falsch spezifiziert ist? Wenn nein, warum beschäftigen wir uns überhaupt mit parametrischen Statistiken?
Ich denke, White 1982 enthält einige Ergebnisse zu diesen Themen. Leider kann ich aufgrund meines fehlenden mathematischen Hintergrunds nicht viel verstehen, was dort geschrieben steht.
Antworten:
Sei die beobachteten Daten, von denen angenommen wird, dass sie eine Realisierung einer Folge von iid Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsdichtefunktion die in Bezug auf ein Sigma-Finite-Maß definiert ist . Die Dichte wird als Dichte des (DGP) bezeichnet.y1,…,yn Y1,…,Yn pe ν pe
Im Wahrscheinlichkeitsmodell des ForschersM≡{p(y;θ):θ∈Θ} eine Sammlung von Wahrscheinlichkeitsdichtefunktionen, die durch einen Parametervektor indiziert werden
. Angenommen, jede Dichte in ist in Bezug auf ein gemeinsames Sigma-Finite-Maß (z. B. könnte jede Dichte eine Wahrscheinlichkeitsmassenfunktion mit demselben Abtastraum S sein ).θ M ν S
Es ist wichtig , um die Dichte zu haltenpe , die die Daten tatsächlich konzeptionell verschieden von dem Wahrscheinlichkeitsmodell der Daten erzeugt. Bei klassischen statistischen Verfahren wird eine sorgfältige Trennung dieser Konzepte entweder ignoriert, nicht vorgenommen, oder es wird von Anfang an davon ausgegangen, dass das Wahrscheinlichkeitsmodell korrekt angegeben ist.
Ein korrekt angegebenes ModellM bezüglich pe als Modell definiert , in dem pe∈M ν -Fast überall. Wenn
M bezüglich fehlspezifiziert ist pe Dies entspricht dem Fall , in dem das Wahrscheinlichkeitsmodell nicht korrekt angegeben wird.
Wenn das Wahrscheinlichkeitsmodell korrekt spezifiziert ist, dann gibt es einenθ∗ im Parameterraum Θ derart , daß
pe(y)=p(y;θ∗) ν -Fast überall. Ein solcher Parametervektor wird "wahrer Parametervektor" genannt. Wenn das Wahrscheinlichkeitsmodell falsch spezifiziert ist, existiert der wahre Parametervektor nicht.
Innerhalb von Whites Modell Fehlspezifikation Rahmen ist das Ziel , die Parameterschätzung zu finden θ n , dass mindernd ℓ n ( θ ) ≡ ( 1 / n ) Σ n i = 1 log p ( y i ; θ ) über einen gewissen kompakten Parameterraum Θ . Es wird angenommen , dass eine eindeutige strengen globalen Minimierungs, θ * , von dem erwarteten Wert von l n auf Θ im Innern befindet sich Θθ^n ℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ) Θ θ∗ ℓ^n Θ Θ . In dem glücklichen Fall , wo das Wahrscheinlichkeitsmodell korrekt spezifiziert ist, θ∗ kann als der „wahren Parameterwert“ interpretiert werden.
In dem speziellen Fall , wo das Wahrscheinlichkeitsmodell korrekt angegeben wird, dann θ n ist die bekannte Maximum - Likelihood - Schätzung. Wenn wir nicht wußte tun haben absolutes Wissen , dass das Wahrscheinlichkeitsmodell korrekt angegeben ist, θ n ist eine Quasi-Maximum - Likelihood - Schätzung genannt und das Ziel ist , zu schätzen R * . Wenn wir Glück haben und das Wahrscheinlichkeitsmodell richtig spezifiziert ist, reduziert sich die Quasi-Maximum-Likelihood-Schätzung als Sonderfall auf die bekannte Maximum-Likelihood-Schätzung und θ ∗ wird zum wahren Parameterwert.θ^n θ^n θ∗ θ∗
Konsistenz innerhalb Whites (1982) Rahmen entspricht Konvergenzθ∗ , ohne dass θ∗ ist notwendigerweise der wahre Parametervektor. Im Rahmen von White würden wir niemals die Wahrscheinlichkeit des Ereignisses abschätzen, dass die von δ erzeugten Mengen die WAHR-Verteilung P * enthalten. Stattdessen würden wir immer die Wahrscheinlichkeitsverteilung P ** schätzen, die die Wahrscheinlichkeit des Ereignisses ist, dass die von δ erzeugten Mengen die durch die Dichte p(y;θ∗) angegebene Verteilung enthalten
.
Zum Schluss noch ein paar Anmerkungen zur Fehlspezifikation des Modells. Es ist leicht, Beispiele zu finden, bei denen ein falsch angegebenes Modell äußerst nützlich und sehr aussagekräftig ist. Betrachten Sie beispielsweise ein nichtlineares (oder sogar lineares) Regressionsmodell mit einem Gaußschen Restfehlerterm, dessen Varianz extrem klein ist, der tatsächliche Restfehler in der Umgebung jedoch nicht Gaußsch ist.
Es ist auch leicht, Beispiele zu finden, bei denen ein korrekt angegebenes Modell nicht nützlich und nicht vorhersagbar ist. Betrachten Sie zum Beispiel ein Zufallsmodell für die Vorhersage von Aktienkursen, das den Schlusskurs von morgen als gewichtete Summe aus dem Schlusskurs von heute und etwas Gaußschem Rauschen mit einer extrem großen Varianz vorhersagt.
Der Zweck des Modellfehlspezifikations-Frameworks ist nicht die Gewährleistung der Modellgültigkeit, sondern die Gewährleistung der Zuverlässigkeit. Stellen Sie also sicher, dass der mit Ihren Parameterschätzungen, Konfidenzintervallen, Hypothesentests usw. verknüpfte Stichprobenfehler trotz einer geringen oder einer großen Menge von Modellfehlspezifikationen korrekt geschätzt wird. Die Quasimaximalwahrscheinlichkeitsschätzungen sind asymptotisch normal, zentriert beiθ∗ mit einem Kovarianzmatrixschätzer, der sowohl von der ersten als auch von der zweiten Ableitung der negativen logarithmischen Wahrscheinlichkeitsfunktion abhängt. In dem speziellen Fall, in dem Sie Glück haben und das Modell korrekt ist, reduzieren sich alle Formeln auf den bekannten klassischen statistischen Rahmen, in dem das Ziel darin besteht, die "wahren" Parameterwerte zu schätzen.
quelle
Lassen Sie mich zunächst sagen, dass dies eine wirklich faszinierende Frage ist. Ein großes Lob an Julian für die Veröffentlichung. Meines Erachtens besteht das grundlegende Problem bei dieser Art von Analyse darin, dass jede Folgerung einer Teilmenge von eine Folgerung über die eingeschränkte Klasse von Wahrscheinlichkeitsmaßen im Modell M ist Modell, unter dem Modell, degeneriert dies zu einer trivialen Frage, ob es eine Fehlspezifikation gibt oder nicht. White umgeht dies, indem er mithilfe einer geeigneten Abstandsmetrik untersucht, wie nahe das Modell an der tatsächlichen Wahrscheinlichkeitsmessung liegt. Dies führt ihn zu dem Wahrscheinlichkeitsmaß P & theta; 1 , die in der Nähe Proxy für ist P * inΘ M Pθ1 P∗ . Diese Methode zur Betrachtung von P θ 1 kann erweitert werden, um interessante Größen zu erhalten, die sich auf Ihre Frage nach den Konfidenzsätzen beziehen.M Pθ1
quelle