Welche Intuition steckt dahinter, Vollständigkeit in einer Statistik als unmöglich zu definieren, um daraus einen unverzerrten Schätzer von

21

In der klassischen Statistik gibt es die Definition, dass eine Statistik T eines Datensatzes y1,,yn für einen Parameter θ als vollständig definiert ist. Es ist unmöglich, daraus nichttrivial einen unverzerrten Schätzer von 0 zu bilden . Das heißt, hat die einzige Möglichkeit , Eh(T(y))=0 für alle θ sind zu haben , h seine 0 fast sicher.

Gibt es eine Intuition dahinter? Es scheint eine eher mechanische Art zu sein, dies zu definieren. Ich bin mir bewusst, dass dies bereits gefragt wurde, habe mich aber gefragt, ob es eine sehr leicht verständliche Intuition gibt, die es den Einführungsschülern erleichtert, das Material zu verdauen.

user1398057
quelle
2
Das ist eine sehr gute Frage, ich musste mich selbst damit befassen. Es stellt sich heraus, dass der Grund dafür, dass es sich um eine solche mechanische Definition handelt und für einen Standardpraktiker wie mich nicht intuitiv aussagekräftig erscheint, darin besteht, dass sie in erster Linie zum Nachweis grundlegender Beiträge in der mathematischen Statistik verwendet wird. Insbesondere ergab meine kurze Suche, dass das Lehmann-Scheffé- Theorem und das Basu- Theorem die Vollständigkeit einer Statistik erfordern, um zu gelten. Dies sind Beiträge aus der Mitte der 1950er Jahre. Ich kann Ihnen keine intuitive Erklärung anbieten - aber wenn Sie wirklich eine erstellen möchten, vielleicht die Beweise assoziieren
Jeremias K

Antworten:

18

Ich werde versuchen, die andere Antwort hinzuzufügen. Erstens ist Vollständigkeit eine technische Bedingung, die hauptsächlich durch die sie verwendenden Theoreme gerechtfertigt ist. Beginnen wir also mit einigen verwandten Konzepten und Theoremen, in denen sie vorkommen.

Sei X=(X1,X2,,Xn) ein Vektor von iid-Daten, für den wir eine Verteilung f(x;θ),θΘ modellieren , θ Θ, wobei der Parameter θ , der die Daten regelt, unbekannt ist. T=T(X) ist ausreichend, wenn die bedingte Verteilung von XT nicht vom Parameter θ abhängt . V=V(X) istnebensächlich,wenn die Verteilung vonV nicht vonθ abhängt(innerhalb der Familief(x;θ) ). U=U(X) ist einunverzerrter Schätzer von Null,wenn seine Erwartung ungeachtet vonθ thgr; Null ist. S=S(X) ist einevollständige Statistik,wenn ein unverzerrter Schätzer von Null, der aufS basiert, identisch Null ist, dh wennEg(S)=0(for all θ) danng(S)=0 ae (für alleθ ).

Angenommen, Sie haben zwei verschiedene unverzerrte Schätzer für θ basierend auf der ausreichenden Statistik T , g1(T),g2(T) . Das heißt, in Symbolen

Eg1(T)=θ,Eg2(T)=θ
undP(g1(T)g2(T))>0 (für alleθ ). Dann istg1(T)g2(T) ein unverzerrter Schätzer von Null, der nicht identisch Null ist, was beweist, dassT nicht vollständig ist. Die Vollständigkeit einer ausreichenden StatistikT gibt uns also die Möglichkeit, dass es nur einen eindeutigen unverzerrten Schätzer fürθbasierend auf T . Das kommt dem Lehmann-Scheffé-Theorem schon sehr nahe.

Schauen wir uns einige Beispiele an. Angenommen, X1,,Xn sind nun im Intervall (θ,θ+1) gleichförmig . Wir können zeigen, dass ( X(1)<X(2)<<X(n) die Ordnungsstatistik ist) das Paar ( X ( 1 ) , X ( n ) ) ausreichend ist, aber es ist nicht vollständig, weil die Differenz X (n ) - X(X(1),X(n))X(n)X(1) ist nebensächlich, wir können seine Erwartung berechnen, es seic(was nur eine Funktion vonn), und dann wirdX(n)X(1)cein unverzerrter Schätzer von Null sein das ist nicht identisch Null. Daher ist unsere ausreichende Statistik in diesem Fall nicht vollständig und ausreichend. Und wir können sehen, was das bedeutet: Es gibt Funktionen der ausreichenden Statistik, die nicht überθinformativ sindθ(im Kontext des Modells). Dies kann nicht mit einer vollständig ausreichenden Statistik geschehen. es ist in gewissem Sinne maximal informativ, da keine Funktionen davon nicht informativ sind. Wenn andererseits eine Funktion der minimal ausreichenden Statistik mit der Erwartung Null vorliegt, die als Rauschausdruck angesehen werden könnte , haben die Störungs- / Rauschausdrücke in Modellen die Erwartung Null. Wir könnten also sagen, dass nicht vollständige ausreichende Statistiken Rauschen enthalten .

Sehen Sie sich in diesem Beispiel noch einmal den Bereich R=X(n)X(1) an. Da seine Verteilung nicht von θ abhängt , enthält es allein keine Informationen über θ . Aber zusammen mit der ausreichenden Statistik macht es! Wie? Betrachten Sie den Fall, in dem R=1 beobachtet wird. Dann haben wir im Kontext unseres (als wahr bekannten) Modells die perfekte Kenntnis von θ ! Wir können nämlich mit Sicherheit sagen, dass θ=X(1) . Sie können jeden anderen Wert für θ überprüfenθdann führt dies dazu, dass entweder X(1) oder X(n) unter dem angenommenen Modell eine unmögliche Beobachtung ist. Wenn wir dagegen R=0.1 , ist der Bereich der möglichen Werte für θ ziemlich groß (Übung ...).

In diesem Sinne enthält die Zusatzstatistik R einige Informationen über die Genauigkeit, mit der wir θ basierend auf diesen Daten und diesem Modell schätzen können . In diesem und anderen Beispielen übernimmt die Zusatzstatistik R "die Rolle der Stichprobengröße". Normalerweise benötigen Konfidenzintervalle und solche die Stichprobengröße n , aber in diesem Beispiel können wir ein bedingtes Konfidenzintervall erstellen, das nur mit R berechnet wird , nicht mit n (Übung). Dies war eine Idee von Fisher, von der Inferenz abhängig gemacht werden sollte eine zusätzliche Statistik.

Nun, Basus Theorem: Wenn T vollständig genug ist, dann ist es unabhängig von irgendwelchen Hilfsstatistiken. Das heißt, eine auf einer vollständig ausreichenden Statistik basierende Folgerung ist einfacher, da wir keine bedingte Folgerung berücksichtigen müssen. Die Konditionierung auf eine von T unabhängige Statistik ändert natürlich nichts.

Dann ein letztes Beispiel, um mehr Intuition zu vermitteln. Ändern Sie unser Beispiel für die Gleichverteilung in eine Gleichverteilung für das Intervall (θ1,θ2) (mitθ1<θ2 ). In diesem Falldie Statistik(X(1),X(n)) istvollständig und ausreichend. Was hat sich geändert? Wir können sehen, dass Vollständigkeit wirklich eine Eigenschaft desModells ist. Im ersten Fall hatten wir einen eingeschränkten Parameterraum. Diese Einschränkung zerstörte die Vollständigkeit, indem sie Zusammenhänge in die Auftragsstatistik einführte. Durch die Aufhebung dieser Einschränkung haben wir Vollständigkeit erhalten! In gewissem Sinne bedeutet Unvollständigkeit, dass der Parameterraum nicht groß genug ist, und wir können hoffen, durch Vergrößerung die Vollständigkeit wiederherzustellen (und damit den Rückschluss zu erleichtern).

Einige andere Beispiele, bei denen ein Mangel an Vollständigkeit durch Einschränkungen des Parameterraums verursacht wird,

  • siehe meine Antwort auf: Was für Informationen sind Fisher-Informationen?

  • Sei X1,,Xn iidCauchy(θ,σ) (ein Standortskalenmodell). Dann reicht die Bestellstatistik aber nicht aus. Aber jetzt vergrößern Sie dieses Modell auf ein vollständig nichtparametrisches Modell, das immer noch von einer vollständig nicht spezifizierten DistributionF . Dann ist die Auftragsstatistik ausreichend und vollständig.

  • Für Exponentialfamilien mit kanonischem Parameterraum (das heißt, so groß wie möglich) ist die minimale ausreichende Statistik ebenfalls vollständig. In vielen Fällen führt die Einführung von Einschränkungen des Parameterraums wie bei gekrümmten Exponentialfamilien jedoch zu einer Zerstörung der Vollständigkeit.

Ein sehr relevantes Papier ist eine Interpretation der Vollständigkeit und Basus Theorem.

kjetil b halvorsen
quelle
7

Aus der Theorie der besten (minimalen Varianz) unverzerrten Schätzer kann eine gewisse Intuition hervorgehen.

Wenn dann W ist ein bester unverzerrter Schätzer von τ ( θ ) iff W unkorreliert ist mit allen unvoreingenommenen Schätzer von Null.EθW=τ(θ)Wτ(θ)W

WWEθW=EθW=τ(θ)W=W+(WW)VarθW=VarθW+Varθ(WW)WVarθWVarθW

WUEθU=0ϕa:=W+aUτ(θ)

Varθϕa:=VarθW+2aCovθ(W,U)+a2VarθU.
θ0ΘCovθ0(W,U)<0Varθϕa<VarθWa(0,2Covθ0(W,U)/Varθ0U)W

Das Ergebnis besagt intuitiv, dass ein Schätzer, der optimal ist, nicht durch Hinzufügen von Rauschen verbessert werden kann. Dies bedeutet, dass er mit einem Schätzer kombiniert wird, der im Durchschnitt nur Null ist (ein unparteiischer Schätzer von Null) ).

WCovθ(W,0)=0

Christoph Hanck
quelle