Warum enthält eine ausreichende Statistik alle Informationen, die zur Berechnung einer Schätzung des Parameters erforderlich sind?

Ich habe gerade angefangen, Statistik zu studieren, und ich kann nicht intuitiv verstehen, wie ausreichend ist. Genauer gesagt kann ich nicht nachvollziehen, wie die folgenden beiden Absätze gleichwertig sind:

Grob gesagt ist eine ausreichende Statistik eine Funktion T (X), deren Wert alle Informationen enthält, die benötigt werden, um eine Schätzung des Parameters zu berechnen, wenn ein Satz X unabhängiger, identisch verteilter Daten unter Bedingungen eines unbekannten Parameters & thgr; gegeben ist.

Eine Statistik T (X) ist für den zugrunde liegenden Parameter θ gerade dann ausreichend, wenn die bedingte Wahrscheinlichkeitsverteilung der Daten X bei gegebener Statistik T (X) nicht vom Parameter θ abhängt.

(Ich habe die Anführungszeichen aus der ausreichenden Statistik übernommen. )

Obwohl ich die zweite Aussage verstehe und den Faktorisierungssatz verwenden kann, um zu zeigen, ob eine gegebene Statistik ausreicht, kann ich nicht verstehen, warum eine Statistik mit einer solchen Eigenschaft auch die Eigenschaft hat, dass sie alle Informationen enthält, die zur Berechnung einer solchen benötigt werden Schätzung des Parameters ". Ich bin nicht auf der Suche nach einem formalen Beweis, der mir trotzdem helfen würde, mein Verständnis zu verfeinern. Ich möchte eine intuitive Erklärung dafür erhalten, warum die beiden Aussagen gleichwertig sind.

Zusammenfassend lauten meine Fragen: Warum sind die beiden Aussagen gleichwertig? Könnte jemand eine intuitive Erklärung für ihre Gleichwertigkeit liefern?

sufficient-statistics gcoll
quelle

Die wichtigste intuitive Idee ist, dass Sie manchmal nicht die gesamte Stichprobe sehen müssen, da Sie eine Statistik finden, die alle aus der Stichprobe benötigten Informationen zusammenfasst. Nehmen Sie zum Beispiel eine Binomialverteilung: Alles, was Sie für Ihr Modell wissen müssen, ist die Summe der Erfolge. Sie verlieren nichts an Wert, wenn ich Ihnen nur sage , anstatt Ihnen den gesamten Satz von Stichprobenwerten .

\sum_{i}^{n} x_{i} = c

$\sum_{i}^{n} x_i = c$

x = {1, 0, 0, 1, 0, 1, . . .}

$x = \{1, 0, 0, 1, 0, 1, ... \}$

mugen

Ich verstehe, warum ich eine ausreichende Statistik benötige und wie ich nachweisen kann, dass die Summe der Erfolge eine ausreichende Statistik für p in einem Bernoulli-Prozess ist. Was ich nicht verstehe, ist, warum eine Statistik wie die im zweiten Absatz beschriebene alle Informationen enthält, die zur Berechnung einer Schätzung des Parameters erforderlich sind.

gcoll

Genau genommen ist das erste Zitat einfach falsch. Es gibt viele Schätzer, die aus dem gesamten Datensatz berechnet werden können und die nicht ausschließlich aus ausreichenden Statistiken berechnet werden können. Das ist ein Grund, warum das Zitat "grob" beginnt. Ein weiterer Grund ist, dass es keine quantitative oder strenge Definition von "Information" gibt. Da im vorhergehenden Absatz eine viel genauere (aber immer noch intuitive) Charakterisierung gegeben wurde, gibt es im richtigen Kontext

Whuber

Es hat Verbindung zu maximaler Wahrscheinlichkeit und es ist im Wesentlichen die Information, die in der maximalen Wahrscheinlichkeit benötigt wird

Kamster

Nach den Kommentaren von whuber und @Kamster habe ich mich wahrscheinlich besser verstanden. Wenn wir sagen, dass eine ausreichende Statistik alle Informationen enthält, die zum Berechnen einer Schätzung des Parameters erforderlich sind, meinen wir dann tatsächlich, dass es ausreicht, den Maximum-Likelihood-Schätzer zu berechnen (was eine Funktion aller ausreichenden Statistiken ist)? Wenn dies zutrifft, war das Problem alle mit der (Nicht-) Definition von "Information" verbunden, wie von Whuber vorgeschlagen, und meine Frage wird beantwortet.

gcoll

Antworten:

Nach den Kommentaren von @whuber und @Kamster habe ich mich wahrscheinlich besser verstanden. Wenn wir sagen, dass eine ausreichende Statistik alle Informationen enthält, die zum Berechnen einer Schätzung des Parameters erforderlich sind, meinen wir tatsächlich, dass es ausreicht, den Maximum-Likelihood-Schätzer (der eine Funktion aller ausreichenden Statistiken ist) zu berechnen.

Da ich meine eigene Frage beantworte und die Antwort nicht 100% sicher ist, werde ich sie erst dann als richtig markieren, wenn ich ein Feedback bekomme. Bitte fügen Sie einen Kommentar hinzu und stimmen Sie ab, wenn Sie glauben, ich liege falsch / ungenau / etc ...

(Lassen Sie mich wissen, wenn dies nicht mit der SE-Etikette vereinbar ist. Da dies meine erste Frage ist, bitte ich Sie um Gnade, wenn ich gegen eine Regel verstoße.)

gcoll
quelle

Als ich über Suffizienz lernte, stieß ich auf Ihre Frage, weil ich auch die Intuition darüber verstehen wollte. Nach dem, was ich gesammelt habe, habe ich mir das ausgedacht (lassen Sie mich wissen, was Sie denken, wenn ich Fehler gemacht habe usw.).

Sei eine Zufallsstichprobe aus einer Poisson-Verteilung mit dem Mittelwert . $X_1,\ldots,X_n$ $\theta>0$

Wir wissen , dass ist eine erschöpfende Statistik für , da die bedingte Verteilung von gegeben ist frei von , hängt also nicht von . $T({\bf{X}})=\sum_{i=1}^{n} X_i$ $\theta$ $X_1,\ldots,X_n$ $T({\bf{X}})$ $\theta$ $\theta$

Nun weiß Statistiker , dass und erstellt aus dieser Verteilung Zufallswerte: $A$ $X_1,\ldots,X_n \overset{i.i.d}{\sim} Poisson(4)$ $n=400$

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Für die Werte, die der Statistiker erstellt hat, nimmt er die Summe und fragt den Statistiker : $A$ $B$

"Ich habe diese Beispielwerte aus einer Poisson-Verteilung entnommen. Wenn weiß, dass , was können Sie mir über diese Verteilung sagen?" $x_1,\ldots,x_n$ $\sum_{i=1}^{n} x_i = y = 4068$

der Statistiker also nur weiß, dass (und die Tatsache, dass die Stichprobe aus einer Poisson-Verteilung stammt) , kann er nichts über aussagen ? Da wir wissen, dass dies eine ausreichende Statistik ist, wissen wir, dass die Antwort "Ja" lautet. $\sum_{i=1}^{n} x_i = y = 4068$ $B$ $\theta$

Um sich ein Bild von der Bedeutung zu machen, gehen wir wie folgt vor (entnommen aus Hogg & Mckean & Craigs "Introduction to Mathematical Statistics", 7. Auflage, Aufgabe 7.1.9):

" entscheidet , einige gefälschten Beobachtungen zu schaffen, die er nennt (wie er weiß , werden sie wahrscheinlich nicht das Original gleich -Werten) wie folgt. Er stellt fest , dass die bedingte Wahrscheinlichkeit von unabhängiger Poisson Zufallsvariablen gleich , wenn ist $B$ $z_1,z_2,\ldots,z_n$ $x$ $Z_1,Z_2\ldots,Z_n$ $z_1,z_2,\ldots,z_n$ $\sum z_i = y$

\frac{\frac{θ^{z_{1}} e^{- θ}}{z_{1}!} \frac{θ^{z_{2}} e^{- θ}}{z_{2}!} \dots \frac{θ^{z_{n}} e^{- θ}}{z_{n}!}}{\frac{n θ^{y} e^{- n θ}}{y!}} = \frac{y!}{z_{1}! z_{2}! \dots z_{n}!} {(\frac{1}{n})}^{z_{1}} {(\frac{1}{n})}^{z_{2}} \dots {(\frac{1}{n})}^{z_{n}}

$\cfrac{\frac{\theta^{z_1}e^{-\theta}}{z_1!} \frac{\theta^{z_2}e^{-\theta}}{z_2!} \cdots \frac{\theta^{z_n}e^{-\theta}}{z_n!}}{\frac{n \theta^{y}e^{-n\theta}}{y!}}=\frac{y!}{z_1!z_2! \cdots z_n!} \left(\frac{1}{n}\right)^{z_1} \left(\frac{1}{n}\right)^{z_2} \cdots \left(\frac{1}{n}\right)^{z_n}$

da eine Poisson-Verteilung mit dem Mittelwert . Die letztere Verteilung ist multinomial mit unabhängigen Versuchen, von denen jeder auf eine von gegenseitig ausschließenden und erschöpfenden Arten endet , von denen jeder die gleiche Wahrscheinlichkeit . Dementsprechend führt eine solche multinomial Experiment unabhängige Versuche und erhält .“ $Y=\sum Z_i$ $n \theta$ $y$ $n$ $1/n$ $B$ $y$ $z_1,\ldots,z_n$

Das steht in der Übung. Also machen wir genau das:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Und mal sehen, wie aussieht (ich zeichne auch die reale Dichte von Poisson (4) für - alles über 13 ist praktisch Null - zum Vergleich): $Z$ $k=0,1,\ldots,13$

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

Wir wussten also nichts über und wussten nur die ausreichende Statistik thgr; i. Wir waren in der Lage, eine "Verteilung" umzuschreiben, die einer Poisson (4) -Verteilung ähnelt (wenn zunimmt, werden die beiden Kurven ähnlicher). . $\theta$ $Y=\sum X_i$ $n$

Nun vergleiche und : $X$ $Z|y$

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

Wir sehen, dass sie sich auch ziemlich ähnlich sind (wie erwartet)

"Um eine statistische Entscheidung zu treffen, können wir die einzelnen Zufallsvariablen ignorieren und die Entscheidung vollständig auf der Grundlage von " (Ash, R. "Statistical Inference: A concise course") treffen. , Seite 59). $X_i$ $Y=X_1+X_2+\cdots+X_n$

Gus_est
quelle

Lassen Sie mich eine andere Perspektive geben, die helfen kann. Dies ist auch qualitativ, aber es gibt eine strenge Version davon, die in der Informationstheorie besonders wichtig ist - bekannt als Markov-Eigenschaft.

Am Anfang haben wir zwei Objekte, Daten (aus einer Zufallsvariablen, nennen wir es X) und Parameter, (ein anderes rv, das implizit angenommen wird, da es sich um seinen Schätzer handelt). Man geht davon aus, dass diese beiden voneinander abhängig sind (andernfalls macht es keinen Sinn, zu versuchen, sie voneinander abzuschätzen). Nun betritt das dritte Objekt das Spiel, ausreichend Statistik, T. Die intuitive Idee, wenn wir sagen, dass T ausreicht, um zu schätzen, bedeutet, dass X, wenn wir T kennen (dh auf T konditioniert), keine zusätzlichen Informationen liefert, das heißt, X und sind unabhängig. Mit anderen Worten, die Kenntnis von X entspricht der Kenntnis von T bis zur Schätzung von $\theta$ $\theta$ $\theta$ $\theta$ ist besorgt. Beachten Sie, dass in Wahrscheinlichkeiten alle Unsicherheiten erfasst werden und daher "jede Schätzung", wenn (bedingte) Wahrscheinlichkeiten unabhängig sind (z. B. bedingte Dichten faktorisieren).

Mahdi
quelle