Exponentielle Familie: Beobachtete vs. erwartete ausreichende Statistik

10

Meine Frage ergibt sich aus dem Lesen von Minkas "Schätzung einer Dirichlet-Verteilung" , in dem Folgendes ohne Beweis im Zusammenhang mit der Ableitung eines Maximum-Likelihood-Schätzers für eine Dirichlet-Verteilung auf der Grundlage von Beobachtungen von Zufallsvektoren angegeben wird:

Wie immer bei der Exponentialfamilie sind bei einem Gradienten von Null die erwarteten ausreichenden Statistiken gleich den beobachteten ausreichenden Statistiken.

Ich habe weder eine Maximum-Likelihood-Schätzung in der auf diese Weise dargestellten Exponentialfamilie gesehen, noch habe ich bei meiner Suche geeignete Erklärungen gefunden. Kann jemand einen Einblick in die Beziehung zwischen beobachteten und erwarteten ausreichenden Statistiken geben und vielleicht helfen, die Schätzung der maximalen Wahrscheinlichkeit als Minimierung ihrer Differenz zu verstehen?

Ben Bray
quelle

Antworten:

11

Dies ist eine übliche Behauptung über die exponentielle Familie, aber meiner Meinung nach wird sie meistens so formuliert, dass der weniger erfahrene Leser verwirrt wird. Da es zum Nennwert genommen werden könnte, könnte es so interpretiert werden, dass "wenn unsere Zufallsvariable einer Verteilung in der Exponentialfamilie folgt, wenn wir eine Stichprobe nehmen und sie in die ausreichende Statistik einfügen, erhalten wir den wahren erwarteten Wert der Statistik ". Wenn es nur so wäre ... Darüber hinaus wird die Größe der Stichprobe nicht berücksichtigt, was zu weiterer Verwirrung führen kann.

Die Exponentialdichtefunktion ist

(1)fX(x)=h(x)eη(θ)T(x)eA(θ)

wobei die ausreichende Statistik ist.T(x)

Da dies eine Dichte ist, muss sie sich zur Einheit integrieren, also ( ist die Unterstützung von )SxX

(2)Sxh(x)eη(θ)T(x)eA(θ)dx=1

Gl. gilt für alle damit wir beide Seiten in Bezug darauf unterscheiden können:(2)θ

(3)θSxh(x)eη(θ)T(x)eA(θ)dx=(1)θ=0

Wenn wir die Reihenfolge der Differenzierung und Integration vertauschen, erhalten wir

(4)Sxθ(h(x)eη(θ)T(x)eA(θ))dx=0

Die Differenzierung durchführen, die wir haben

(5)θ(h(x)eη(θ)T(x)eA(θ))=fX(x)[T(x)η(θ)A(θ)]

Durch Einfügen von in wir(5)(4)

SxfX(x)[T(x)η(θ)A(θ)]dx=0

(6)η(θ)E[T(X)]A(θ)=0E[T(X)]=A(θ)η(θ)

Nun fragen wir: Die linke Seite von ist eine reelle Zahl. Die rechte Seite muss also auch eine reelle Zahl sein und keine Funktion . Daher muss es bei einem bestimmten ausgewertet werden , und es sollte das "wahre" , sonst hätten wir auf der linken Seite nicht den wahren erwarteten Wert von . Um dies zu betonen, bezeichnen wir den wahren Wert mit und schreiben als(6)θθT(X)θ0(6)

(6a)Eθ0[T(X)]=A(θ)η(θ)|θ=θ0

Wir wenden uns nun der Maximum-Likelihood-Schätzung zu . Die Log-Wahrscheinlichkeit für eine Stichprobe der Größe beträgtn

L(θx)=i=1nlnh(xi)+η(θ)i=1nT(xi)nA(θ)

Wenn wir seine Ableitung in Bezug auf gleich , erhalten wir die MLEθ0

(7)θ^(x):1ni=1nT(xi)=A(θ)η(θ)|θ=θ^(x)

Vergleiche mit . Die rechten Seiten sind nicht gleich, da wir nicht argumentieren können, dass der MLE-Schätzer den wahren Wert erreicht hat. Also auch nicht die linken Seiten. Aber denken Sie daran, dass Gl. gilt für alle und so auch für . Die Schritte in Gl. kann in Bezug auf und so können wir Gl. für :(7)(6a)2 θθ^3,4,5,6θ^6aθ^

(6b)Eθ^(x)[T(X)]=A(θ)η(θ)|θ=θ^(x)

was uns in Kombination mit zu der gültigen Beziehung führt(7)

Eθ^(x)[T(X)]=1ni=1nT(xi)

Das ist es, was die untersuchte Behauptung wirklich sagt: der erwartete Wert der ausreichenden Statistik unter dem MLE für die unbekannten Parameter (mit anderen Worten, der Wert des ersten rohen Moments der Verteilung, den wir erhalten, wenn wir anstelle von ) entspricht (und wird nicht nur durch) dem Durchschnitt der aus der Stichprobe berechneten ausreichenden Statistik angenähert . θ^(x)θx

Darüber hinaus können wir nur dann genau sagen, wenn die Stichprobengröße ist: "Der erwartete Wert der ausreichenden Statistik unter dem MLE entspricht der ausreichenden Statistik".n=1

Alecos Papadopoulos
quelle
Könnten Sie bitte näher erläutern, warum der Übergang von 6a zu 6b gültig ist?
Theoden
1
@Theoden Zwischen Gl. und Ich schreibe "Gleichung gilt für alle " - und daher auch für . Alle Schritte in Gl. kann in Bezug auf . Ich habe diese Bemerkung im Text zur Klarheit wiederholt. (2)(3)(2) θθ^3,4,5,6θ^
Alecos Papadopoulos
@AlecosPapadopoulos Ihr Beweis unten scheint darauf hinzudeuten, dass das, was Sie zu Beginn sagen - "Wenn unsere Zufallsvariable einer Verteilung in der Exponentialfamilie folgt, erhalten wir den wahren erwarteten Wert, wenn wir eine Stichprobe nehmen und sie in die ausreichende Statistik einfügen der Statistik "ist wahr. Ich meine, ich kann das einfach immer für (2) tun, indem ich es durch den beobachteten ausreichenden Status ersetze und das Ergebnis erhalte. Was fehlt mir hier? Ich verstehe es nicht ganz.
user10024395
@ user136266 Der wahre erwartete Wert der Statistik ist , und um berechnet zu werden, muss man den Parameter kennen, der vom Design her unbekannt ist . Was wir also tatsächlich berechnen können, ist was der erwartete Wert der Statistik unter der Annahme ist, dass unsere Punktschätzung den wahren Wert erreicht hat . 6aθ6b
Alecos Papadopoulos
1
Können Sie erklären, warum wir die Reihenfolge der Differenzierung und Integration in Gl. (3) bitte?
Markus777