Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , … , μ n 1 n ≥ 3
Das war für mich zunächst sehr überraschend, aber es steckt eine gewisse Intuition dahinter, warum man erwarten könnte, dass die Standardschätzung unzulässig ist (insbesondere, wenn , dann , wie in Steins Originalarbeit beschrieben (siehe unten).
Meine Frage ist vielmehr: Welche Eigenschaft des dimensionalen Raums (für ) fehlt was Steins Beispiel erleichtert? Mögliche Antworten könnten über die Krümmung der Kugel oder etwas völlig anderes sein.
Mit anderen Worten, warum ist das MLE in \ mathbb {R} ^ 2 zulässig ?
Edit 1: Als Antwort auf @mpiktas Bedenken über 1.31 folgt ab 1.30:
Edit 2 : In dieser Arbeit beweist Stein, dass die MLE für N = 2 zulässig ist .
Antworten:
Die Dichotomie zwischen den Fällen und für die Zulässigkeit der MLE des Mittelwerts einer dimensionalen multivariaten normalen Zufallsvariablen ist sicherlich schockierend.d<3 d≥3 d
Es gibt ein weiteres sehr berühmtes Beispiel für Wahrscheinlichkeit und Statistik, bei dem zwischen den Fällen und eine Zweiteilung besteht . Dies ist die Wiederholung eines einfachen zufälligen Ganges auf dem Gitter . Das heißt, die dimensionale einfache Irrfahrt ist in 1 oder 2 Dimensionen wiederkehrend, in Dimensionen jedoch vorübergehend . Das zeitkontinuierliche Analogon (in Form der Brownschen Bewegung) gilt ebenfalls.d<3 d≥3 Zd d d≥3
Es stellt sich heraus, dass die beiden eng miteinander verbunden sind.
Larry Brown hat bewiesen, dass die beiden Fragen im Wesentlichen gleichwertig sind. Das heißt, der beste invariante Schätzer eines dimensionalen multivariaten normalen Mittelwertvektors ist nur dann zulässig, wenn die dimensionale Brownsche Bewegung wiederholt auftritt.μ^≡μ^(X)=X d d
In der Tat gehen seine Ergebnisse viel weiter. Für jeden vernünftigen (dh generalisierten Bayes) Schätzer mit begrenztem (generalisiertem) Risiko gibt es eine explizite (!) Entsprechende dimensionale Diffusion, so dass die Estimator ist genau dann zulässig, wenn die entsprechende Diffusion wiederkehrend ist.μ~≡μ~(X) L2 d μ~
Die lokale Mittelwert dieser Diffusion ist im Wesentlichen die Diskrepanz zwischen den beiden Schätzern, dh und die Kovarianz der Diffusion ist . Daraus ist leicht zu ersehen, dass für den Fall der MLE Brownsche Bewegung wiederhergestellt (neu skaliert) wird.μ~−μ^ 2I μ~=μ^=X
In gewissem Sinne können wir also die Frage der Zulässigkeit durch die Linse stochastischer Prozesse betrachten und gut untersuchte Eigenschaften von Diffusionen verwenden, um zu den gewünschten Schlussfolgerungen zu gelangen.
Verweise
quelle
@cardinal gab eine großartige Antwort (+1), aber das ganze Problem bleibt rätselhaft, es sei denn, man kennt die Beweise (und ich bin nicht). Ich denke also, die Frage bleibt, was ein intuitiver Grund dafür ist, dass Steins Paradoxon nicht in und .R R2
Ich finde eine in Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators, angebotene Regressionsperspektive sehr hilfreich . Betrachten Sie unabhängige Messungen , die jeweils einige zugrunde liegende (nicht beobachtete) und aus . Wenn wir das irgendwie kennen , könnten wir ein Streudiagramm von Paaren :Xi θi N(θi,1) θi (Xi,θi)
Die diagonale Linie entspricht einem Rauschen von Null und einer perfekten Schätzung; In der Realität ist das Rauschen nicht Null und daher sind die Punkte von der Diagonalen in horizontaler Richtung versetzt . Entsprechend kann als eine Regressionslinie von auf . Wir kennen jedoch und möchten ; schätzen , daher sollten wir lieber eine Regressionslinie von auf die eine andere Neigung aufweist, die horizontal vorgespannt ist , wie in der Figur gezeigt (gestrichelte Linie).θ=X θ=X X θ X θ θ X
Zitat aus der Zeitung von Stigler:
Und jetzt kommt der entscheidende Punkt (Hervorhebung hinzugefügt):
Ich denke, das macht sehr deutlich, was das Besondere an und .k=1 k=2
quelle