Intuition dahinter, warum Steins Paradoxon nur in Dimensionen gilt

46

Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , , μ n 1 n 3nμ1,,μn1n3

Das war für mich zunächst sehr überraschend, aber es steckt eine gewisse Intuition dahinter, warum man erwarten könnte, dass die Standardschätzung unzulässig ist (insbesondere, wenn , dann , wie in Steins Originalarbeit beschrieben (siehe unten).xN(μ,1)Ex2μ2+n

Meine Frage ist vielmehr: Welche Eigenschaft des n dimensionalen Raums (für n3 ) fehlt R2 was Steins Beispiel erleichtert? Mögliche Antworten könnten über die Krümmung der n Kugel oder etwas völlig anderes sein.

Mit anderen Worten, warum ist das MLE in \ mathbb {R} ^ 2 zulässig R2?


Edit 1: Als Antwort auf @mpiktas Bedenken über 1.31 folgt ab 1.30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
so
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
Deshalb haben wir:

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Edit 2 : In dieser Arbeit beweist Stein, dass die MLE für N = 2 zulässig ist N=2.

Har
quelle
4
@mpiktas Es ist nicht so unangemessen, wie es aussieht. Die Situation ist ähnlich wie bei einer ANOVA, nachdem wir eine Suffizienzreduktion angewendet haben. Dies deutet darauf hin, dass die üblichen ANOVA-Schätzungen der Gruppenmittelwerte unzulässig sind, vorausgesetzt, wir versuchen, die Mittelwerte von mehr als 3 Gruppen zu schätzen (was sich als richtig herausstellt). Ich würde empfehlen, Beweise zu betrachten, dass die MLE für zulässig ist und zu sehen, wo sie fehlschlagen, wenn versucht wird, auf zu erweitern, anstatt nur Beweise zu betrachten, dass Steins Schätzer das tut, was er behauptet, was einmal einfach ist Sie haben tatsächlich den Schätzer im Auge. N=1,2N=3
Kerl
2
... und wissen, wie man Steins Lemma benutzt. Ich denke, es ist ein bisschen weniger direkt als ich es vor 6 Minuten dachte.
Kerl
2
Genau. Haben Sie dafür gute Referenzen (abgesehen von der Originalarbeit)? Ich fand Steins Originalarbeit zu rechenintensiv und hoffte, dass jemand in den letzten fünfzig Jahren eine andere Methode entwickelt hätte.
Har
2
Der Beweis, dass mir beigebracht wurde, war der von Brown und Hwang aus dem Jahr 1983, die eine Methode anwenden, die Blyth aus den frühen 1950er Jahren vorgeschlagen hat, glaube ich. Es ist ziemlich allgemein (allgemeiner als Steins Ergebnis, da es für die exponentielle Familie funktioniert) und, glaube ich, ganz anders als Stein. Aber es ist nicht trivial.
Kerl
2
@Har tolle Frage! (+1)
suncoolsu

Antworten:

43

Die Dichotomie zwischen den Fällen und für die Zulässigkeit der MLE des Mittelwerts einer dimensionalen multivariaten normalen Zufallsvariablen ist sicherlich schockierend.d<3d3d

Es gibt ein weiteres sehr berühmtes Beispiel für Wahrscheinlichkeit und Statistik, bei dem zwischen den Fällen und eine Zweiteilung besteht . Dies ist die Wiederholung eines einfachen zufälligen Ganges auf dem Gitter . Das heißt, die dimensionale einfache Irrfahrt ist in 1 oder 2 Dimensionen wiederkehrend, in Dimensionen jedoch vorübergehend . Das zeitkontinuierliche Analogon (in Form der Brownschen Bewegung) gilt ebenfalls.d<3d3Zddd3

Es stellt sich heraus, dass die beiden eng miteinander verbunden sind.

Larry Brown hat bewiesen, dass die beiden Fragen im Wesentlichen gleichwertig sind. Das heißt, der beste invariante Schätzer eines dimensionalen multivariaten normalen Mittelwertvektors ist nur dann zulässig, wenn die dimensionale Brownsche Bewegung wiederholt auftritt.μ^μ^(X)=Xdd

In der Tat gehen seine Ergebnisse viel weiter. Für jeden vernünftigen (dh generalisierten Bayes) Schätzer mit begrenztem (generalisiertem) Risiko gibt es eine explizite (!) Entsprechende dimensionale Diffusion, so dass die Estimator ist genau dann zulässig, wenn die entsprechende Diffusion wiederkehrend ist.μ~μ~(X)L2dμ~

Die lokale Mittelwert dieser Diffusion ist im Wesentlichen die Diskrepanz zwischen den beiden Schätzern, dh und die Kovarianz der Diffusion ist . Daraus ist leicht zu ersehen, dass für den Fall der MLE Brownsche Bewegung wiederhergestellt (neu skaliert) wird.μ~μ^2Iμ~=μ^=X

In gewissem Sinne können wir also die Frage der Zulässigkeit durch die Linse stochastischer Prozesse betrachten und gut untersuchte Eigenschaften von Diffusionen verwenden, um zu den gewünschten Schlussfolgerungen zu gelangen.

Verweise

  1. L. Brown (1971). Zulässige Schätzer, wiederkehrende Diffusionen und unlösbare Randwertprobleme . Ann. Mathematik. Stat. vol. 42, nein. 3, S. 855–903.
  2. RN Bhattacharya (1978). Kriterien für die Wiederholung und Existenz invarianter Maßnahmen für mehrdimensionale Diffusionen . Ann. Prob. vol. 6, nein. 4, 541–553.
Kardinal
quelle
2
Eigentlich ist so etwas das, was ich mir erhofft habe. Eine Verbindung zu einem anderen Gebiet der Mathematik (sei es Differentialgeometrie oder stochastische Prozesse), die zeigt, dass die Zulässigkeit für nicht nur ein Zufall war. Gute Antwort! n=2
Har
Inspiriert von Ihrer Antwort, lieferte ich einige Details und fügte eine geometrische Erklärung als Antwort auf dieses Problem bei MO hinzu: mathoverflow.net/questions/93745/…
Henry.L
21

@cardinal gab eine großartige Antwort (+1), aber das ganze Problem bleibt rätselhaft, es sei denn, man kennt die Beweise (und ich bin nicht). Ich denke also, die Frage bleibt, was ein intuitiver Grund dafür ist, dass Steins Paradoxon nicht in und .RR2

Ich finde eine in Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators, angebotene Regressionsperspektive sehr hilfreich . Betrachten Sie unabhängige Messungen , die jeweils einige zugrunde liegende (nicht beobachtete) und aus . Wenn wir das irgendwie kennen , könnten wir ein Streudiagramm von Paaren :XiθiN(θi,1)θi(Xi,θi)

Steins Paradoxon: Regressionsperspektive

Die diagonale Linie entspricht einem Rauschen von Null und einer perfekten Schätzung; In der Realität ist das Rauschen nicht Null und daher sind die Punkte von der Diagonalen in horizontaler Richtung versetzt . Entsprechend kann als eine Regressionslinie von auf . Wir kennen jedoch und möchten ; schätzen , daher sollten wir lieber eine Regressionslinie von auf die eine andere Neigung aufweist, die horizontal vorgespannt ist , wie in der Figur gezeigt (gestrichelte Linie).θ=Xθ=XXθXθθX

Zitat aus der Zeitung von Stigler:

Diese galtonische Perspektive auf das Stein-Paradox macht es nahezu transparent. Die "gewöhnlichen" Schätzer werden aus der theoretischen Regressionslinie von auf . Diese Linie wäre nützlich, wenn unser Ziel wäre, aus vorherzusagen , aber unser Problem ist das Gegenteil, nämlich aus Verwendung der Summe der quadratischen Fehler als ein Kriterium. Für dieses Kriterium sind die optimalen linearen Schätzer durch die Regressionslinie der kleinsten Quadrate von aufθ^i0=XiXθXθθX(θiθ^i)2θXund die James-Stein- und Efron-Morris-Schätzer sind selbst Schätzer dieses optimalen linearen Schätzers. Die "gewöhnlichen" Schätzer werden aus der falschen Regressionslinie abgeleitet, die Schätzer von James-Stein und Efron-Morris aus Näherungen an die richtige Regressionslinie.

Und jetzt kommt der entscheidende Punkt (Hervorhebung hinzugefügt):

Wir können auch sehen , warum notwendig ist : wenn oder , die Linie der kleinsten Quadrate von an durch die Punkte passieren muß und damit für oder , das an jedem müssen zwei Regressionsgeraden (von auf und von auf ) übereinstimmen .k3k=12θX(Xi,θi)k=12XθθXXi

Ich denke, das macht sehr deutlich, was das Besondere an und .k=1k=2

Amöbe sagt Reinstate Monica
quelle