Eine unvoreingenommene Schätzung des Medians

16

Angenommen, wir haben eine Zufallsvariable X die von [0,1] aus der wir Stichproben ziehen können. Wie können wir eine unvoreingenommene Schätzung des Medians von X erstellen?

Wir können natürlich einige Stichproben generieren und den Stichprobenmedian nehmen, aber ich verstehe, dass dies im Allgemeinen nicht unvoreingenommen sein wird.

Hinweis: Diese Frage ist mit meiner letzten Frage verwandt, aber nicht identisch. In diesem Fall konnte X nur ungefähr abgetastet werden.

Robinson
quelle

Antworten:

13

Einen solchen Schätzer gibt es nicht.

Die Intuition ist, dass der Median fest bleiben kann, während wir die Wahrscheinlichkeitsdichte auf beiden Seiten frei verschieben, sodass jeder Schätzer, dessen Durchschnittswert der Median für eine Verteilung ist, einen anderen Durchschnitt für die geänderte Verteilung hat, wodurch er verzerrt wird. Die folgende Darstellung verleiht dieser Intuition etwas mehr Genauigkeit.


Wir konzentrieren uns auf Verteilungen mit einzigartigen Mediane m , so dass per Definition F ( m ) 1 / 2 und F ( x ) < 1FmF(m)1/2 für alle x < m . Legen Sie eine Stichprobengröße n 1 fest und nehmen Sie an, dass t : [ 0 , 1 ]F(x)<1/2x<mn1m schätzt. (Es wird ausreichen, dass tt:[0,1]n[0,1]mtnur begrenzt sein, aber normalerweise werden Schätzer, die offensichtlich unmögliche Werte liefern, nicht ernsthaft in Betracht gezogen.) Wir machen keine Annahmen über ; es muss nicht einmal überall durchgehend sein.t

Die Bedeutung von als unverzerrt (für diese feste Stichprobengröße) ist die folgendet

EF[t(X1,,Xn)]=m

für jede iid Probe mit . Ein „unverzerrter Schätzer“ t ist ein mit dieser Eigenschaft für alle solche F .XiFtF

Angenommen, ein unvoreingenommener Schätzer existiert. Wir werden einen Widerspruch herleiten, indem wir ihn auf eine besonders einfache Menge von Distributionen anwenden. Betrachten Sie Verteilungen mit folgenden Eigenschaften:F=Fx,y,m,ε

  1. ;0x<y1

  2. ;0<ε<(yx)/4

  3. ; < m < y - & epsi ;;x+ε<m<yε

  4. ; ) / 2 ;Pr(X=x)=Pr(X=y)=(1ε)/2

  5. ;m + & epsi ; ) = & epsi ;; undPr(mεXm+ε)=ε

  6. ist einheitlich auf [F .[mε,m+ε]

Diese Verteilungen platzieren die Wahrscheinlichkeit bei jedem von x und y und einen winzigen Betrag der Wahrscheinlichkeit, der symmetrisch um m zwischen x und y liegt . Dies macht m zum einzigartigen Median von(1ε)/2xymxym . (Wenn Sie befürchten, dass dies keine kontinuierliche Verteilung ist, falten Sie sie mit einem sehr engen Gaußschen Wert zusammen und kürzen Sie das Ergebnis auf [ 0 , 1 ] : Das Argument ändert sich nicht.)F[0,1]

Für jeden vermuteten Medianschätzer zeigt eine einfache Schätzung, dass E [ t ( X 1 , X 2 , , X n ) ] genau innerhalb von ε des Durchschnitts der 2 n- Werte t ( x 1) liegttE[t(X1,X2,,Xn)]ε2n wobei x i über alle möglichen Kombinationen von x und y variiert. Wir können jedoch m variierent(x1,x2,,xn)xixymzwischen epsi ; und y - & epsi ; eine Änderung von mindestens , m , ε , für die diese Erwartung nicht gleich dem Median QED ist.x+εyε (aufgrund der Bedingungen 2 und 3). Es existiert also ein m und daher eine entsprechende Verteilung F x , yεmFx,y,m,ε

whuber
quelle
(+1) Netter Beweis. Hast du es dir ausgedacht oder ist es etwas, an das du dich von der Graduiertenschule erinnert hast?
StasK
4
Hier ist ein weiterer Beweis: Die meisten Bernoulli-Zufallsvariablen haben den Median oder 1 . Die Schätzung aus n Versuchen hängt nur von den Durchschnittswerten des Schätzers für die Eckpunkte von [ 0 , 1 ] n mit k ab , und die Gewichtung dieser Durchschnittswerte ist ein Polynom in p des Grades n . Wenn dies ein unverzerrter Schätzer ist, muß es Mittelwert hat 1 für jeden p > 1 / 2 , und es gibt mehr als n + 1 solche Werte von p01n[0,1]nkpn1p>1/2n+1p, also muss dieses Polynom konstant sein ... aber es muss bei niedrigeren Werten von p , damit es auch dort nicht vorurteilsfrei sein kann. 0p
Douglas Zare
1
@Douglas Das ist ein toller Beweis. Ich vermute, dass einige Leute sich über den Umfang der Anwendbarkeit ein wenig unwohl fühlen, da der Median für eine Bernoulli-Variable etwas Besonderes ist und mit einem ihrer beiden Stützpunkte zusammenfällt (außer wenn ). Die Leser könnten versucht sein, dies als "pathologisch" zu bezeichnen und zu versuchen, solche Monster zu blockieren, indem sie nur kontinuierliche Verteilungen mit überall positiven Dichten in ihren Domänen betrachten. Deshalb habe ich darauf geachtet zu zeigen, dass solche Bemühungen scheitern werden. p=1/2
Whuber
3

Es wäre schwierig, einen unvoreingenommenen Schätzer ohne ein parametrisches Modell zu finden! Sie können jedoch Bootstrapping verwenden und damit den empirischen Median korrigieren, um einen ungefähr unvoreingenommenen Schätzer zu erhalten.

kjetil b halvorsen
quelle
Wenn dies unmöglich ist, ist es möglich, es zu beweisen? Wenn zum Beispiel unabhängige Abtastwerte von X sind, kann man dann beweisen, dass f ( X 1 , ... , X n ) für keine Wahl von f unverzerrt sein kann ? X1,X2,,XnXf(X1,,Xn)f
Robinson
2
Ich denke, kjetil sagt, dass es in einem nichtparametrischen Framework keine Methode gibt, die eine unvoreingenommene Schätzung für jede mögliche Verteilung liefert. Aber im parametrischen Rahmen könnten Sie wahrscheinlich. Durch Bootstrapping einer verzerrten Beispielschätzung können Sie die Verzerrung abschätzen und anpassen, um eine nahezu unbefangene Bootstrap-Schätzung zu erhalten. Das war sein Vorschlag, um das Problem im nichtparametrischen Rahmen zu behandeln. Es wäre auch schwierig zu beweisen, dass eine unvoreingenommene Schätzung nicht möglich ist.
Michael R. Chernick
2
Wenn Sie wirklich versuchen wollen, zu beweisen, dass es keinen unvoreingenommenen Schätzer gibt, dann gibt es ein Buch, Ferguson: "Mathematische Statistik - Ein entscheidungstheoretischer Ansatz", in dem es einige Beispiele dafür gibt!
kjetil b halvorsen
Ich stelle mir vor, dass die Regelmäßigkeitsbedingungen für den Bootstrap mit den Verteilungsfunktionen verletzt werden, die Whuber in seiner Antwort berücksichtigt. Michael, kannst du einen Kommentar abgeben?
StasK
2
@Stas Wie ich bereits erwähnt habe, können meine Funktionen durch Besänftigen sehr "schön" aussehen. Sie können auch auf Mollifikationen großer endlicher Atommischungen verallgemeinert werden. Die Klasse solcher Verteilungen ist in allen Verteilungen im Einheitsintervall dicht, daher glaube ich nicht, dass die Regelmäßigkeit des Bootstraps hier eine Rolle spielt.
whuber
0

Y=α+umed(y)=med(α+u)=α+med(u)αmed(u)=0 was wahr sein sollte, solange Sie unabhängige Draws haben. Was die Unparteilichkeit angeht, weiß ich es nicht. Mediane sind schwierig.

Francis
quelle
Siehe @ Whubers Antwort
Peter Flom - Reinstate Monica