Wenn ich den Median einer ausreichend großen Anzahl von Beobachtungen aus derselben Verteilung berechne, gibt der zentrale Grenzwertsatz dann an, dass die Verteilung der Mediane einer Normalverteilung nahekommt? Ich verstehe, dass dies mit den Mitteln einer großen Anzahl von Proben zutrifft, aber gilt dies auch für Mediane?
Wenn nicht, wie ist die zugrunde liegende Verteilung der Stichprobenmediane?
normal-distribution
mathematical-statistics
sampling
median
central-limit-theorem
user1728853
quelle
quelle
Antworten:
Wenn Sie in Bezug auf Indikatorvariablen arbeiten (dh wenn und andernfalls), können Sie den zentralen Grenzwertsatz direkt auf einen Mittelwert von anwenden und mit der Delta-Methode in eine asymptotische Normalverteilung für , was wiederum bedeutet, dass Sie eine asymptotische Normalität für feste Quantile von .Zi=1 Xi≤x 0 Z F - 1 X ( ˉ Z ) XF−1X(Z¯) X
Also nicht nur der Median, sondern auch Quartile, 90. Perzentile usw.
Wenn wir über das te Stichprobenquantil in ausreichend großen Stichproben sprechen , erhalten wir, dass es ungefähr eine Normalverteilung mit dem Mittelwert des ten Populationsquantils und der Varianz .q q xq q(1−q)/(nfX(xq)2)
Für den Median ( ) die Varianz in ausreichend großen Stichproben ungefähr .q=1/2 1/(4nfX(μ~)2)
Sie brauchen natürlich alle Bedingungen auf dem Weg zum Halten, damit es nicht in allen Situationen funktioniert, sondern für kontinuierliche Verteilungen, bei denen die Dichte im Populationsquantil positiv und differenzierbar ist, usw.
Außerdem gilt dies nicht für extreme Quantile, da die CLT dort nicht einschaltet (der Durchschnitt der Zs ist nicht asymptotisch normal). Sie brauchen eine andere Theorie für Extremwerte.
Edit: Whubers Kritik ist richtig; Dies würde funktionieren, wenn ein Populationsmedian und kein Stichprobenmedian wäre. Das Argument muss geändert werden, damit es ordnungsgemäß funktioniert.x
quelle
Die Schlüsselidee ist, dass die Stichprobenverteilung des Medians einfach als Verteilungsfunktion auszudrücken ist, aber komplizierter als der Medianwert. Sobald wir verstanden haben, wie die Verteilungsfunktion Werte als Wahrscheinlichkeiten wiedergeben kann, ist es einfach, die genaue Stichprobenverteilung des Medians abzuleiten . Eine kleine Analyse des Verhaltens der Verteilungsfunktion in der Nähe ihres Medians ist erforderlich, um zu zeigen, dass dies asymptotisch normal ist.
(Dieselbe Analyse gilt für die Stichprobenverteilung eines beliebigen Quantils, nicht nur für den Median.)
Ich werde nicht versuchen, bei dieser Darstellung streng zu sein, aber ich führe sie in Schritten durch, die ohne weiteres streng gerechtfertigt sind, wenn Sie die Absicht haben, dies zu tun.
Intuition
Dies sind Schnappschüsse einer Box mit 70 Atomen eines heißen Atomgases:
In jedem Bild habe ich einen Ort gefunden, der als rote vertikale Linie dargestellt ist und die Atome in zwei gleiche Gruppen zwischen den linken (als schwarze Punkte gezeichneten) und rechten (weißen Punkten) aufteilt. Dies ist ein Median der Positionen: 35 der Atome liegen zu seiner Linken und 35 zu seiner Rechten. Die Mediane ändern sich, weil sich die Atome zufällig um die Box bewegen.
Wir sind an der Verteilung dieser Mittelstellung interessiert. Eine solche Frage wird durch Umkehren meines Verfahrens beantwortet: Zeichnen wir zunächst eine vertikale Linie, beispielsweise an Position . Wie groß ist die Chance, dass sich die Hälfte der Atome links von x und die Hälfte rechts davon befindet? Die Atome links hatten einzeln die Chance, dass x links ist. Die Atome rechts hatten einzeln die Chance 1 - x rechts zu sein. Unter der Annahme, dass ihre Positionen statistisch unabhängig sind, multiplizieren sich die Chancen und ergeben x 35 ( 1 - x ) 35x x x 1−x x35(1−x)35 für die Chance dieser besonderen Konfiguration. Eine äquivalente Konfiguration könnte für eine unterschiedliche Aufteilung der Atome in zwei Teile mit 35 Elementen erreicht werden. Das Addieren dieser Zahlen für alle möglichen derartigen Teilungen ergibt eine Chance von70 35
Dabei ist die Gesamtzahl der Atome und ist proportional zur Anzahl der Teilungen von Atomen in zwei gleiche Untergruppen.C nn C n
Diese Formel gibt die Verteilung des Medians als Beta Verteilung(n/2+1,n/2+1) .
Betrachten Sie nun eine Box mit einer komplizierteren Form:
Auch hier variieren die Mediane. Da die Box in der Nähe des Zentrums niedrig ist, gibt es dort nicht viel von ihrem Volumen: eine kleine Änderung des Volumens, das die linke Hälfte der Atome einnimmt (die schwarzen noch einmal) - oder, wir könnten genauso gut zugeben, Der in diesen Abbildungen gezeigte linke Bereich entspricht einer relativ großen Änderung der horizontalen Position des Medians. Tatsächlich werden die Änderungen in den Medianen durch die Höhe der Box dividiert , da die Fläche, die von einem kleinen horizontalen Abschnitt der Box begrenzt wird, proportional zur Höhe dort ist . Dies bewirkt, dass der Median für dieses Feld variabler ist als für das quadratische Feld, da dieses Feld in der Mitte so viel niedriger ist.
Kurz gesagt, wenn wir die Position des Medians in Bezug auf die Fläche (links und rechts) messen , bleibt die ursprüngliche Analyse (für ein quadratisches Kästchen) unverändert. Die Form des Kastens erschwert die Verteilung nur, wenn wir darauf bestehen, den Median in Bezug auf seine horizontale Position zu messen. Wenn wir dies tun, ist die Beziehung zwischen der Flächen- und der Positionsdarstellung umgekehrt proportional zur Höhe des Kastens.
Aus diesen Bildern kann man noch mehr lernen. Es ist klar, dass, wenn sich nur wenige Atome in (beiden) Kisten befinden, die Wahrscheinlichkeit größer ist, dass sich die Hälfte von ihnen versehentlich zu beiden Seiten gruppiert. Mit zunehmender Anzahl der Atome nimmt das Potenzial für ein derart extremes Ungleichgewicht ab. Um dies zu verfolgen, nahm ich "Filme" - eine lange Serie von 5000 Bildern - für die gebogene Box, die mit , dann mit , dann mit und schließlich mit Atomen gefüllt war , und notierte die Mediane. Hier sind Histogramme der Medianpositionen:15 75 3753 15 75 375
Es ist klar, dass bei einer ausreichend großen Anzahl von Atomen die Verteilung ihrer Medianposition glockenförmig erscheint und enger wird: Das sieht nach einem Ergebnis des zentralen Grenzwertsatzes aus, nicht wahr?
Quantitative Ergebnisse
Die "Box" zeigt natürlich die Wahrscheinlichkeitsdichte einiger Verteilungen: Oben ist der Graph der Dichtefunktion (PDF). Somit repräsentieren Bereiche Wahrscheinlichkeiten. Das zufällige und unabhängige Platzieren von Punkten in einer Box und das Beobachten ihrer horizontalen Positionen ist eine Möglichkeit, eine Stichprobe aus der Verteilung zu ziehen. (Dies ist die Idee, die hinter der Ablehnungsabtastung steht. )n
Die nächste Abbildung verbindet diese Ideen.
Das sieht kompliziert aus, ist aber recht einfach. Es gibt hier vier verwandte Grundstücke:
Das obere Diagramm zeigt das PDF einer Verteilung zusammen mit einer Zufallsstichprobe der Größe . Werte, die größer als der Median sind, werden als weiße Punkte angezeigt. Werte kleiner als der Median als schwarze Punkte. Es braucht keine vertikale Skala, da wir wissen, dass die Gesamtfläche Einheit ist.n
Das mittlere Diagramm ist die kumulative Verteilungsfunktion für dieselbe Verteilung: Es verwendet die Höhe , um die Wahrscheinlichkeit zu bezeichnen. Es teilt seine horizontale Achse mit dem ersten Plot. Die vertikale Achse muss von nach da sie Wahrscheinlichkeiten darstellt.10 1
Der linke Plot soll seitwärts gelesen werden: Es ist das PDF der Beta- Distribution . Es wird gezeigt, wie sich der Median in der Box ändert, wenn der Median in Bezug auf die Bereiche links und rechts von der Mitte gemessen wird (anstatt anhand der horizontalen Position gemessen zu werden). Ich habe aus dieser PDF-Datei wie gezeigt zufällige Punkte gezogen und diese mit horizontalen gestrichelten Linien mit den entsprechenden Stellen auf der Original-CDF verbunden: So werden Volumina (links gemessen) in Positionen (oben, in der Mitte gemessen) konvertiert und untere Grafik). Einer dieser Punkte entspricht tatsächlich dem im oberen Diagramm gezeigten Median; Ich habe eine durchgezogene vertikale Linie gezeichnet, um das zu zeigen.16(n/2+1,n/2+1) 16
Das untere Diagramm ist die Abtastdichte des Medians, gemessen an seiner horizontalen Position. Sie wird erhalten, indem der Bereich (im linken Diagramm) in die Position konvertiert wird. Die Umrechnungsformel ergibt sich aus der Inversen der ursprünglichen CDF: Dies ist einfach die Definition der inversen CDF! (Mit anderen Worten, die CDF wandelt die Position in einen Bereich nach links um; die inverse CDF wandelt die Position von Bereich zu Bereich zurück.) Ich habe vertikale gestrichelte Linien gezeichnet, die zeigen, wie die zufälligen Punkte aus dem linken Diagramm in zufällige Punkte innerhalb des unteren Diagramms umgewandelt werden . Dieser Prozess des Hin- und Herlesens zeigt uns, wie wir von einem Bereich zu einer anderen Position gelangen.
Sei die CDF der Originalverteilung (mittlerer Plot) und die CDF der Beta-Verteilung. Um die Wahrscheinlichkeit zu ermitteln, dass der Median links von einer Position , verwenden Sie zuerst , um den Bereich links von im Feld zu erhalten: Dies ist selbst. Die Beta - Verteilung auf der linken Seite sagt uns die Chance , dass die Hälfte der Atome innerhalb dieses Volumens liegen wird, so dass : Dies ist die CDF der mittleren Position . Um das PDF zu finden (wie im unteren Diagramm gezeigt), nehmen Sie die Ableitung:F G x F x F(x) G(F(x))
Dabei ist die PDF-Datei (oberes Diagramm) und die Beta-PDF-Datei (linkes Diagramm).f g
Dies ist eine genaue Formel für die Verteilung des Medians für jede kontinuierliche Verteilung. (Mit etwas Sorgfalt bei der Interpretation kann es auf jede beliebige Verteilung angewendet werden, ob kontinuierlich oder nicht.)
Asymptotische Ergebnisse
Wenn sehr groß ist und keinen Sprung im Median hat, muss der Stichprobenmedian eng um den wahren Median der Verteilung variieren . Unter der Annahme, dass das PDF in der Nähe von ; stetig ist , ändert sich in der vorhergehenden Formel nicht wesentlich von seinem Wert bei , der durch Darüber hinaus ändert sich auch dort nicht wesentlich von seinem Wert: auf erste Ordnung,n F μ f μ f(x) μ, f(μ). F
Mit einer sich ständig verbessernden Näherung, wenn groß wird,n
Dies ist lediglich eine Verschiebung der Position und des Umfangs der Beta-Distribution. Die Neuskalierung durch dividiert die Varianz durch (die besser ungleich Null sein sollte!). Übrigens ist die Varianz von Beta sehr nahe an .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Diese Analyse kann als Anwendung der Delta-Methode angesehen werden .
Schließlich ist Beta für großes ungefähr normal . Es gibt viele Möglichkeiten, dies zu sehen. Am einfachsten ist es vielleicht, den Logarithmus der PDF-Datei in der Nähe von :(n/2+1,n/2+1) n 1/2
(Die Konstanten und normalisieren lediglich die Gesamtfläche auf Eins.) Durch die dritte Ordnung in ist dies dasselbe wie das Protokoll der normalen PDF mit der Varianz (Dieses Argument wird durch die Verwendung charakteristischer oder kumulativer Generierungsfunktionen anstelle des Protokolls der PDF-Datei verschärft.)C C′ x, 1/(4n).
Wenn wir dies zusammenfassen, schließen wir daraus
Die Verteilung des Stichprobenmedians hat eine Varianz von ungefähr .1/(4nf(μ)2)
und es ist ungefähr normal für große ,n
alles vorausgesetzt die PDF ist stetig und ungleich Null im Medianf μ.
quelle
R
, vielleicht mitlayout
, aber tatsächlich wurde er mit Mathematica 9 durchgeführt.Die leuchtende Antwort von @EngrStudent sagt uns, dass wir unterschiedliche Ergebnisse erwarten sollten, wenn die Verteilung stetig und diskret ist (die "roten" Graphen, bei denen die asymptotische Verteilung des Stichprobenmedians nicht spektakulär normal aussieht, entsprechen den Binomialverteilungen (3), Geometrisch (11), Hypergeometrisch (12), Negatives Binom (14), Poisson (18), Diskrete Uniform (22).
Und in der Tat ist dies der Fall. Wenn die Verteilung diskret ist, werden die Dinge kompliziert. Ich werde den Beweis für den Fall der absoluten Kontinuität erbringen und im Wesentlichen nur die bereits von @Glen_b gegebene Antwort detaillieren. Dann werde ich ein wenig darüber diskutieren, was passiert, wenn die Verteilung diskret ist, und außerdem eine aktuelle Referenz für alle, die sich für Tauchen interessieren im.
ABSOLUT KONTINUIERLICHE VERTRIEBUNG{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Betrachten Sie eine Sammlung von absolut kontinuierlichen Zufallsvariablen mit Verteilungsfunktion (cdf) und Dichtefunktion . Definiere wobei die Indikatorfunktion ist. Daher ist ein Bernoulli rv mit
Sei der Stichprobenmittelwert dieser iid Bernoullis, definiert für festes als was bedeutet, dass Der zentrale Grenzwertsatz gilt und wir habenYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Man beachte, dass dh nichts anderes als die empirische Verteilungsfunktion. Durch Anwendung der "Delta-Methode" erhalten wir für eine stetige und differenzierbare Funktion mit einer Ableitung ungleich Null am interessierenden PunktYn(x)=F^n(x) g(t) g′(t)
Wählen Sie nun wobei die Umkehrfunktion bezeichnet. Dies ist eine stetige und differenzierbare Funktion (da ist), und das haben wir durch das Inverse Function Theoremg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Einfügen dieser Ergebnisse auf in das von der Delta-Methode abgeleitete asymptotische Ergebnisg
und Vereinfachung,
..für jedes feste . Setzen Sie nun , den (wahren) Median der Bevölkerung. Dann haben wir und das obige allgemeine Ergebnis wird für unseren interessierenden Fallx x=m FX(m)=1/2
Aber konvergiert gegen den Stichprobenmedian . Das ist weilF−1X(F^n(m)) m^
Die rechte Seite der Ungleichung konvergiert gegen und das kleinste für das schließlich , ist der Stichprobenmedian.1/2 x FX≥1/2
So erhalten wir
DISCRETE DISTRIBUTIONS
Wenn die Verteilung diskret ist (oder wenn die Stichprobe Verbindungen enthält), wurde argumentiert, dass die "klassische" Definition von Stichprobenquantilen und damit auch des Medians als theoretisches Konzept in erster Linie irreführend sein kann verwendet, um zu messen, was man versucht, durch Quantile zu messen.
In jedem Fall wurde simuliert, dass unter dieser klassischen Definition (die wir alle kennen) die asymptotische Verteilung des Stichprobenmedians nicht normal und eine diskrete Verteilung ist.
Eine alternative Definition von Stichprobenquantilen erfolgt unter Verwendung des Konzepts der "Mittelverteilungs" -Funktion, die definiert ist alsFmid(x)=P(X≤x)−12P(X=x)
Die Definition von Stichprobenquantilen durch das Konzept der Mittelverteilungsfunktion kann als Verallgemeinerung angesehen werden, die als Sonderfälle die stetigen Verteilungen, aber auch die nicht so stetigen Verteilungen abdecken kann.
Unter anderem für den Fall diskreter Verteilungen wurde festgestellt, dass der durch dieses Konzept definierte Stichprobenmedian eine asymptotisch normale Verteilung mit einer ausgefeilten Varianz aufweist.
Die meisten davon sind aktuelle Ergebnisse. Die Referenz ist Ma, Y., Genton, MG & Parzen, E. (2011). Asymptotische Eigenschaften von Probenquantilen mit diskreten Verteilungen. Annalen des Instituts für Statistische Mathematik, 63 (2), 227-243. Hier findet man eine Diskussion und Links zur älteren einschlägigen Literatur.
quelle
Ja, nicht nur für den Median, sondern für jedes Stichprobenquantil. Ausgehend von diesem Beitrag von TS Ferguson, Professor an der UCLA (seine Seite ist hier ), der sich interessanterweise mit der gemeinsamen Verteilung von Stichprobenmittelwert und Stichprobenquantilen befasst, haben wir:
Sei sei iid mit Verteilungsfunktion , Dichte , Mittelwert und endlicher Varianz . Sei und sei das Quantil von , so dass . Es sei angenommen, dass die Dichte bei stetig und positiv . Sei das Quantil der Stichprobe . DannX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Für (Median) und Sie haben die CLT für Mediane,p=1/2⇒xp=m
quelle
Ich mag die analytische Antwort von Glen_b. Das ist eine gute Antwort.
Es braucht ein Bild. Ich mag Bilder.
Hier sind Bereiche der Elastizität in einer Antwort auf die Frage:
Für einen normalen Standard habe ich den folgenden MatLab-Code verwendet:
und ich habe die folgende Handlung als Ausgabe bekommen:
Warum tun Sie dies nicht für die anderen 22 oder so "eingebauten" Verteilungen, außer wenn Sie Prob-Plots verwenden (wobei gerade Linie sehr normal bedeutet)?
Und hier ist der Quellcode dafür:
Wenn ich den analytischen Beweis sehe, könnte ich denken, "theoretisch passen sie alle", aber wenn ich ihn ausprobiere, kann ich das mildern mit "es gibt eine Reihe von Möglichkeiten, wie dies nicht so gut funktioniert, oft mit diskreten oder stark eingeschränkten Bedingungen Werte "und dies könnte mich veranlassen, vorsichtiger zu sein, wenn ich die Theorie auf alles anwende, was Geld kostet.
Viel Glück.
quelle