Ich habe eine Verteilung von Proben mit einer kleinen Anzahl von Werten in jeder (weniger als ). Ich habe den Median für jede Stichprobe berechnet, den ich mit einem Modell vergleichen und die Differenz zwischen dem Modell und dem Median jeder Stichprobe ermitteln möchte. Um ein konsistentes Ergebnis zu erzielen, benötige ich einen Fehler in Bezug auf diesen Unterschied.
Dies führt dazu, dass es in einem solchen Fall ziemlich schwierig sein kann, die Standardabweichung zu finden, zumindest für einen Nicht-Profi wie mich (siehe zum Beispiel hier ).
Ich habe diese Website gefunden, auf der angegeben ist, wie Konfidenzintervalle für den Median berechnet werden, auch wenn keine offizielle Referenz angegeben ist.
Es scheint mir vernünftig, aber ich kann es nicht wirklich beurteilen, deshalb würde ich gerne wissen:
- Sind diese Formeln korrekt?
- Gibt es eine Referenz dafür?
- Was ist, wenn ich CI anders als finden möchte ?
Danke im Voraus
EDIT: Ich habe auch dieses Beispiel für Bootstrapping für nicht-Gaußsche Daten gefunden . Jetzt weiß ich nicht viel über Bootstrapping, aber es wäre gut, eine Adresse über deren Gültigkeit zu haben.
Antworten:
Zusammenfassung
Wenn Sie wenig oder gar nichts über das wahre Wahrscheinlichkeitsgesetz annehmen und wenig daraus schließen können - was bei kleinen Stichproben von Beobachtungen der Fall ist -, bildet ein geeignet ausgewähltes Paar von Ordnungsstatistiken ein Konfidenzintervall für den Median. Welche Ordnungsstatistik zu wählen ist, kann mit einer schnellen Analyse der Binomialverteilung leicht gefunden werden . In der Praxis müssen einige Entscheidungen getroffen werden: Diese werden am Ende dieses Beitrags erörtert und veranschaulicht.( n , 1 / 2 )n (n,1/2)
Im Übrigen kann dieselbe Analyse verwendet werden, um Konfidenzintervalle für jedes Quantil zu konstruieren (von denen der Median, der , ein Beispiel ist). Die Binomialverteilung in diesem Fall die Lösung.q = 50 % ( n , q )q q=50% (n,q)
Einführung
Denken Sie daran, was ein Konfidenzintervall (CI) bedeutet. Die Einstellung ist eine unabhängige Zufallsstichprobe wobei jedes von derselben Verteilung . Es wird nur angenommen, dass ein Element einer Menge möglicher Verteilungen ist. Jeder von ihnen hat einen Median . Für jedes feste zwischen und ist ein CI der Stufe ein Funktionspaar (auch "Statistik" genannt), und , so dassX i F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,…,Xn) Xi F F Ω F1/2 α 0 1 α L U
Die rechte Seite ist die Abdeckung des CI für die Verteilung .F
Abgesehen davon: Damit dies nützlich ist, bevorzugen wir auch, dass (1) das Infimum der Bedeckungen über so klein wie möglich ist und (2) die erwartete Länge des Intervalls sollte dazu neigen, für alle oder "die meisten" .F∈Ω EF(U(X)−L(X)) F∈Ω
Analyse
Angenommen, wir nehmen nichts über .Ω In dieser Situation können wir die Auftragsstatistik weiterhin nutzen . Dies sind die spezifischen Werte in der sortierten Stichprobe. Um die Notation zu vereinfachen, sortieren wir das Sample ein für alle Mal, damit
Der Wert ist die Ordnungsstatistik der Stichprobe. Da wir nichts über annehmen , wissen wir zunächst nichts über , so dass wir nicht viel über die wahrscheinlichen Intervalle zwischen jedem und seinem Nachbarn . Wir können jedoch immer noch quantitativ über die einzelnen Werte nachdenken: Wie ist die Wahrscheinlichkeit, dass den Median von nicht überschreitet ? Um dies herauszufinden, sei eine Zufallsvariable, die von regiert wird , und seiXi ith Ω F Xi Xi+1 Xi F Y F
sei die Chance, dass den Median von nicht überschreitet . Wenn dann , wissen wir (seit ), dass unsere ursprüngliche ungeordnete Stichprobe von Werten mindestens Werte enthalten muss, die nicht überschreiten. .Y F Xi≤F1/2 X1≤⋯≤Xi≤F1/2 n i F1/2
Dies ist ein Binomialproblem. Wenn wir die Zufallsvariable so definieren , dass sie gleich wenn und andernfalls , zeigt das Vorstehende, dass eine Bernoulli-Verteilung mit dem Parameter . Ein "Erfolg" besteht darin, einen Wert am oder unter dem Median zu beobachten. Daher ist durch die Binomialwahrscheinlichkeit gegeben, die mit weniger als Erfolgen verbunden ist:Z 1 Y≤F1/2 0 Z πF Pr(Xi>F1/2) i
Sie haben wahrscheinlich bemerkt, dass . Tatsächlich sind für viele Verteilungen die beiden Werte gleich: Sie unterscheiden sich nur, wenn dem Median eine positive Wahrscheinlichkeit zuweist . Um den Unterschied zu analysieren, schreiben Sie für . Für impliziert diesπF≥1/2 F F1/2 πF=1/2+ε ε≥0 2(j−1)≤n
Wenn also , können wir die Abhängigkeit der Summe von auf Kosten des Ersetzens der Gleichheit durch eine Ungleichung beseitigen:2(i−1)≤n F
Genau das gleiche Argument (angewendet durch Umkehren der Ordnungsstatistik) zeigt, dass wenn ,2(i+1)≥n
Die rechten Seiten werden immer dann auf Null reduziert, wenn (im ersten Fall) oder (im zweiten Fall ). Daher ist es immer möglich , Indizes zu finden , für diei≤0 i≥n l≤u
Lösung
Dies ist die Ergänzung der definierenden Bedingung für ein Konfidenzintervall und daher äquivalent dazu:
Durch Auswahl von , um die rechte Seite auf mindestens , haben wir ein Konfidenzintervallverfahren gefunden, dessen Pegel mindestens beträgt .l≤u 1−α 1−α
Mit anderen Worten, bei Auswahl solcher Indizes und durch Setzen von und ist das Intervall ein CI für den Median mit einer Abdeckung von mindestens . Sie können die tatsächliche Abdeckung anhand der Binomialwahrscheinlichkeiten berechnen. Diese Abdeckung wird für jede Verteilung die (die alle kontinuierlichen Verteilungen enthält) eine Wahrscheinlichkeit von Null zuweist . Es wird von jedem überschritten , das Wahrscheinlichkeit ungleich Null zuweist .l u L(X)=Xl U(X)=Xu [L(X),U(X)] F1/2 1−α F F1/2 F F1/2
Diskussion
An diesem Punkt haben wir einige Möglichkeiten. Am gebräuchlichsten ist es, die Grenzen symmetrisch zu machen, indem relativ nahe an . Tatsächlich können durch Festlegen von die Konfidenzgrenzen für jedes mit einer schnellen Suche oder durch Anwenden der Binomialquantilfunktion gefunden werden.u n+1−l u=n+1−l n
Zum Beispiel sei und (um eine CI-Prozedur zu veranschaulichen ). Lassen Sie uns den unteren Teil der kumulativen Binomialverteilung mit den Parametern und :n=10 α=10% 1−α=90% 10 1/2
(Dies ist ein2 5.5% α/2 l=3 u=10+1−3=8 1−0.055−0.055=0.89 90% l=2 u=8 l=3 u=9 1−0.011−.055=0.935
R
Befehl und seine Antwort.) Da der Wert bei , der , nahe bei , ist es verlockend, und , z dann beträgt die Abdeckung was nahe am Ziel von . Wenn Sie die gewünschte Abdeckung erreichen müssen , müssen Sie und oder und , beide mit einer Abdeckung von .Lassen Sie uns zur Überprüfung viele Datensätze aus jeder Verteilung simulieren, diese CIs für die Datensätze berechnen und den Anteil der CIs berechnen, die den wahren Median abdecken. In diesem
R
Beispiel wird eine Normalverteilung verwendet:Die Ausgabe ist
Die Deckungen stimmen eng mit den theoretischen Werten überein.
Als weiteres Beispiel ziehen wir Stichproben aus einer diskreten Verteilung, z. B. einem Poisson:
Diesmal sind die Deckungen viel höher als erwartet. Der Grund dafür ist , dass es eine Chance , dass ein Zufallswert ist gleich dem Median. Dies erhöht die Wahrscheinlichkeit, dass der CI den Median abdeckt, erheblich. Dies ist kein Problem oder Paradoxon. Per Definition muss die Abdeckung mindestens betragen, unabhängig von der Verteilung - aber es ist möglich (wie in diesem Fall), dass die Abdeckung für bestimmte Verteilungen wesentlich größer als .27% 1−α F 1−α
Darin liegt der Kompromiss: Wenn Sie nichts über annehmen , ist das auf Auftragsstatistiken basierende CI das einzige, das Sie erstellen können. Die Abdeckung für Ihr wahres (aber unbekanntes) möglicherweise etwas höher als erwartet. Das bedeutet, dass Ihr CI breiter ist, als wenn Sie einige stärkere Annahmen über indem Sie die Möglichkeiten für .F F Ω F
quelle
Wenn Sie numerische Methoden verwenden möchten, können Sie mithilfe von Bootstrap eine Schätzung der Samping-Verteilung von Medianen erstellen. Wiederholen Sie die Stichprobe wiederholt und berechnen Sie viele Mediane. Der Standardwert dieser Mediane dient als Schätzung des Standardwerts der Stichprobenverteilung der Mediane. Ich habe eine ähnliche Methode verwendet, um die Unsicherheit der Ergebnisse von Schachspielen in meinem Artikel über Schachspiele zu berechnen, den Sie hier finden: https://sonoma.academia.edu/JamalMunshi/papers
quelle