Wie teste ich den Median einer Population?

9

Ich habe eine Stichprobe von 250 Einheiten. Die Verteilung ist asymmetrisch. Ich möchte eine Hypothese testen, dass der Median der Bevölkerung von 3,5 abweicht, daher halte ich einen Test mit einer Stichprobe für angemessen. Ich weiß, dass der Wilcoxon-Rang-Test nicht angemessen ist, da die Verteilung nicht symmetrisch ist. Ist ein Zeichentest geeignet? Wenn dies nicht der Fall ist, kann jemand einen anderen Test empfehlen?

LeonRupnik
quelle
3
Sie haben mich aus mehreren Gründen in der ersten Zeile verloren. (1) Eine Stichprobe kann keine Gaußsche Verteilung haben (aber ungefähr eine). (2) Ein Merkmal aller Gaußschen Verteilungen (und damit der Annäherung an sie) ist die Symmetrie . Du hast dir widersprochen. Indem Sie Ihre Daten nicht im statistischen Jargon, sondern in Ihren eigenen Begriffen beschreiben, können Sie besser kommunizieren, was Sie haben. Können Sie auch so einfach wie möglich erklären, was Sie wirklich mit Ihren Daten erreichen möchten? Welche Art von Informationen soll Ihnen ein "Probentest basierend auf dem Median" geben?
whuber
1
Der Median der Stichprobe ist was auch immer es ist; es wäre nicht nötig, das zu testen. Vielleicht möchten Sie testen, ob der Median der Bevölkerung (aus der die Stichprobe stammt) gleich ? Wenn ja, ist es wichtig zu wissen, wie der Wert von entwickelt wurde. Ist es vielleicht eine Zusammenfassung eines anderen Datensatzes? Oder handelt es sich um eine vorgegebene Zahl, beispielsweise einen Qualitätsstandard? 3.53.5
whuber
1
Es ist eine vorgegebene Zahl
LeonRupnik
2
"Die Verteilung ist asymmetrisch, daher möchte ich eine Hypothese testen, wenn sich der Median einer Population von 3,5 unterscheidet ..." - Warum sollte sich die Asymmetrie in einer Stichprobe auf die interessante Hypothese auswirken? " Ist ein Vorzeichentest geeignet? " - sicher, aber (zumindest in der ursprünglichen Form) beruht er auf Kontinuität - Sie müssen ihn anpassen, wenn Ihre Variable diskret ist (Sie sagen nicht, woraus Ihre Daten bestehen von).
Glen_b -Reinstate Monica
Die Daten sind kontinuierlich
LeonRupnik

Antworten:

8

Zusammenfassung

Die Anzahl der Daten über hat eine Binomialverteilung mit unbekannter Wahrscheinlichkeit . Verwenden Sie dies, um einen Binomialtest von gegen die Alternative durchzuführen .3.5pp=1/2p1/2

Der Rest dieses Beitrags erklärt das zugrunde liegende Modell und zeigt, wie die Berechnungen durchgeführt werden. Es bietet RArbeitscode, um sie auszuführen. Eine ausführliche Darstellung der zugrunde liegenden Hypothesentesttheorie findet sich in meiner Antwort auf "Was bedeuten p-Werte und t-Werte in statistischen Tests?" .

Das statistische Modell

Unter der Annahme, dass die Werte relativ unterschiedlich sind (mit wenigen Bindungen bei ), hat nach Ihrer Nullhypothese jeder zufällig ausgewählte Wert eine Chance von 1/2 , überschreiten (da als Mittelwert der Bevölkerung charakterisiert ist). . Unter der Annahme, dass alle Werte zufällig und unabhängig voneinander abgetastet wurden, hat die Anzahl von mehr als eine Binomialverteilung . Nennen wir diese Nummer "count", .3.51/2=50%3.53.52503.5(250,1/2)k

Wenn sich der Populationsmedian von , unterscheidet sich die Wahrscheinlichkeit eines zufällig ausgewählten Werts von mehr als von . Dies ist die alternative Hypothese.3.53.51/2

Einen geeigneten Test finden

Der beste Weg, um die Nullsituation von ihren Alternativen zu unterscheiden, besteht darin, die Werte von , die am wahrscheinlichsten unter der Null und weniger wahrscheinlich unter den Alternativen liegen. Dies sind die Werte nahe von , gleich . Ein kritischer Bereich für Ihren Test besteht daher aus Werten, die relativ weit von : nahe oder nahek1/225012512502501253.5

ααk

3.5α/2kα/2kk

Technisch gesehen gibt es zwei gebräuchliche Methoden, um die Berechnung durchzuführen: Berechnen Sie die Binomialwahrscheinlichkeiten oder approximieren Sie sie mit einer Normalverteilung.

Berechnung mit Binomialwahrscheinlichkeiten

Verwenden Sie die Prozentpunktfunktion (Quantil). Dies Rwird beispielsweise aufgerufen qbinomund wie folgt aufgerufen

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

α=0.05

109 141

k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

0.0497αα

Berechnung mit normaler Näherung

(250,1/2)250×1/2=125250×1/2×(11/2)=250/4250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

0.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

k109141p1/201α


Dieser Test ist nicht so leistungsfähig wie andere Tests, die bestimmte Annahmen über die Bevölkerung treffen , da er nichts über die Bevölkerung voraussetzt (außer dass die Wahrscheinlichkeit nicht direkt auf den Median ausgerichtet ist). Wenn der Test dennoch die Null ablehnt, besteht kein Grund zur Sorge über mangelnde Leistung. Andernfalls müssen Sie einige heikelen Kompromisse zwischen dem , was Sie bereit sind , zu übernehmen und was Sie sind in der Lage zu schließen , über die Bevölkerung.

whuber
quelle
2
Da dies praktisch ein Beispiel für Ihre eher abstrakte Antwort " Bedeutung eines p-Werts " ist, nicht nur, wenn Sie dieselbe Philosophie vertreten, sondern auch, wie Ihre Antwort strukturiert ist, sollten Sie sie verknüpfen ("Ein Beispiel für Wie dies in der Praxis angewendet wird, finden Sie in meiner Antwort auf ... ") am Ende Ihrer Antwort dort.
Silverfish
2
@ Silver Danke; das war mir tatsächlich in den Sinn gekommen. Ich dachte, ich könnte zuerst ein wenig warten. Unter anderem wäre ich nicht überrascht, wenn ein unternehmungslustiges Community-Mitglied einen doppelten Thread ausgraben würde, den ich genauer untersuchen möchte. Immerhin ist dies Grundmaterial - viele Fragen zu Binomialtests wurden gestellt. Die einzige Behauptung, dass diese neu sein muss, ist, dass sie hier als Notwendigkeit für einen Median-Test angekommen ist - es war also zu Beginn nicht so offensichtlich ein Binomial-Test - und die einzige Behauptung, die meine Antwort verdient Lesen liegt in seiner Bemühung, jeden Schritt zu erklären.
whuber