Zwei-Schwanz-Tests erklären

Dies ist eine großartige Frage und ich freue mich auf die Erklärungen des p-Werts und des zweiseitigen vs einseitigen Tests. Ich unterrichte andere Orthopäden in Statistik und habe versucht, diese so einfach wie möglich zu halten, da die meisten von ihnen seit 10 bis 30 Jahren keine fortgeschrittenen mathematischen Übungen mehr durchgeführt haben.

Meine Art zu erklären, wie man p-Werte und die Schwänze berechnet

Ich beginne mit der Erklärung, dass, wenn wir glauben, dass wir eine faire Münze haben, wir wissen, dass sie durchschnittlich 50% der Flips erreichen sollte ( ). Wenn Sie sich nun fragen, wie hoch die Wahrscheinlichkeit ist, mit dieser fairen Münze nur 2 von 10 Flips zu erzielen, können Sie diese Wahrscheinlichkeit wie im Balkendiagramm berechnen. Aus der Grafik können Sie ersehen, dass die Wahrscheinlichkeit, mit einer fairen Münze 8 von 10 Flips zu erzielen, bei etwa . $=H_0$ $\approx 4.4\%$

Da wir die Fairness der Münze in Frage stellen würden, wenn wir 9 oder 10 Schwänze hätten, müssen wir diese Möglichkeiten einbeziehen, den Schwanz des Tests. Durch die Addition der Werte erhalten wir , dass die Wahrscheinlichkeit jetzt ein wenig mehr , als des Erhaltens 2 Schwänze oder weniger. $\approx 5.5\%$

Wenn wir jetzt nur 2 Köpfe bekommen würden, dh 8 Köpfe (der andere Schwanz), wären wir wahrscheinlich genauso bereit, die Fairness der Münze in Frage zu stellen. Dies bedeutet , dass Sie mit einer Wahrscheinlichkeit von am Ende für einen zweiseitigen Test . $5.4...\%+5.4...\% \approx 10.9\%$

Da wir in der Medizin normalerweise daran interessiert sind, Misserfolge zu untersuchen, müssen wir die entgegengesetzte Seite der Wahrscheinlichkeit einbeziehen, auch wenn wir beabsichtigen, Gutes zu tun und eine vorteilhafte Behandlung einzuführen.

Mein Münzendiagramm

Reflexionen sind leicht vom Thema entfernt

Dieses einfache Beispiel zeigt auch, wie abhängig wir von der Nullhypothese sind, um den p-Wert zu berechnen. Ich möchte auch auf die Ähnlichkeit zwischen der Binomialkurve und der Glockenkurve hinweisen. Wenn Sie in 200 Flips wechseln, können Sie auf natürliche Weise erklären, warum die Wahrscheinlichkeit, genau 100 Flips zu erhalten, nicht mehr relevant ist. Das definierende Intervall von Interesse ist ein natürlicher Übergang zu Funktionen der Wahrscheinlichkeitsdichte / Massenfunktion und ihren kumulativen Gegenstücken.

In meiner Klasse empfehle ich ihnen die Statistikvideos der Khan-Akademie und verwende auch einige seiner Erklärungen für bestimmte Konzepte. Sie werfen auch Münzen um, in denen wir die Zufälligkeit des Münzwurfs untersuchen - das, was ich zu zeigen versuche, ist, dass die Zufälligkeit eher zufällig ist als das, was wir normalerweise von dieser Radiolab-Episode inspiriert glauben .

Der Code

Normalerweise habe ich eine Grafik / Folie, den R-Code, mit dem ich die Grafik erstellt habe:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Max Gordon
quelle

Großartige Antwort, Max - und danke, dass du die Nicht-Trivialität meiner Frage erkannt hast :)

Tal Galili

+1 nette Antwort, sehr gründlich. Verzeih mir, aber ich werde mich auf zwei Dinge beschränken. 1) Der p-Wert wird als die Wahrscheinlichkeit verstanden, dass Daten unter der Null so extrem oder extremer sind als Ihre, daher ist Ihre Antwort richtig. Wenn Sie jedoch diskrete Daten wie Münzwürfe verwenden, ist dies unangemessen konservativ. Verwenden Sie am besten den so genannten "mittleren p-Wert", dh die Hälfte der Wahrscheinlichkeit, dass Daten so extrem sind wie Ihre + die Wahrscheinlichkeit, dass Daten extremer sind. Eine einfache Diskussion dieser Themen findet sich in Agresti (2007) 2.6.3. (Forts.)

gung - Wiedereinsetzung von Monica

2) Sie geben an, dass die Zufälligkeit zufälliger ist als wir glauben. Ich kann mir vorstellen, was Sie damit meinen (ich hatte keine Gelegenheit, die von Ihnen verlinkte Radiolab-Episode anzuhören, aber ich werde es tun). Kurioserweise habe ich den Schülern immer gesagt, dass die Zufälligkeit weniger zufällig ist, als Sie glauben. Ich beziehe mich hier auf die Wahrnehmung von Streifen (z. B. beim Spielen). Die Leute glauben, dass zufällige Ereignisse viel mehr als zufällige Ereignisse abwechseln sollten, und glauben daher, dass sie Streifen sehen. Siehe Falk (1997) Sinn machen für Zufälligkeit Psych Rev 104,2. Auch hier liegen Sie nicht falsch - nur Denkanstöße.

gung - Wiedereinsetzung von Monica

Vielen Dank @gung für Ihre Eingabe. Ich habe noch nie von einem Mittelwert gehört - es macht aber Sinn. Ich bin mir nicht sicher, ob es etwas ist, das ich erwähnen würde, wenn ich grundlegende Statistiken unterrichte, da es das Gefühl geben kann, das praktische Gefühl zu verlieren, das ich versuche zu geben. Bezüglich der Zufälligkeit meinen wir genau dasselbe - wenn wir eine wirklich zufällige Zahl sehen, werden wir getäuscht zu denken, dass es ein Muster gibt. Ich glaube, ich habe auf dem Podcast von Freakonomics gehört , dass ...

Max Gordon

... der menschliche Verstand hat im Laufe der Jahre gelernt, dass es teurer ist, ein Raubtier nicht zu entdecken, als zu denken, dass es wahrscheinlich nichts ist. Ich mag diese Analogie und versuche meinen Kollegen zu sagen, dass einer der Hauptgründe für die Verwendung von Statistiken darin besteht, uns bei diesem Defekt zu helfen, mit dem wir alle geboren sind.

Max Gordon

Angenommen, Sie möchten die Hypothese testen, dass die durchschnittliche Körpergröße von Männern "5 Fuß 7 Zoll" beträgt. Sie wählen eine zufällige Stichprobe von Männern aus, messen ihre Körpergröße und berechnen den Stichprobenmittelwert. Ihre Hypothese lautet dann:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

In der obigen Situation führen Sie einen zweiseitigen Test durch, da Sie Ihre Null ablehnen würden, wenn der Stichprobenmittelwert entweder zu niedrig oder zu hoch ist.

In diesem Fall repräsentiert der p-Wert die Wahrscheinlichkeit, einen Stichprobenmittelwert zu realisieren, der mindestens so extrem ist wie derjenige, den wir tatsächlich erhalten haben, unter der Annahme, dass die Null tatsächlich wahr ist. Wenn also der Mittelwert der Stichprobe "5 Fuß 8 Zoll" ist, stellt der p-Wert die Wahrscheinlichkeit dar, dass wir Höhen von mehr als "5 Fuß 8 Zoll" oder Höhen von weniger als "5 Fuß 6 Zoll" beobachten, vorausgesetzt, die Null ist ist wahr.

Wenn andererseits Ihre Alternative so gerahmt wurde:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

In der obigen Situation würden Sie einen einseitigen Test auf der rechten Seite durchführen. Der Grund ist, dass Sie es vorziehen, die Null nur dann zugunsten der Alternative abzulehnen, wenn der Stichprobenmittelwert extrem hoch ist.

Die Interpretation des p-Wertes bleibt gleich mit der leichten Nuance, die wir jetzt über die Wahrscheinlichkeit sprechen, einen Stichprobenmittelwert zu realisieren, der größer ist als der, den wir tatsächlich erhalten haben. Wenn also der Mittelwert der Stichprobe "5 Fuß 8 Zoll" ist, stellt der p-Wert die Wahrscheinlichkeit dar, dass wir Höhen beobachten, die größer als "5 Fuß 8 Zoll" sind, vorausgesetzt, die Null ist wahr.

varty
quelle

H_{A}

$H_A$

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$

@chl da stimme ich zu Für eine Person, die gerade mit statistischen Ideen vertraut gemacht wird, kann das Umschreiben der Null für einen einseitigen Test jedoch eine Ablenkung sein, wenn der Fokus darauf liegt, wie und warum sich die Dinge in Bezug auf die Interpretation des p-Werts ändern.

Party

Meinetwegen. Das ist jedoch auch für Unterrichtszwecke erwähnenswert.

chl

Zwei-Schwanz-Tests erklären

Antworten:

Meine Art zu erklären, wie man p-Werte und die Schwänze berechnet

Reflexionen sind leicht vom Thema entfernt

Der Code