Was bedeuten p-Werte und t-Werte in statistischen Tests?

246

Nach einem Statistikkurs und dem Versuch, meinen Kommilitonen zu helfen, stellte ich fest, dass ein Thema, das viel Kopfzerbrechen hervorruft, darin besteht, die Ergebnisse statistischer Hypothesentests zu interpretieren. Es scheint, dass die Schüler leicht lernen, wie man die für einen bestimmten Test erforderlichen Berechnungen durchführt, sich aber auf die Interpretation der Ergebnisse festlegen müssen. Viele computergestützte Werkzeuge geben Testergebnisse in Form von "p-Werten" oder "t-Werten" an.

Wie würden Sie Studenten, die ihren ersten Kurs in Statistik belegen, die folgenden Punkte erklären:

Was bedeutet ein "p-Wert" in Bezug auf die getestete Hypothese? Gibt es Fälle, in denen ein hoher oder ein niedriger p-Wert angestrebt werden sollte?
Wie ist die Beziehung zwischen einem p-Wert und einem t-Wert?

hypothesis-testing p-value interpretation intuition canonical-question Sharpie
quelle

11

Ein gutes Stück davon wird im Wesentlichen durch den ersten Satz des Wikipedia-Artikels über p-Werte abgedeckt , der einen p-Wert korrekt definiert. Wenn das verstanden wird, wird vieles deutlich.

Glen_b

1

Holen Sie sich einfach das Buch: Statistik ohne Tränen. Es könnte Ihre geistige Gesundheit retten !!

7

@ user48700 Können Sie zusammenfassen, wie Statistik ohne Tränen dies erklärt?

Matt Krause

5

Jemand sollte im Laufe der Zeit ein Diagramm mit Fragen zum p-Wert zeichnen, und ich wette, wir werden die Saisonalität und die Korrelation zu akademischen Kalendern in Colleges oder Coursera Data Science-Kursen sehen

Aksakal

Zusätzlich zu anderen netten und relevanten Buchempfehlungen in den Antworten und Kommentaren möchte ich ein weiteres Buch vorschlagen, das den passenden Namen "Was ist überhaupt ein p-Wert?" Trägt. .

Aleksandr Blekh

150

Wert verstehen $p$

Angenommen, Sie möchten die Hypothese testen, dass die durchschnittliche Größe der männlichen Studenten an Ihrer Universität Fuß Zoll beträgt . Sie sammeln Höhen von zufällig ausgewählten Schülern und berechnen den Stichprobenmittelwert (sagen wir, er beträgt Fuß Zoll). Unter Verwendung einer geeigneten Formel / statistischen Routine berechnen Sie den Wert für Ihre Hypothese und sagen, dass er sich als herausstellt . $5$ $7$ $100$ $5$ $9$ $p$ $0.06$

Um richtig zu interpretieren , sollten wir einige Dinge beachten: $p=0.06$

Der erste Schritt beim Testen klassischer Hypothesen ist die Annahme, dass die in Betracht gezogene Hypothese wahr ist. (In unserem Zusammenhang nehmen wir an, dass die wahre durchschnittliche Höhe Fuß Zoll beträgt .) $5$ $7$
Stellen Sie sich vor, Sie führen die folgende Berechnung durch: Berechnen Sie die Wahrscheinlichkeit, dass der Stichprobenmittelwert größer als Fuß Zoll ist, unter der Annahme, dass unsere Hypothese tatsächlich korrekt ist (siehe Punkt 1). $5$ $9$

Mit anderen Worten, wir möchten wissen,

P (S a m p l e m e a n \geq 5 f t 9 i n c h e s | T r u e v a l u e = 5 f t 7 i n c h e s) .

$\mathrm{P}(\mathrm{Sample\: mean} \ge 5 \:\mathrm{ft} \:9 \:\mathrm{inches} \:|\: \mathrm{True\: value} = 5 \:\mathrm{ft}\: 7\: \mathrm{inches}).$

Die Berechnung in Schritt 2 wird als Wert bezeichnet. Daher ist ein - Wert von würde bedeuten , dass , wenn wir unser Experiment wiederholen waren viele, viele Male (jedes Mal , wenn wir wählen Studenten zufällig und berechne die Probe bedeuten) , dann mal aus können wir eine Probe erwarten zu sehen Mittelwert größer oder gleich Fuß Zoll. $p$ $p$ $0.06$ $100$ $6$ $100$ $5$ $9$

Sollten wir angesichts des obigen Verständnisses weiterhin davon ausgehen, dass unsere Hypothese wahr ist (siehe Schritt 1)? Nun, ein zeigt an, dass eines von zwei Dingen passiert ist: $p=0.06$

(A) Entweder ist unsere Hypothese richtig, und es ist ein äußerst unwahrscheinliches Ereignis eingetreten (z. B. sind alle Studenten Studentensportler). $100$

oder

(B) Unsere Annahme ist falsch und die Stichprobe, die wir erhalten haben, ist nicht so ungewöhnlich.

Die traditionelle Art, zwischen (A) und (B) zu wählen, besteht darin, einen willkürlichen Grenzwert für zu wählen . Wir wählen (A) wenn und (B) wenn . $p$ $p > 0.05$ $p < 0.05$

rechtekewed
quelle

3

Lass dir Zeit! Ich werde nicht daran denken, für eine Woche oder so eine "beste Antwort" auszuwählen.

Sharpie

1

Jetzt, da ich die Gelegenheit hatte, zurück zu kommen und die gesamte Antwort zu lesen, gibt es für das Beispiel mit der Schülergröße eine hohe Punktzahl. Sehr klar und übersichtlich.

Sharpie

3

Gute Arbeit ... aber wir müssen (C) hinzufügen, dass unser Modell (in der Formel / statistischen Routine enthalten) falsch ist.

Andrew Robinson

6

Ein t-Wert (oder eine andere Teststatistik) ist meist ein Zwischenschritt. Es handelt sich im Grunde genommen um eine Statistik, die sich unter bestimmten Voraussetzungen als bekannt erwiesen hat. Da wir die Verteilung der Teststatistik unter der Null kennen, können wir Standardtabellen (heute meistens Software) verwenden, um einen p-Wert abzuleiten.

Gala

1

Wird der p-Wert nicht aus dem Chi-Quadrat-Test und dann aus der Chi-Quadrat-Tabelle abgeleitet? Fragen Sie sich, warum die oben berechnete Wahrscheinlichkeit den p-Wert selbst angibt ?!

London Guy

123

Ein Dialog zwischen einem Lehrer und einem nachdenklichen Schüler

Demütig in der Überzeugung, dass in diesem Thread bisher nicht genügend Buntstifte verwendet wurden. Am Ende erscheint eine kurze, illustrierte Übersicht.

Student : Was bedeutet ein p-Wert? Eine Menge Leute scheinen zuzustimmen, dass es die Wahrscheinlichkeit ist, dass eine Stichprobe einen Mittelwert größer oder gleich einer Statistik hat oder dass es die Wahrscheinlichkeit ist, dieses Ergebnis zu beobachten, vorausgesetzt, die Nullhypothese ist wahr oder wo die Statistik meiner Stichprobe ist fiel auf [eine simulierte] Verteilung " und sogar " die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie die, die unter der Annahme der Nullhypothese berechnet wurde " .

Lehrer : Richtig verstanden, sind all diese Aussagen unter vielen Umständen richtig.

Student : Ich sehe nicht, wie wichtig die meisten von ihnen sind. Haben Sie uns nicht , dass wir eine Nullhypothese und eine Alternativhypothese ? Wie sind sie an diesen Ideen von "größer als oder gleich" oder "mindestens so groß" oder dem sehr populären "extremeren" beteiligt? $H_0$ $H_A$

Lehrer : Wäre es für uns hilfreich, ein konkretes Beispiel zu untersuchen, weil es im Allgemeinen kompliziert erscheinen kann?

Student : Sicher. Aber bitte machen Sie es realistisch, aber einfach, wenn Sie können.

Lehrer : Diese Theorie des Hypothesentests begann historisch mit dem Bedürfnis der Astronomen, Beobachtungsfehler zu analysieren. Wie wäre es also damit, dort anzufangen? Ich habe eines Tages einige alte Dokumente durchgesehen, in denen ein Wissenschaftler seine Bemühungen zur Reduzierung des Messfehlers in seinem Gerät beschrieb. Er hatte viele Messungen an einem Stern an einer bekannten Position vorgenommen und deren Verschiebungen vor oder hinter dieser Position aufgezeichnet. Um diese Verschiebungen zu visualisieren, zeichnete er ein Histogramm, das - wenn es ein wenig geglättet war - so aussah.

Abbildung 1: Histogramm der Verschiebungen

Student : Ich erinnere mich, wie Histogramme funktionieren: Die vertikale Achse ist mit "Dichte" gekennzeichnet, um mich daran zu erinnern, dass die relativen Häufigkeiten der Messungen eher durch Fläche als durch Höhe dargestellt werden.

Lehrer : Richtig. Ein "ungewöhnlicher" oder "extremer" Wert würde sich in einer Region mit einer ziemlich kleinen Fläche befinden. Hier ist ein Wachsmalstift. Denken Sie, Sie könnten in einer Region färben, deren Fläche nur ein Zehntel der Gesamtfläche ausmacht?

Student : Sicher; das ist einfach. [Farben in der Abbildung.]

Abbildung 2: Die erste Färbung des Schülers.

Lehrer : Sehr gut! Das sind ungefähr 10% der Fläche für mich. Beachten Sie jedoch, dass nur die Bereiche zwischen vertikalen Linien im Histogramm von Bedeutung sind: Sie stellen die Chance oder Wahrscheinlichkeit dar, dass die Verschiebung zwischen diesen Linien auf der horizontalen Achse liegt. Das heißt, Sie mussten die gesamte Fläche bis zum Grund einfärben, und das wäre mehr als die Hälfte der Fläche, nicht wahr?

Student : Oh, ich verstehe. Lass mich es nochmal versuchen. Ich werde färben wollen, wo die Kurve wirklich niedrig ist, nicht wahr? Es ist an den beiden Enden am niedrigsten. Muss ich nur einen Bereich einfärben oder wäre es in Ordnung, ihn in mehrere Teile zu zerlegen?

Lehrer : Die Verwendung mehrerer Teile ist eine kluge Idee. Wo würden sie sein?

Student (zeigt): Hier und hier. Da dieser Stift nicht sehr scharf ist, habe ich einen Stift verwendet, um Ihnen die Linien zu zeigen, die ich verwende.

Abbildung 3: Die zweite Färbung des Schülers

Lehrer : Sehr nett! Lassen Sie mich den Rest der Geschichte erzählen. Der Wissenschaftler hat einige Verbesserungen an seinem Gerät vorgenommen und dann zusätzliche Messungen durchgeführt. Er schrieb, dass die Verschiebung der ersten nur betrug , was er für ein gutes Zeichen hielt, aber als vorsichtiger Wissenschaftler fuhr er fort, zur Kontrolle weitere Messungen durchzuführen. Leider gehen diese anderen Messungen verloren - das Manuskript bricht an dieser Stelle ab - und wir haben nur diese einzelne Zahl, . $0.1$ $0.1$

Student : Das ist schade. Aber ist das nicht viel besser als die große Verschiebungsbreite Ihrer Figur?

Lehrer : Das ist die Frage, die Sie beantworten sollen. Was ist zunächst als ? $H_0$

Student : Nun, ein Skeptiker würde sich fragen, ob die Verbesserungen, die am Gerät vorgenommen wurden, überhaupt Auswirkungen hatten. Die Beweislast liegt beim Wissenschaftler: Er möchte zeigen, dass der Skeptiker falsch liegt. Aus diesem Grund halte ich die Nullhypothese für etwas schlecht: Sie besagt, dass sich alle neuen Messungen - einschließlich des Werts von wir kennen - wie im ersten Histogramm beschrieben verhalten sollten. Oder vielleicht sogar noch schlimmer: Sie könnten noch weiter auseinander liegen. $0.1$

Lehrer : Weiter, es geht dir gut.

Student : Die Alternative ist also, dass die neuen Messungen weniger verbreitet sind, oder?

Lehrer : Sehr gut! Könnten Sie mir ein Bild davon zeichnen, wie ein Histogramm mit geringerer Streuung aussehen würde? Hier ist eine weitere Kopie des ersten Histogramms. Sie können darauf als Referenz zeichnen.

Student (Zeichnung): Ich benutze einen Stift, um das neue Histogramm zu zeichnen, und male den Bereich darunter aus. Ich habe es so gemacht, dass der größte Teil der Kurve auf der horizontalen Achse nahe bei Null liegt und der größte Teil der Fläche in der Nähe eines (horizontalen) Wertes von Null liegt.

Abbildung 4: Das neue Histogramm des Schülers

Lehrer : Das ist ein guter Anfang. Denken Sie jedoch daran, dass ein Histogramm, das die Chancen anzeigt, eine Gesamtfläche von . Die Gesamtfläche des ersten Histogramms beträgt daher . Wie viel Fläche befindet sich in Ihrem neuen Histogramm? $1$ $1$

Student : Weniger als die Hälfte, denke ich. Ich sehe, das ist ein Problem, aber ich weiß nicht, wie ich es beheben soll. Was soll ich machen?

Lehrer : Der Trick besteht darin, das neue Histogramm höher als das alte zu machen, so dass seine Gesamtfläche beträgt . Hier zeige ich Ihnen eine computergenerierte Version zur Veranschaulichung. $1$

Abbildung 5: Das neue Histogramm des Lehrers

Student : Ich verstehe: Sie haben es vertikal gestreckt, sodass sich seine Form nicht wirklich geändert hat, aber jetzt sind der rote Bereich und der graue Bereich (einschließlich des Teils unter dem roten) gleich groß.

Lehrer : Richtig. Sie sehen ein Bild der Nullhypothese (in blau, verteilt) und einen Teil der Alternativhypothese (in rot, mit geringerer Verteilung).

Student : Was meinst du mit „Teil“ der Alternative? Ist es nicht nur die alternative Hypothese?

Lehrer : Statistiker und Grammatik scheinen sich nicht zu vermischen. :-) Im Ernst, was sie mit einer "Hypothese" meinen, ist normalerweise eine ganze Reihe von Möglichkeiten. Hier besteht die Alternative (wie Sie bereits sagten) darin, dass die Messungen "weniger verteilt" sind als zuvor. Aber wie viel weniger ? Es gibt viele Möglichkeiten. Hier, lassen Sie mich Ihnen einen anderen zeigen. Ich habe es mit gelben Strichen gezeichnet. Es liegt zwischen den beiden vorhergehenden.

Abbildung 6: Die Null zusammen mit zwei Elementen der Alternative

Student : Ich verstehe: Sie können unterschiedliche Ausbreitungsmengen haben, aber Sie wissen nicht im Voraus, wie hoch die Ausbreitung wirklich sein wird. Aber warum hast du die lustige Schattierung in diesem Bild gemacht?

Lehrer : Ich wollte hervorheben, wo und wie sich die Histogramme unterscheiden. Ich habe sie grau hinterlegt, wenn die alternativen Histogramme niedriger als die Null sind, und rot, wenn die Alternativen höher sind .

Student : Warum ist das wichtig?

Lehrer : Erinnerst du dich, wie du das erste Histogramm in beiden Schwänzen eingefärbt hast? Ah, hier ist es. Lassen Sie uns dieses Bild auf die gleiche Weise ausmalen.

Abbildung 7: Die Null und Alternative, farbig.

Student : Ich erinnere mich: das sind die extremen Werte. Ich fand die Stellen, an denen die Nulldichte so gering wie möglich war und die dort 10% der Fläche färbten.

Lehrer : Erzählen Sie mir von den Alternativen in diesen extremen Bereichen.

Student : Es ist schwer zu sehen, weil der Wachsmalstift es verdeckt hat, aber es sieht so aus, als gäbe es kaum eine Alternative in den von mir eingefärbten Bereichen. Ihre Histogramme liegen genau auf der Werteachse und es ist kein Platz für einen Bereich unter ihnen vorhanden.

Lehrer : Lassen Sie uns diesen Gedanken fortsetzen. Wenn ich Ihnen hypothetisch sagen würde, dass eine Messung eine Verschiebung von , und Sie fragen würden, von welchem dieser drei Histogramme das wahrscheinlichste stammt, welches wäre es? $-2$

Student : Der erste - der blaue. Es ist das am meisten verbreitete und es ist das einzige, bei dem keine Chance zu haben scheint aufzutreten. $-2$

Lehrer : Und was ist mit dem Wert von im Manuskript? $0.1$

Student : Hmmm ... das ist eine andere Geschichte. Alle drei Histogramme sind mit ziemlich hoch über dem Boden . $0.1$

Lehrer : Okay, fair genug. Angenommen, ich habe Ihnen gesagt, dass der Wert in der Nähe von , also zwischen und . Hilft Ihnen das, einige Wahrscheinlichkeiten aus diesen Diagrammen abzulesen? $0.1$ $0$ $0.2$

Student : Sicher, weil ich Bereiche benutzen kann. Ich muss nur die Flächen unter jeder Kurve zwischen und schätzen . Aber das sieht ziemlich schwer aus. $0$ $0.2$

Lehrer : Sie müssen nicht so weit gehen. Kannst du einfach sagen, welches Gebiet das größte ist?

Student : Natürlich die unter der höchsten Kurve. Alle drei Bereiche haben dieselbe Basis. Je höher die Kurve, desto mehr Fläche befindet sich darunter und unter der Basis. Das heißt, das höchste Histogramm - das, das ich mit den roten Strichen gezeichnet habe - ist das wahrscheinlichste für eine Verschiebung von . Ich glaube, ich sehe, wohin Sie damit gehen, aber ich bin ein wenig besorgt: Muss ich mir nicht alle Histogramme für alle Alternativen ansehen , nicht nur das eine oder andere, das hier gezeigt wird? Wie könnte ich das machen? $0.1$

Lehrer : Sie sind gut darin, Muster zu erfassen. Sagen Sie mir also, was passiert mit dem Histogramm des Messgeräts, wenn es immer präziser wird?

Student : Es wird enger - oh, und es muss auch größer werden, damit die Gesamtfläche gleich bleibt. Das macht es ziemlich schwierig, die Histogramme zu vergleichen. Die alternativen sind alle höher als die Null rechts bei , das ist offensichtlich. Bei anderen Werten sind die Alternativen manchmal höher und manchmal niedriger! Zum Beispiel [zeigt auf einen Wert in der Nähe von ], genau hier ist mein rotes Histogramm das niedrigste, das gelbe Histogramm das höchste und das ursprüngliche Null-Histogramm liegt dazwischen. Aber rechts ist die Null die höchste. $0$ $3/4$

Lehrer : Im Allgemeinen ist das Vergleichen von Histogrammen eine komplizierte Angelegenheit. Um uns dabei zu helfen, habe ich den Computer gebeten, ein weiteres Diagramm zu erstellen : Er hat jede der alternativen Histogrammhöhen (oder "Dichten") durch die Null-Histogrammhöhe dividiert und Werte erstellt, die als "Wahrscheinlichkeitsverhältnisse" bekannt sind. Infolgedessen bedeutet ein Wert größer als dass die Alternative wahrscheinlicher ist, während ein Wert kleiner als bedeutet, dass die Alternative weniger wahrscheinlich ist. Es hat noch eine Alternative aufgezeigt: Es ist weiter verbreitet als die beiden anderen, aber immer noch weniger weit verbreitet als der ursprüngliche Apparat. $1$ $1$

Abbildung 8: Wahrscheinlichkeitsverhältnisse

Lehrer (Fortsetzung): Können Sie mir zeigen, wo die Alternativen tendenziell wahrscheinlicher sind als die Null?

Student (Färbung): Hier in der Mitte, offensichtlich. Und da es sich nicht mehr um Histogramme handelt, sollten wir eher Höhen als Flächen betrachten. Deshalb markiere ich nur einen Wertebereich auf der horizontalen Achse. Aber woher weiß ich, wie viel von der Mitte einzufärben ist? Wo höre ich auf zu färben?

Abbildung 9: Aufgezeichnete Likelihood-Ratio-Diagramme

Lehrer : Es gibt keine feste Regel. Es hängt alles davon ab, wie wir unsere Schlussfolgerungen verwenden wollen und wie heftig die Skeptiker sind. Aber lehnen Sie sich zurück und überlegen Sie, was Sie erreicht haben: Sie erkennen jetzt, dass Ergebnisse mit hohen Wahrscheinlichkeitsquoten ein Beweis für die Alternative sind und Ergebnisse mit geringen Wahrscheinlichkeitsquoten ein Beweis für die Alternative. Was ich Sie bitten werde, ist, in einem Bereich zu färben, der, soweit dies möglich ist, eine geringe Chance hat, unter der Nullhypothese aufzutreten, und eine relativ große Chance, unter den Alternativen aufzutreten. Zurück zu dem ersten Diagramm, das Sie zu Beginn unseres Gesprächs eingefärbt haben, haben Sie die beiden Enden der Null eingefärbt, weil sie "extrem" waren. Würden sie immer noch gute Arbeit leisten?

Student : Das glaube ich nicht. Obwohl sie unter der Nullhypothese ziemlich extrem und selten waren, sind sie für keine der Alternativen praktisch unmöglich. Wenn meine neue Messung beispielsweise , würde ich mich der Skepsis anschließen und bestreiten, dass eine Verbesserung eingetreten ist, obwohl in jedem Fall ein ungewöhnliches Ergebnis war. Ich möchte diese Farbe ändern. Hier - lass mich noch einen Wachsmalstift haben. $3.0$ $3.0$

Abbildung 10: Verbessertes Markup

Lehrer : Was bedeutet das?

Student : Wir begannen damit, dass Sie mich baten, nur 10% der Fläche unter dem ursprünglichen Histogramm einzuzeichnen - das, das die Null beschreibt. Also habe ich jetzt 10% des Gebiets eingezogen, in dem die Alternativen wahrscheinlicher auftreten. Ich denke, wenn sich eine neue Messung in diesem Bereich befindet, sollten wir an die Alternative glauben.

Lehrer : Und wie sollte die Skeptiker darauf reagieren?

Student : Ein Skeptiker muss nie zugeben, dass er sich irrt, oder? Aber ich denke, sein Glaube sollte ein wenig erschüttert sein. Immerhin haben wir es so angeordnet, dass eine Messung zwar innerhalb des Bereichs liegen könnte , den ich gerade gezeichnet habe, aber nur eine 10% ige Chance hat, dort zu sein, wenn die Null wahr ist. Und es hat eine größere Chance, dort zu sein, wenn die Alternative wahr ist. Ich kann Ihnen nur nicht sagen, wie viel größer diese Chance ist, da es davon abhängt, wie sehr der Wissenschaftler den Apparat verbessert hat. Ich weiß nur, dass es größer ist. Der Beweis wäre also gegen den Skeptiker.

Lehrer : Alles klar. Würde es Ihnen etwas ausmachen, Ihr Verständnis so zusammenzufassen, dass wir genau wissen, was Sie gelernt haben?

Student : Ich habe gelernt, dass wir, um alternative Hypothesen mit Nullhypothesen zu vergleichen, ihre Histogramme vergleichen sollten. Wir teilen die Dichten der Alternativen durch die Dichte der Null: Das haben Sie das "Wahrscheinlichkeitsverhältnis" genannt. Um einen guten Test zu machen, sollte ich eine kleine Zahl wie 10% auswählen oder was auch immer ausreicht, um einen Skeptiker zu erschüttern. Dann sollte ich Werte finden, bei denen das Wahrscheinlichkeitsverhältnis so hoch wie möglich ist, und sie einfärben, bis 10% (oder was auch immer) eingefärbt wurden.

Lehrer : Und wie würden Sie diese Färbung verwenden?

Student : Wie Sie mich früher erinnert haben, muss die Färbung zwischen vertikalen Linien sein. Werte (auf der horizontalen Achse), die unter der Färbung liegen, sprechen gegen die Nullhypothese. Andere Werte - nun, es ist schwer zu sagen, was sie bedeuten könnten, ohne einen genaueren Blick auf alle beteiligten Histogramme zu werfen.

Lehrer : Zurück zum Wert von im Manuskript, was würden Sie daraus schließen? $0.1$

Student : Das liegt in dem Bereich, den ich zuletzt gefärbt habe. Ich denke, der Wissenschaftler hatte wahrscheinlich Recht und der Apparat wurde wirklich verbessert.

Lehrer : Eine letzte Sache. Ihre Schlussfolgerung basierte auf der Auswahl von 10% als Kriterium oder "Größe" des Tests. Viele Leute verwenden stattdessen gerne 5%. Einige bevorzugen 1%. Was kannst du ihnen sagen?

Student : Ich konnte nicht alle diese Tests auf einmal machen! Na ja, vielleicht könnte ich das irgendwie. Ich kann sehen, dass ich unabhängig von der Größe des Tests mit dem Färben bei , was in diesem Sinne der "extremste" Wert ist, und von dort aus in beide Richtungen nach außen arbeiten sollte. Wenn ich genau bei - dem tatsächlich beobachteten Wert - anhalten würde, hätte ich wahrscheinlich in einem Bereich zwischen und , beispielsweise gefärbt . Die 5% und 1% Leute konnten sofort sagen, dass ich zu viel gefärbt habe: Wenn sie nur 5% oder 1% färben wollten, konnten sie es, aber sie würden nicht so weit herauskommen wie $0$ $0.1$ $0.05$ $0.1$ $0.08$ $0.1$ . Sie würden nicht zu dem gleichen Schluss kommen wie ich: Sie würden sagen, es gibt nicht genügend Beweise dafür, dass eine Änderung tatsächlich stattgefunden hat.

Lehrer : Sie haben mir gerade gesagt, was all diese Zitate am Anfang wirklich bedeuten. Aus diesem Beispiel sollte ersichtlich sein, dass sie möglicherweise nicht "extremer" oder "größer oder gleich" oder "mindestens so groß" im Sinne eines größeren Werts oder sogar eines Werts mit einer geringen Nulldichte beabsichtigen können . Sie meinen diese Dinge wirklich im Sinne großer Wahrscheinlichkeitsverhältnisse , die Sie beschrieben haben. Übrigens wird die Zahl um , die Sie berechnet haben, als "p-Wert" bezeichnet. Es kann nur so richtig verstanden werden, wie Sie es beschrieben haben: im Hinblick auf eine Analyse der relativen Histogrammhöhen - die Wahrscheinlichkeitsverhältnisse. $0.08$

Student : Danke. Ich bin nicht sicher, ob ich das alles vollständig verstehe, aber Sie haben mir viel zu denken gegeben.

Lehrer : Wenn Sie noch weiter gehen möchten, werfen Sie einen Blick auf das Neyman-Pearson-Lemma . Sie sind wahrscheinlich bereit, es jetzt zu verstehen.

Zusammenfassung

Bei vielen Tests, die auf einer einzelnen Statistik wie der im Dialogfeld basieren, wird diese als " " oder " " bezeichnet. Dies sind Anhaltspunkte dafür, wie das Null-Histogramm aussieht, aber sie sind nur Anhaltspunkte: Wie wir diese Zahl nennen, spielt keine Rolle. Die vom Schüler zusammengefasste Konstruktion, wie sie hier dargestellt ist, zeigt, wie sie mit dem p-Wert zusammenhängt. Der p-Wert ist die kleinste Testgröße, bei der eine Beobachtung von zur Ablehnung der Nullhypothese führen würde. $z$ $t$ $t=0.1$

Abbildung 11: p-Wert als Fläche.

In dieser Abbildung, die zur Darstellung von Details gezoomt ist, ist die Nullhypothese durchgehend blau und zwei typische Alternativen sind mit gestrichelten Linien dargestellt. Der Bereich, in dem diese Alternativen tendenziell viel größer als die Null sind, ist schattiert. Die Schattierung beginnt dort, wo die relativen Wahrscheinlichkeiten der Alternativen am größten sind (bei ). Die Schattierung stoppt, wenn die Beobachtung erreicht ist. Der p-Wert ist die Fläche des schattierten Bereichs unter dem Null-Histogramm: Dies ist die Chance, unter der Annahme, dass die Null wahr ist, ein Ergebnis zu beobachten, dessen Wahrscheinlichkeitsverhältnisse tendenziell groß sind, unabhängig davon, welche Alternative wahr ist. Insbesondere hängt diese Konstruktion stark von der alternativen Hypothese ab. Es kann nicht ohne Angabe der möglichen Alternativen durchgeführt werden. $0$ $t=0.1$

whuber
quelle

4

Dies hat meine Bemerkung zu einer anderen Antwort, dass keine der vorherigen Antworten auf diese Frage allgemein den allgemein gehörten "oder extremeren" Aspekt eines p- Werts behandelt hatte, ausgezeichnet behandelt. (Obwohl die Antwort "Tee testen" ein gutes konkretes Beispiel enthielt.) Besonders bewundere ich die Art und Weise, wie dieses Beispiel bewusst konstruiert wurde, um hervorzuheben, dass "extremer" das Gegenteil von "größer" oder "weiter von Null" bedeuten kann.

Silverfish

4

Ich wünschte, Lehrer und Lehrbücher hätten den Ausdruck "oder extremer" nicht wirklich verwendet. Zwei Varianten ich gehört habe , könnte als „günstiger zu paraphrasieren “ oder „überzeugender von “. In diesem Fall würden Werte nahe Null zwar überzeugender sein, dass das Teleskop zuverlässiger geworden ist, aber es erfordert eine gewisse sprachliche Akrobatik (plausibel argumentiert, aber möglicherweise verwirrend), um sie als "extremer" zu bezeichnen.

H_{1}

$H_1$

H_{1}

$H_1$

Silverfish

3

Wie immer einzigartig aufschlussreich. Vielen Dank, dass Sie sich die Zeit genommen haben, diese unglaublich hilfreichen Antworten aufzuschreiben. Ich frage mich wirklich, warum Lehrbücher niemals so geschrieben werden, dass sie in der Nähe dieser Klarheit und Intuition liegen.

Jeremy Radcliff

Ich denke, ein Link zu einer Definition der Wahrscheinlichkeit für dieses Beispiel könnte von Vorteil sein

baxx

1

Es ist gefährlich, Sarkasmus in einem Kommentar, @baxx, zu verwenden, da nicht genügend Platz vorhanden ist, um dies höflich und elegant zu tun. Daher ist es normalerweise keine gute Idee anzunehmen, dass ein Kommentar sarkastisch ist, es sei denn, er sagt es Ihnen ausdrücklich. Nehmen Sie einfach an, dass Kommentare Ihnen helfen sollen. Wenn Sie einfach dem ersten Treffer der von mir angegebenen Suche folgen würden, wären Ihre Fragen meiner Meinung nach beantwortet.

Whuber

44

Bevor ich dieses Thema anspreche, stelle ich immer sicher, dass die Schüler sich gerne zwischen Prozentsätzen, Dezimalstellen, Quoten und Brüchen bewegen. Wenn sie damit nicht ganz zufrieden sind, können sie sehr schnell verwirrt werden.

Ich mag es, Hypothesentests zum ersten Mal (und damit p-Werte und Teststatistiken) durch Fischers klassisches Teeexperiment zu erklären. Ich habe mehrere Gründe dafür:

(i) Ich denke, dass es sinnvoller ist, ein Experiment durchzuarbeiten und die Begriffe zu definieren, als zunächst alle diese Begriffe zu definieren. (ii) Sie müssen sich nicht explizit auf Wahrscheinlichkeitsverteilungen, Bereiche unter der Kurve usw. verlassen, um über die wichtigsten Punkte des Hypothesentests hinwegzukommen. (iii) Es erklärt diese lächerliche Vorstellung von "als oder extremer als die beobachteten" auf eine ziemlich vernünftige Weise. (iv) Ich finde, dass die Schüler die Geschichte, die Herkunft und die Hintergrundgeschichte dessen, was sie studieren, gerne verstehen, weil es sie realer macht als einige abstrakte Theorien. (v) Es spielt keine Rolle, aus welcher Disziplin oder welchem Fach die Schüler kommen, sie können sich auf das Beispiel Tee beziehen. (Hinweis: Einige internationale Schüler haben Schwierigkeiten mit dieser besonders britischen Einrichtung für Tee mit Milch.)

[Anmerkung: Diese Idee stammt ursprünglich aus Dennis Lindleys wunderbarem Artikel "Die Analyse experimenteller Daten: Die Wertschätzung von Tee und Wein", in dem er demonstriert, warum Bayes'sche Methoden klassischen Methoden überlegen sind.]

Die Hintergrundgeschichte ist, dass Muriel Bristol eines Nachmittags in den 1920er Jahren Fisher in der Rothamsted Experimental Station auf eine Tasse Tee besucht. Als Fisher die Milch zuletzt einfüllte, beklagte sie sich, dass sie auch feststellen könne, ob die Milch zuerst (oder zuletzt) eingegossen wurde, und dass sie die erstere bevorzuge. Um dies zu testen, entwarf er sein klassisches Teeexperiment, bei dem Muriel ein Paar Teetassen überreicht bekommt und sie identifizieren muss, welcher zuerst die Milch hinzugefügt hat. Dies wird mit sechs Paar Teetassen wiederholt. Ihre Wahlmöglichkeiten sind entweder Richtig (R) oder Falsch (W) und ihre Ergebnisse sind: RRRRRW.

Angenommen, Muriel ahnt nur, und kann überhaupt nicht diskriminieren. Dies nennt man die Nullhypothese . Ziel des Experiments ist es nach Fisher, diese Nullhypothese in Abrede zu stellen. Wenn Muriel schätzt, wird sie die Teetasse mit einer Wahrscheinlichkeit von 0,5 bei jeder Runde korrekt identifizieren und da sie unabhängig sind, hat das beobachtete Ergebnis 0,5 = 0,016 (oder 1/64). Fisher argumentiert dann, dass entweder: $^6$

(a) die Nullhypothese (Muriel vermutet) ist wahr und es ist ein Ereignis mit geringer Wahrscheinlichkeit eingetreten oder

(b) Die Nullhypothese ist falsch und Muriel hat diskriminierende Kräfte.

Der p-Wert (oder Wahrscheinlichkeitswert) ist die Wahrscheinlichkeit, dieses Ergebnis zu beobachten (RRRRRW), vorausgesetzt, die Nullhypothese ist wahr - es ist die in (a) oben genannte kleine Wahrscheinlichkeit. In diesem Fall ist es 0,016. Da Ereignisse mit geringen Wahrscheinlichkeiten nur selten (per Definition) auftreten, ist Situation (b) möglicherweise eine bessere Erklärung für das, was passiert ist, als Situation (a). Wenn wir die Nullhypothese ablehnen, akzeptieren wir tatsächlich die entgegengesetzte Hypothese, die wir alternative Hypothese nennen. In diesem Beispiel ist Muriel die alternative Hypothese.

Eine wichtige Überlegung ist, was wir als "kleine" Wahrscheinlichkeit einstufen. Ab wann sind wir bereit zu sagen, dass ein Ereignis unwahrscheinlich ist? Der Standard-Benchmark beträgt 5% (0,05) und wird als Signifikanzniveau bezeichnet. Wenn der p-Wert kleiner als das Signifikanzniveau ist, lehnen wir die Nullhypothese als falsch ab und akzeptieren unsere alternative Hypothese. Es ist üblich zu behaupten, dass ein Ergebnis "signifikant" ist, wenn der p-Wert kleiner als das Signifikanzniveau ist, dh wenn die Wahrscheinlichkeit, dass das, was wir unter der Annahme der Nullhypothese beobachtet haben, wahr ist, kleiner als unser Cutoff-Punkt. Es ist wichtig zu wissen, dass die Verwendung von 5% völlig subjektiv ist (wie auch die Verwendung der anderen üblichen Signifikanzniveaus von 1% und 10%).

Fisher erkannte, dass dies nicht funktioniert; Jedes mögliche Ergebnis mit einem falschen Paar war gleichermaßen ein Hinweis auf diskriminierende Kräfte. Die relevante Wahrscheinlichkeit für die obige Situation (a) beträgt daher 6 (0,5) ^ 6 = 0,094 (oder 6/64), was jetzt bei einem Signifikanzniveau von 5% nicht signifikant ist . Um dies zu überwinden, argumentierte Fisher, dass wenn 1 von 6 Fehlern als Beweis für Diskriminierungskräfte angesehen wird, dies keine Fehler sind, dh Ergebnisse, die stärker auf Diskriminierungskräfte hinweisen als die beobachteten, sollten bei der Berechnung des p-Werts einbezogen werden. Dies führte zur folgenden Änderung der Begründung:

(a) Die Nullhypothese (Muriel schätzt) ist wahr und die Wahrscheinlichkeit von Ereignissen, die extremer als die beobachtete sind, ist gering oder

(b) Die Nullhypothese ist falsch und Muriel hat diskriminierende Kräfte.

Zurück zu unserem Teeexperiment und wir stellen fest, dass der p-Wert unter dieser Einstellung 7 (0,5) ^ 6 = 0,109 ist, was bei der 5% -Schwelle immer noch nicht signifikant ist.

Ich bringe die Schüler dann dazu, mit einigen anderen Beispielen zu arbeiten, beispielsweise mit dem Werfen von Münzen, um herauszufinden, ob eine Münze fair ist oder nicht. Dies führt die Konzepte der Null- / Alternativhypothese, der p-Werte und der Signifikanzniveaus auf. Wir gehen dann auf den Fall einer stetigen Variablen über und führen den Begriff einer Teststatistik ein. Da wir uns bereits mit der Normalverteilung, der Standardnormalverteilung und der Z-Transformation befasst haben, müssen lediglich mehrere Konzepte miteinander verschraubt werden.

Neben der Berechnung von Teststatistiken, p-Werten und der Entscheidungsfindung (signifikant / nicht signifikant) veranlasse ich die Schüler, veröffentlichte Artikel auszufüllen und das fehlende Lückenspiel auszufüllen.

Graham Cookson
quelle

2

Ich weiß, dass ich einen sehr alten Thread etwas wiederbelebe, aber hier geht es ... Ich habe Ihre Antwort wirklich genossen, aber ich vermisse den t-Wert-Teil darin :( Könnten Sie bitte Ihre gegebenen Beispiele verwenden, um darüber zu sprechen? Niemand antwortete über den T-Test-Teil

Sosi

@sosi Das liegt wahrscheinlich daran, dass p-Werte viel allgemeiner sind als t-Werte. Es ist, als würde man eine Frage zu Autos und dann zu den Bremsen eines Ford Fiesta stellen.

Vermutungen

2

p

$p$

p

$p$

p

$p$

27

Kein Betrag der mündlichen Erklärung oder Berechnungen hat mir wirklich geholfen zu verstehen , auf dem Bauch heraus, was p-Werte waren, aber es aufgeschnappt in dem Fokus für mich wirklich , wenn ich einen Kurs nahm die Simulation beteiligt. Das gab mir die Möglichkeit, die durch die Nullhypothese erzeugten Daten tatsächlich zu sehen und die Mittelwerte / etc. von simulierten Proben, dann schauen Sie, wo die Statistik meiner Probe auf diese Verteilung fiel.

Ich denke, der Hauptvorteil dabei ist, dass die Schüler die Verteilung der Mathematik- und Teststatistiken für eine Minute vergessen und sich auf die vorliegenden Konzepte konzentrieren können. Zugegeben, ich musste lernen, wie man dieses Zeug simuliert, was für eine völlig andere Gruppe von Schülern zu Problemen führen wird. Aber es hat bei mir funktioniert und ich habe unzählige Male Simulationen verwendet, um anderen mit großem Erfolg Statistiken zu erklären (z. B. "So sehen Ihre Daten aus; so sieht eine überlagerte Poisson-Verteilung aus. Sind Sie sicher, dass Sie dies möchten?") eine Poisson-Regression durchführen? ").

Dies beantwortet nicht genau die Fragen, die Sie gestellt haben, aber für mich waren sie zumindest trivial.

Matt Parker
quelle

10

Ich stimme voll und ganz der Verwendung der Simulation zu, um dies zu erklären. Aber nur eine kleine Anmerkung zum Beispiel am Ende: Ich finde, dass es für Menschen (nicht nur für Studenten) schwierig ist, eine bestimmte Verteilungsannahme, z. B. das Poisson, zwischen einer marginalen Poissonverteilung und einer bedingten Poissonverteilung zu unterscheiden. Da für ein Regressionsmodell nur letzteres von Bedeutung ist, muss eine Reihe von abhängigen Variablenwerten, die nicht vergiften, nicht unbedingt Anlass zur Sorge geben.

Conjugateprior

1

Ich muss gestehen, dass ich das nicht wusste. Ich habe Ihre Kommentare zu dieser Website in den letzten Tagen Ihrer Mitgliedschaft sehr geschätzt - ich hoffe, Sie bleiben dabei.

Matt Parker

@MattParker Kennen Sie Lernressourcen, die auf die Verwendung von Simulationen zur Entwicklung von Verständnis ausgerichtet sind? Oder geht es nur darum, einige Python / R-Skripte zusammenzustellen und eine Reihe von Tests durchzuführen?

Baxx

1

@baxx Die Website [Seeing Theory von Daniel Kunin] (students.brown.edu/seeing-theory/) enthält einige interessante Tools, die sich jedoch noch im Aufbau befinden. Ansonsten habe ich zum größten Teil nur mit den in R integrierten Simulationswerkzeugen experimentiert - um mir selbst zu beweisen, wie eine Methode funktioniert, oder um zu sehen, was passieren würde, wenn ein Prädiktor durch eine Zufallsvariable ersetzt würde usw. Ich wünschte, ich wüsste bessere Ressourcen dafür!

Matt Parker

@ MattParker cool danke. Ja - ein bisschen Hühnchen und Ei, um die Experimente zu konstruieren, müssen Sie (ich nehme an?) Mindestens genug bekommen, um sie zu schreiben. Keine Sorge .....

Hab

16

Eine gute Definition des p-Werts ist "die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie diejenige, die unter der Annahme berechnet wurde, dass die Nullhypothese wahr ist".

Das Problem dabei ist, dass es ein Verständnis von "Teststatistik" und "Nullhypothese" erfordert. Aber das ist leicht zu vermitteln. Wenn die Nullhypothese zutrifft, ist in der Regel so etwas wie "Parameter aus Grundgesamtheit A ist gleich Parameter aus Grundgesamtheit B", und Sie berechnen Statistiken, um diese Parameter abzuschätzen anders"?

Wenn die Münze fair ist, mit welcher Wahrscheinlichkeit würde ich 60 Köpfe von 100 Würfen sehen? Das testet die Nullhypothese: "Die Münze ist fair" oder "p = 0,5", wobei p die Wahrscheinlichkeit von Köpfen ist.

Die Teststatistik in diesem Fall wäre die Anzahl der Köpfe.

Nun gehe ich davon aus, dass es sich bei dem, was Sie "t-Wert" nennen, um eine generische "Teststatistik" handelt, nicht um einen Wert aus einer "t-Verteilung". Sie sind nicht dasselbe, und der Begriff "t-Wert" ist (notwendigerweise) nicht weit verbreitet und könnte verwirrend sein.

Was Sie als "t-Wert" bezeichnen, ist wahrscheinlich das, was ich als "Teststatistik" bezeichne. Um einen p-Wert zu berechnen (denken Sie daran, es ist nur eine Wahrscheinlichkeit), benötigen Sie eine Verteilung und einen Wert, der in die Verteilung eingefügt wird, die eine Wahrscheinlichkeit zurückgibt. Sobald Sie dies tun, ist die Wahrscheinlichkeit, dass Sie zurückkehren, Ihr p-Wert. Sie können sehen, dass sie zusammenhängen, da unter der gleichen Verteilung unterschiedliche Teststatistiken unterschiedliche p-Werte zurückgeben. Extremere Teststatistiken geben niedrigere p-Werte zurück, was einen größeren Hinweis darauf gibt, dass die Nullhypothese falsch ist.

Ich habe das Problem der einseitigen und zweiseitigen p-Werte hier ignoriert.

Baltimark
quelle

11

Stellen Sie sich vor, Sie haben eine Tüte mit 900 schwarzen und 100 weißen Murmeln, dh 10% der Murmeln sind weiß. Stellen Sie sich nun vor, Sie nehmen einen Marmor heraus, schauen ihn sich an und zeichnen seine Farbe auf, nehmen einen anderen heraus, zeichnen seine Farbe auf usw. und machen dies 100 Mal. Am Ende dieses Prozesses haben Sie eine Zahl für weiße Murmeln, die im Idealfall 10, dh 10% von 100, betragen würde, aber in Wirklichkeit 8 oder 13 sein kann, oder was auch immer, einfach aufgrund der Zufälligkeit. Wenn Sie dieses 100-Marmor-Ausziehexperiment viele Male wiederholen und dann ein Histogramm der Anzahl der pro Experiment gezogenen weißen Murmeln aufzeichnen, werden Sie feststellen, dass Sie eine um 10 zentrierte Glockenkurve haben.

Dies stellt Ihre 10% -Hypothese dar: Wenn Sie in einem Beutel 1000 Murmeln, von denen 10% weiß sind, zufällig 100 Murmeln entnehmen, finden Sie 10 weiße Murmeln in der Auswahl, geben oder nehmen Sie 4 oder so. Der p-Wert ist alles über dieses "Geben oder Nehmen 4 oder so". Nehmen wir an, Sie können anhand der zuvor erstellten Glockenkurve feststellen, dass in weniger als 5% der Fälle 5 oder weniger weiße Murmeln erhalten werden und in weniger als 5% der Fälle 15 oder mehr weiße Murmeln, dh> 90% der Murmeln Mal enthält Ihre 100-Marmor-Auswahl zwischen 6 und 14 weiße Murmeln.

Angenommen, jemand stößt eine Tüte mit 1000 Murmeln mit einer unbekannten Anzahl weißer Murmeln hinunter, dann haben wir die Werkzeuge, um diese Fragen zu beantworten

i) Gibt es weniger als 100 weiße Murmeln?

ii) Gibt es mehr als 100 weiße Murmeln?

iii) Enthält der Beutel 100 weiße Murmeln?

Nehmen Sie einfach 100 Murmeln aus dem Beutel und zählen Sie, wie viele dieser Proben weiß sind.

a) Wenn die Probe 6 bis 14 Weiße enthält, können Sie die Hypothese, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 6 bis 14> 0,05 sind, nicht zurückweisen.

b) Wenn die Probe 5 oder weniger Weißtöne enthält, können Sie die Hypothese ablehnen, dass sich 100 weiße Kugeln im Beutel befinden und die entsprechenden p-Werte für 5 oder weniger <0,05 sind. Sie würden erwarten, dass der Beutel <10% weiße Murmeln enthält.

c) Wenn die Probe 15 oder mehr Weiße enthält, können Sie die Hypothese ablehnen, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 15 oder mehr <0,05 sind. Sie würden erwarten, dass der Beutel> 10% weiße Murmeln enthält.

Als Antwort auf Baltimarks Kommentar

In Anbetracht des obigen Beispiels gibt es ungefähr:

4,8% Chance, 5 weiße Kugeln oder weniger zu erhalten

1,85% Chance von 4 oder weniger

0,55% Chance von 3 oder weniger

0,1% Chance von 2 oder weniger

6,25% Chance von 15 oder mehr

3,25% Chance von 16 oder mehr

1,5% Chance von 17 oder mehr

0,65% Chance von 18 oder mehr

0,25% Chance von 19 oder mehr

0,1% Chance von 20 oder mehr

0,05% Chance von 21 oder mehr

Diese Zahlen wurden aus einer empirischen Verteilung geschätzt, die mit einer einfachen Monte-Carlo-Routine in R und den resultierenden Quantilen der Stichprobenverteilung erstellt wurde.

Nehmen wir zur Beantwortung der ursprünglichen Frage an, Sie ziehen 5 weiße Kugeln, und es besteht nur eine ungefähre Wahrscheinlichkeit von 4,8%, dass Sie, wenn der 1000-Marmorbeutel wirklich 10% weiße Kugeln enthält, nur 5 weiße Kugeln aus einer Stichprobe von 100 herausziehen würden. Dies entspricht einem p-Wert <0,05. Sie müssen sich jetzt entscheiden zwischen

i) Es sind wirklich 10% weiße Bälle in der Tasche und ich hatte einfach "Pech", so wenige zu zeichnen

oder

ii) Ich habe so wenige weiße Bälle gezeichnet, dass es nicht wirklich 10% weiße Bälle geben kann (lehne die Hypothese von 10% weißen Bällen ab)

babelproofreader
quelle

Erstens ist dies nur ein großes Beispiel und erklärt nicht wirklich das Konzept von p-Wert und Teststatistik. Zweitens behaupten Sie nur, wenn Sie weniger als 5 oder mehr als 15 weiße Murmeln erhalten, lehnen Sie die Nullhypothese ab. Aus welcher Verteilung berechnen Sie diese Wahrscheinlichkeiten? Dies kann mit einem normalen Abstand angenähert werden. zentriert bei 10, mit einer Standardabweichung von 3. Ihre Ablehnungskriterien sind bei weitem nicht streng genug.

Baltimark,

Ich würde zustimmen, dass dies nur ein Beispiel ist, und es ist wahr, dass ich die Zahlen 5 und 15 nur zur Veranschaulichung aus der Luft gezogen habe. Wenn ich Zeit habe, werde ich eine zweite Antwort veröffentlichen, von der ich hoffe, dass sie vollständiger ist.

babelproofreader 20.07.10

10

Was der p-Wert nicht sagt, ist, wie wahrscheinlich es ist, dass die Nullhypothese wahr ist. Unter der Annahme, dass die Nullhypothese wahr ist, berechnen wir unter Verwendung des herkömmlichen (Fisher) Signifikanztest-Frameworks zunächst die Wahrscheinlichkeit der Beobachtung der Daten. Dies ist der p-Wert. Es erscheint daher intuitiv vernünftig anzunehmen, dass die Nullhypothese wahrscheinlich falsch ist, wenn die Daten unter der Nullhypothese mit hinreichender Wahrscheinlichkeit nicht eingehalten werden. Das ist völlig vernünftig. Statistiker verwenden traditionell einen Schwellenwert und "lehnen die Nullhypothese bei einem Signifikanzniveau von 95% ab", wenn (1 - p)> 0,95 ist; Dies ist jedoch nur eine Konvention, die sich in der Praxis als vernünftig erwiesen hat. Dies bedeutet nicht, dass die Wahrscheinlichkeit, dass die Nullhypothese falsch ist, geringer als 5% ist (und daher eine Wahrscheinlichkeit von 95%, dass die Alternativhypothese wahr ist).

Abbildung einer Funktion f (), die den p-Wert auf die Wahrscheinlichkeit abbildet, dass die alternative Hypothese wahr ist. Es wäre vernünftig zu behaupten, dass diese Funktion streng abnimmt (je wahrscheinlicher die Beobachtungen unter der Nullhypothese sind, desto unwahrscheinlicher ist es, dass die Alternativhypothese wahr ist) und dass sie Werte zwischen 0 und 1 liefert (da sie eine Schätzung ergibt) der Wahrscheinlichkeit). Das ist jedoch alles, was wir über f () wissen. Es gibt zwar eine Beziehung zwischen p und der Wahrscheinlichkeit, dass die alternative Hypothese wahr ist, sie ist jedoch nicht kalibriert. Das heißt, wir können den p-Wert nicht verwenden, um quantitative Aussagen über die Plausibilität der Null- und Alternativhypothesen zu treffen.

Vorbehalt Lektor: Es ist nicht wirklich im Rahmen des Frequentismus, von der Wahrscheinlichkeit zu sprechen, dass eine Hypothese wahr ist, da es sich nicht um eine Zufallsvariable handelt - sie ist entweder wahr oder nicht. Wo ich also von der Wahrscheinlichkeit der Wahrheit einer Hypothese gesprochen habe, bin ich implizit zu einer Bayes'schen Interpretation übergegangen. Es ist falsch, Bayesian und Frequentist zu mischen, es besteht jedoch immer die Versuchung, dies zu tun, da wir wirklich einen quantitativen Hinweis auf die relative Plausibilität / Wahrscheinlichkeit der Hypothesen wünschen. Dies ist jedoch nicht das, was der p-Wert liefert.

Dikran Beuteltier
quelle

7

In der Statistik kann man nie sagen, dass etwas absolut sicher ist. Daher verwenden Statistiker einen anderen Ansatz, um zu beurteilen, ob eine Hypothese wahr ist oder nicht. Sie versuchen, alle anderen Hypothesen abzulehnen, die von den Daten nicht unterstützt werden.

Zu diesem Zweck haben statistische Tests eine Nullhypothese und eine Alternativhypothese. Der aus einem statistischen Test gemeldete p-Wert ist die Wahrscheinlichkeit des Ergebnisses, wenn die Nullhypothese korrekt ist. Deshalb wollen wir kleine p-Werte. Je kleiner sie sind, desto unwahrscheinlicher wäre das Ergebnis, wenn die Nullhypothese richtig wäre. Wenn der p-Wert klein genug ist (dh es ist sehr unwahrscheinlich, dass das Ergebnis aufgetreten ist, wenn die Nullhypothese korrekt war), wird die Nullhypothese verworfen.

Auf diese Weise können Nullhypothesen formuliert und anschließend verworfen werden. Wenn die Nullhypothese abgelehnt wird, akzeptieren Sie die Alternativhypothese als beste Erklärung. Denken Sie jedoch daran, dass die Alternativhypothese niemals sicher ist, da die Nullhypothese zufällig die Ergebnisse hätte erzeugen können.

DaRob
quelle

P r (T \geq t | H_{0})

$Pr(T\geq t|H_0)$

P r (T = t | H_{0})

$Pr(T=t|H_0)$

5

Ich bin etwas schüchtern, um das alte Thema wiederzubeleben, aber ich bin von hier weggesprungen, also poste ich dies als Antwort auf die Frage im Link.

Der p-Wert ist ein konkreter Begriff, es sollte keinen Raum für Missverständnisse geben. Es ist jedoch irgendwie mystisch, dass umgangssprachliche Übersetzungen der Definition von p-Wert zu vielen unterschiedlichen Fehlinterpretationen führen. Ich denke, die Wurzel des Problems liegt in der Verwendung der Ausdrücke "mindestens so negativ wie die Nullhypothese" oder "mindestens so extrem wie die in Ihren Beispieldaten" usw.

Zum Beispiel sagt Wikipedia

... der p-Wert ist die Wahrscheinlichkeit, die beobachteten Stichprobenergebnisse (oder ein extremeres Ergebnis) zu erhalten, wenn die Nullhypothese tatsächlich wahr ist.

$p$

Ich denke, es ist besser, das "extremere Ergebnis" so etwas wie einem indirekten Sprechakt zu überlassen . Also ist meine Einstellung

Der p-Wert ist die Wahrscheinlichkeit zu sehen, was Sie in einer "imaginären Welt" sehen, in der die Nullhypothese wahr ist.

x $\mu_0=20$ $N(20,1)$

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

$t_0=\sqrt{n}\frac{\bar{X}-\mu_0}{s}$

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

$|t_0|$ $t_0\sim t(9)$

p - v a l u e = P r (| t_{0} | \geq 2.97) = 0.01559054

$p-value=Pr(|t_0|\geq 2.97)= 0.01559054$

2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Da der p-Wert klein ist, ist es sehr unwahrscheinlich, dass die Stichprobe xin der hypothetischen Welt gezogen wurde. Daher schließen wir, dass es sehr unwahrscheinlich ist, dass die hypothetische Welt tatsächlich die tatsächliche Welt war.

Khashaa
quelle

2

+1, aber wenn Sie "Wahrscheinlichkeit, zu sehen, was Sie sehen" schreiben und den "extremeren" Teil weglassen, wird dieser Satz streng genommen falsch (und möglicherweise irreführend, auch wenn er vielleicht weniger verwirrend ist). Es ist nicht die Wahrscheinlichkeit zu sehen, was Sie sehen (dies ist normalerweise Null). Es ist die Wahrscheinlichkeit zu sehen, was Sie "oder extremer" sehen. Auch wenn dies für viele verwirrend sein mag, ist es dennoch von entscheidender Bedeutung (und man kann endlos darüber streiten, inwieweit sich die Subjektivität hinter dieser "extremeren" Formulierung verbirgt).

Amöbe

@amoeba Ich dachte, wenn ein adäquates Beispiel geliefert wird, könnte es als Proxy für "das Erhalten der beobachteten Probenergebnisse (oder eines extremeren Ergebnisses)" dienen. Möglicherweise ist eine bessere Formulierung erforderlich.

Khashaa

1

Ich würde die gleiche Beobachtung machen wie @amoeba; Der "oder extremere" Teil wird in den Schülerhöhen und Tea-Party-Antworten mit gutem Beispiel behandelt, aber ich denke, dass keine Antworten in diesem Thread auf eine klare allgemeine Erklärung gestoßen sind, insbesondere eine, die verschiedene alternative Hypothesen abdeckt. Ich stimme dieser Antwort zu und behaupte, dass der "oder extremere" Teil für viele Studenten ein konzeptioneller Knackpunkt ist.

Silverfish

@ Silverfish: und nicht nur Studenten. Wie viele Bayesianische-gegen-Frequentisten-Rants habe ich gelesen, die das Thema Subjektivität / Objektivität dieses "extremeren" Stückes diskutieren!

Amöbe

1

@Silver Ich bin mit Ihrer Kritik einverstanden und habe eine Antwort gepostet, die versucht, sie anzusprechen. "Oder noch extremer" ist der springende Punkt.

Whuber

4

Ich finde es hilfreich, eine Reihenfolge einzuhalten, in der Sie Konzepte in der folgenden Reihenfolge erläutern: (1) Der Z-Score und die Proportionen über und unter dem Z-Score unter der Annahme einer normalen Kurve. (2) Der Begriff einer Stichprobenverteilung und der z-Wert für eine gegebene Stichprobe bedeuten, wenn die Populationsstandardabweichung bekannt ist (und dann der z-Test für eine Stichprobe). (3) Der t-Test für eine Stichprobe und die Wahrscheinlichkeit von a Stichprobenmittelwert, wenn die Standardabweichung der Grundgesamtheit nicht bekannt ist (voller Geschichten über die geheime Identität eines bestimmten Industriestatistikers und warum Guinness gut für die Statistik ist). (4) T-Test mit zwei Stichproben und Stichprobenverteilung der mittleren Differenzen. Die Leichtigkeit, mit der Einsteiger den T-Test verstehen, hat viel mit der Vorbereitung auf dieses Thema zu tun.

/ * Ausbilder von verängstigten Schülern Modus aus * /

StatistikDoc Beratung
quelle

4

Ich habe auch festgestellt, dass Simulationen im Unterricht nützlich sind.

$n$ $N(\mu,1)$ $\sigma^2=1$ $H_0:\mu=\mu_0$

$t$ $\text{tstat}:=\sqrt{n}(\bar{X}-\mu_0)$ $N(0,1)$ $H_0$ $p$ $\Phi(\text{tstat})$ pnorm(tstat)

$N(\mu_0,1)$ $\mu_0=2$ nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

Christoph Hanck
quelle

0

Was bedeutet ein "p-Wert" in Bezug auf die getestete Hypothese?

In einem ontologischen Sinn (was ist Wahrheit?) Bedeutet es nichts . Jeder Hypothesentest basiert auf ungeprüften Annahmen . Dies ist normalerweise Teil des Tests selbst, aber auch Teil des von Ihnen verwendeten Modells (z. B. in einem Regressionsmodell). Da wir diese lediglich annehmen, können wir nicht wissen, ob der Grund, warum der p-Wert unter unserer Schwelle liegt, darin liegt, dass die Null falsch ist. Es ist keine Folge davon , bedingungslos zu schließen, dass wir wegen eines niedrigen p-Werts die Null zurückweisen müssen. Zum Beispiel könnte etwas im Modell falsch sein.

In einem erkenntnistheoretischen Sinn (was können wir lernen?) Bedeutet es etwas . Sie erwerben Kenntnisse, die davon abhängig sind, dass die nicht getesteten Voraussetzungen erfüllt sind. Da wir (zumindest bis jetzt) nicht jedes Gebäude der Realität beweisen können, wird unser gesamtes Wissen notwendigerweise bedingt sein. Wir werden niemals zur "Wahrheit" gelangen.

Luchonacho
quelle

-1

Ich denke, dass Beispiele mit Murmeln oder Münzen oder Höhenmessungen für das Üben der Mathematik in Ordnung sein können, aber sie sind nicht gut für die Erstellung von Intuitionen. College-Studenten hinterfragen gerne die Gesellschaft, oder? Wie wäre es mit einem politischen Beispiel?

Angenommen, ein politischer Kandidat hat eine Kampagne durchgeführt, in der er versprochen hat, dass eine Politik der Wirtschaft helfen wird. Sie wurde gewählt, sie ließ die Politik in Kraft setzen und 2 Jahre später boomt die Wirtschaft. Sie steht zur Wiederwahl und behauptet, dass ihre Politik der Grund für den Wohlstand aller ist. Solltest du sie wieder wählen?

Der nachdenkliche Bürger sollte sagen: "Nun, es stimmt, dass die Wirtschaft gut läuft, aber können wir das wirklich Ihrer Politik zuschreiben?" Um dies wirklich zu beantworten, müssen wir uns die Frage stellen: "Wäre die Wirtschaft in den letzten zwei Jahren ohne sie gut gelaufen?" Wenn die Antwort ja lautet (z. B. boomt die Wirtschaft aufgrund einer neuen, nicht verwandten technologischen Entwicklung), lehnen wir die Erklärung der Politiker zu den Daten ab.

Das heißt, um eine Hypothese zu untersuchen (Politik hat der Wirtschaft geholfen), müssen wir ein Modell der Welt aufbauen, in dem diese Hypothese null ist (die Politik wurde nie in Kraft gesetzt). Wir machen dann eine Vorhersage unter diesem Modell. Wir bezeichnen die Wahrscheinlichkeit, diese Daten in dieser alternativen Welt zu beobachten, als p-Wert . Wenn der p-Wert zu hoch ist, dann sind wir von der Hypothese nicht überzeugt - die Politik hat keinen Unterschied gemacht. Wenn der p-Wert niedrig ist, dann vertrauen wir der Hypothese - die Politik war wesentlich.

cgreen
quelle

1

Ich bin nicht einverstanden damit, dass p definiert ist als "Wir bezeichnen die Wahrscheinlichkeit, diese Daten in dieser alternativen Welt zu beobachten, als p-Wert" und auch als die Stärke der Schlussfolgerung, die gezogen wird (insbesondere wenn die Null nicht abgelehnt wird).

Silverfish

@Silverfish Könnten Sie das näher erläutern? Wahrscheinlich wäre es richtiger, den p-Wert als die Wahrscheinlichkeit zu bezeichnen, mit der diese Beobachtung ODER eine extremere Beobachtung durchgeführt wird. Aber es hört sich so an, als hätten Sie eine tiefere Kritik.

cgreen

1

Da die ursprüngliche Frage lautet, was ein p-Wert ist, dachte ich, dass es wichtig ist, diese Definition klar zu vermitteln. Nur "extremer" zu sagen ist an sich nicht sehr hilfreich, ohne zu erklären, was "extremer" bedeuten könnte - das ist eine Schwäche der meisten Antworten in diesem Thread, denke ich. Nur Whubers Antwort und der "Tee-Test" scheinen wirklich zu erklären, warum das "Extremere" auch wichtig ist.

Silverfish

Ich hatte auch das Gefühl, dass Ihre Schlussfolgerungen zu stark formuliert sind. Wenn wir die Null ablehnen, haben wir signifikante Beweise dagegen, wissen aber nicht, dass sie falsch ist. Wenn wir die Null nicht ablehnen, heißt das sicherlich nicht, dass die Null wahr ist (auch wenn es gut sein mag). Allgemeiner ausgedrückt habe ich das Gefühl, dass der Test, den Sie beschreiben, in recht abstrakten Begriffen für einen Lernenden, der gerade lernt, wie man einen Test durchführt, wahrscheinlich nicht klar ist. Das Fehlen einer klar definierten Teststatistik passt nicht gut zu der ursprünglichen Frage, wie die t- Statistik zu interpretieren ist .

Silverfish

Ein Merkmal dieser Antwort, das ich sehr mag, ist die klare Erklärung, dass p-Werte mit einem Nullmodell berechnet werden, auch wenn wir (subjektiv) nicht glauben, dass das Nullmodell tatsächlich wahr ist. Ich denke, dass die Tatsache, dass Teststatistiken unter einem Modell berechnet werden, ein zentraler Punkt ist, mit dem viele Studenten zu kämpfen haben.

Silverfish

-1

$p$

$p$ $X$
$\forall 0 \leq c \leq 1, F_{X | H_{0}} (inf {x : F_{X | H_{0}} (x) \geq c}) = c$ $\forall 0 \le c \le 1, F_{X|H_0}(\inf\{x: F_{X|H_0}(x) \ge c\}) = c$ $F_{X|H_0}$ $X$ $H_0$

$X$

$p$ $[0, 1]$
$[0, 1]$ $p$

$p$

nalzok
quelle

P

$P$

@whuber Danke für die Eingabe. Ich habe die Definition bearbeitet und es sollte jetzt mehr Sinn machen!

Nalzok

1

X

$X$

[0, 1] .

$[0,1].$

(θ, θ + 1)

$(\theta,\theta+1)$

θ \in R,

$\theta\in\mathbb{R},$

θ = 0,

$\theta=0,$

X = (X_{1}, \dots, X_{n}) .

$\mathbf{X}=(X_1,\ldots,X_n).$

X (X) = X_{1} .

$X(\mathbf{X}) = X_1.$

[0, 1]

$[0,1]$

H_{0} :

$H_0:$

n = 1

$n=1$

X_{1} = - 2 :

$X_1=-2:$

- 2

$-2$

-4

Der p-Wert ist nicht so mysteriös, wie es die meisten Analysten ausmachen. Es ist eine Möglichkeit, das Konfidenzintervall für einen t-Test nicht berechnen zu müssen, sondern lediglich das Konfidenzniveau zu bestimmen, mit dem die Nullhypothese zurückgewiesen werden kann.

ILLUSTRATION. Sie führen einen Test durch. Der p-Wert beträgt 0,1866 für die Q-Variable, 0,0023 für die R-Variable. (Diese sind in% ausgedrückt).

Wenn Sie mit einem Konfidenzniveau von 95% testen, um die Null-Hypo abzulehnen;

für Q: 100-18,66 = 81,34%

für R: 100-0,23 = 99,77%.

Bei einem Konfidenzniveau von 95% gibt Q ein Konfidenzniveau von 81,34%, das zurückgewiesen werden kann. Dies liegt unter 95% und ist nicht akzeptabel. NULL AKZEPTIEREN.

R gibt ein Vertrauen von 99,77%, um null abzulehnen. Deutlich über den gewünschten 95%. Wir lehnen daher die Null ab.

Ich habe gerade das Ablesen des p-Wertes durch eine "umgekehrte Methode" veranschaulicht, um ihn bis zu dem Konfidenzniveau zu messen, bei dem wir die Nullhypo ablehnen.

dytchay
quelle

6

Q

$Q$

R

$R$

@ cardinal weist auf einen wichtigen Punkt hin. Sie werden die Null nicht akzeptieren.

Patrick Coulombe

-8

****** p-Wert beim Testen der Hypothese misst die Empfindlichkeit des Tests. Je niedriger der p-Wert, desto größer ist die Empfindlichkeit. Wenn das Signifikanzniveau auf 0,05 eingestellt ist, weist der p-Wert von 0,0001 auf eine hohe Wahrscheinlichkeit hin, dass die Testergebnisse korrekt sind. ******

DR.HKLAKSHMANRAO
quelle

6

-1 Das ist eindeutig falsch. Möglicherweise möchten Sie zuerst die höher bewerteten Antworten lesen.

Momo

Was bedeuten p-Werte und t-Werte in statistischen Tests?

Antworten:

Wert verstehenppp

Ein Dialog zwischen einem Lehrer und einem nachdenklichen Schüler

Zusammenfassung

Wert verstehen $p$