Nach einem Statistikkurs und dem Versuch, meinen Kommilitonen zu helfen, stellte ich fest, dass ein Thema, das viel Kopfzerbrechen hervorruft, darin besteht, die Ergebnisse statistischer Hypothesentests zu interpretieren. Es scheint, dass die Schüler leicht lernen, wie man die für einen bestimmten Test erforderlichen Berechnungen durchführt, sich aber auf die Interpretation der Ergebnisse festlegen müssen. Viele computergestützte Werkzeuge geben Testergebnisse in Form von "p-Werten" oder "t-Werten" an.
Wie würden Sie Studenten, die ihren ersten Kurs in Statistik belegen, die folgenden Punkte erklären:
Was bedeutet ein "p-Wert" in Bezug auf die getestete Hypothese? Gibt es Fälle, in denen ein hoher oder ein niedriger p-Wert angestrebt werden sollte?
Wie ist die Beziehung zwischen einem p-Wert und einem t-Wert?
Antworten:
Wert verstehenp
Angenommen, Sie möchten die Hypothese testen, dass die durchschnittliche Größe der männlichen Studenten an Ihrer Universität Fuß Zoll beträgt . Sie sammeln Höhen von zufällig ausgewählten Schülern und berechnen den Stichprobenmittelwert (sagen wir, er beträgt Fuß Zoll). Unter Verwendung einer geeigneten Formel / statistischen Routine berechnen Sie den Wert für Ihre Hypothese und sagen, dass er sich als herausstellt .7 100 5 9 p 0,065 7 100 5 9 p 0,06
Um richtig zu interpretieren , sollten wir einige Dinge beachten:p = 0,06
Der erste Schritt beim Testen klassischer Hypothesen ist die Annahme, dass die in Betracht gezogene Hypothese wahr ist. (In unserem Zusammenhang nehmen wir an, dass die wahre durchschnittliche Höhe Fuß Zoll beträgt .)75 7
Stellen Sie sich vor, Sie führen die folgende Berechnung durch: Berechnen Sie die Wahrscheinlichkeit, dass der Stichprobenmittelwert größer als Fuß Zoll ist, unter der Annahme, dass unsere Hypothese tatsächlich korrekt ist (siehe Punkt 1).95 9
Mit anderen Worten, wir möchten wissen,
Die Berechnung in Schritt 2 wird als Wert bezeichnet. Daher ist ein - Wert von würde bedeuten , dass , wenn wir unser Experiment wiederholen waren viele, viele Male (jedes Mal , wenn wir wählen Studenten zufällig und berechne die Probe bedeuten) , dann mal aus können wir eine Probe erwarten zu sehen Mittelwert größer oder gleich Fuß Zoll.p 0,06 100 6 100 5 9p p 0.06 100 6 100 5 9
Sollten wir angesichts des obigen Verständnisses weiterhin davon ausgehen, dass unsere Hypothese wahr ist (siehe Schritt 1)? Nun, ein zeigt an, dass eines von zwei Dingen passiert ist:p=0.06
oder
Die traditionelle Art, zwischen (A) und (B) zu wählen, besteht darin, einen willkürlichen Grenzwert für zu wählen . Wir wählen (A) wenn und (B) wenn .p > 0,05 p < 0,05p p>0.05 p<0.05
quelle
Ein Dialog zwischen einem Lehrer und einem nachdenklichen Schüler
Demütig in der Überzeugung, dass in diesem Thread bisher nicht genügend Buntstifte verwendet wurden. Am Ende erscheint eine kurze, illustrierte Übersicht.
Student : Was bedeutet ein p-Wert? Eine Menge Leute scheinen zuzustimmen, dass es die Wahrscheinlichkeit ist, dass eine Stichprobe einen Mittelwert größer oder gleich einer Statistik hat oder dass es die Wahrscheinlichkeit ist, dieses Ergebnis zu beobachten, vorausgesetzt, die Nullhypothese ist wahr oder wo die Statistik meiner Stichprobe ist fiel auf [eine simulierte] Verteilung " und sogar " die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie die, die unter der Annahme der Nullhypothese berechnet wurde " .
Lehrer : Richtig verstanden, sind all diese Aussagen unter vielen Umständen richtig.
Student : Ich sehe nicht, wie wichtig die meisten von ihnen sind. Haben Sie uns nicht , dass wir eine Nullhypothese und eine Alternativhypothese ? Wie sind sie an diesen Ideen von "größer als oder gleich" oder "mindestens so groß" oder dem sehr populären "extremeren" beteiligt?H AH0 HA
Lehrer : Wäre es für uns hilfreich, ein konkretes Beispiel zu untersuchen, weil es im Allgemeinen kompliziert erscheinen kann?
Student : Sicher. Aber bitte machen Sie es realistisch, aber einfach, wenn Sie können.
Lehrer : Diese Theorie des Hypothesentests begann historisch mit dem Bedürfnis der Astronomen, Beobachtungsfehler zu analysieren. Wie wäre es also damit, dort anzufangen? Ich habe eines Tages einige alte Dokumente durchgesehen, in denen ein Wissenschaftler seine Bemühungen zur Reduzierung des Messfehlers in seinem Gerät beschrieb. Er hatte viele Messungen an einem Stern an einer bekannten Position vorgenommen und deren Verschiebungen vor oder hinter dieser Position aufgezeichnet. Um diese Verschiebungen zu visualisieren, zeichnete er ein Histogramm, das - wenn es ein wenig geglättet war - so aussah.
Student : Ich erinnere mich, wie Histogramme funktionieren: Die vertikale Achse ist mit "Dichte" gekennzeichnet, um mich daran zu erinnern, dass die relativen Häufigkeiten der Messungen eher durch Fläche als durch Höhe dargestellt werden.
Lehrer : Richtig. Ein "ungewöhnlicher" oder "extremer" Wert würde sich in einer Region mit einer ziemlich kleinen Fläche befinden. Hier ist ein Wachsmalstift. Denken Sie, Sie könnten in einer Region färben, deren Fläche nur ein Zehntel der Gesamtfläche ausmacht?
Student : Sicher; das ist einfach. [Farben in der Abbildung.]
Lehrer : Sehr gut! Das sind ungefähr 10% der Fläche für mich. Beachten Sie jedoch, dass nur die Bereiche zwischen vertikalen Linien im Histogramm von Bedeutung sind: Sie stellen die Chance oder Wahrscheinlichkeit dar, dass die Verschiebung zwischen diesen Linien auf der horizontalen Achse liegt. Das heißt, Sie mussten die gesamte Fläche bis zum Grund einfärben, und das wäre mehr als die Hälfte der Fläche, nicht wahr?
Student : Oh, ich verstehe. Lass mich es nochmal versuchen. Ich werde färben wollen, wo die Kurve wirklich niedrig ist, nicht wahr? Es ist an den beiden Enden am niedrigsten. Muss ich nur einen Bereich einfärben oder wäre es in Ordnung, ihn in mehrere Teile zu zerlegen?
Lehrer : Die Verwendung mehrerer Teile ist eine kluge Idee. Wo würden sie sein?
Student (zeigt): Hier und hier. Da dieser Stift nicht sehr scharf ist, habe ich einen Stift verwendet, um Ihnen die Linien zu zeigen, die ich verwende.
Lehrer : Sehr nett! Lassen Sie mich den Rest der Geschichte erzählen. Der Wissenschaftler hat einige Verbesserungen an seinem Gerät vorgenommen und dann zusätzliche Messungen durchgeführt. Er schrieb, dass die Verschiebung der ersten nur betrug , was er für ein gutes Zeichen hielt, aber als vorsichtiger Wissenschaftler fuhr er fort, zur Kontrolle weitere Messungen durchzuführen. Leider gehen diese anderen Messungen verloren - das Manuskript bricht an dieser Stelle ab - und wir haben nur diese einzelne Zahl, .0,10.1 0.1
Student : Das ist schade. Aber ist das nicht viel besser als die große Verschiebungsbreite Ihrer Figur?
Lehrer : Das ist die Frage, die Sie beantworten sollen. Was ist zunächst als ?H0
Student : Nun, ein Skeptiker würde sich fragen, ob die Verbesserungen, die am Gerät vorgenommen wurden, überhaupt Auswirkungen hatten. Die Beweislast liegt beim Wissenschaftler: Er möchte zeigen, dass der Skeptiker falsch liegt. Aus diesem Grund halte ich die Nullhypothese für etwas schlecht: Sie besagt, dass sich alle neuen Messungen - einschließlich des Werts von wir kennen - wie im ersten Histogramm beschrieben verhalten sollten. Oder vielleicht sogar noch schlimmer: Sie könnten noch weiter auseinander liegen.0.1
Lehrer : Weiter, es geht dir gut.
Student : Die Alternative ist also, dass die neuen Messungen weniger verbreitet sind, oder?
Lehrer : Sehr gut! Könnten Sie mir ein Bild davon zeichnen, wie ein Histogramm mit geringerer Streuung aussehen würde? Hier ist eine weitere Kopie des ersten Histogramms. Sie können darauf als Referenz zeichnen.
Student (Zeichnung): Ich benutze einen Stift, um das neue Histogramm zu zeichnen, und male den Bereich darunter aus. Ich habe es so gemacht, dass der größte Teil der Kurve auf der horizontalen Achse nahe bei Null liegt und der größte Teil der Fläche in der Nähe eines (horizontalen) Wertes von Null liegt.
Lehrer : Das ist ein guter Anfang. Denken Sie jedoch daran, dass ein Histogramm, das die Chancen anzeigt, eine Gesamtfläche von . Die Gesamtfläche des ersten Histogramms beträgt daher . Wie viel Fläche befindet sich in Ihrem neuen Histogramm?11 1
Student : Weniger als die Hälfte, denke ich. Ich sehe, das ist ein Problem, aber ich weiß nicht, wie ich es beheben soll. Was soll ich machen?
Lehrer : Der Trick besteht darin, das neue Histogramm höher als das alte zu machen, so dass seine Gesamtfläche beträgt . Hier zeige ich Ihnen eine computergenerierte Version zur Veranschaulichung.1
Student : Ich verstehe: Sie haben es vertikal gestreckt, sodass sich seine Form nicht wirklich geändert hat, aber jetzt sind der rote Bereich und der graue Bereich (einschließlich des Teils unter dem roten) gleich groß.
Lehrer : Richtig. Sie sehen ein Bild der Nullhypothese (in blau, verteilt) und einen Teil der Alternativhypothese (in rot, mit geringerer Verteilung).
Student : Was meinst du mit „Teil“ der Alternative? Ist es nicht nur die alternative Hypothese?
Lehrer : Statistiker und Grammatik scheinen sich nicht zu vermischen. :-) Im Ernst, was sie mit einer "Hypothese" meinen, ist normalerweise eine ganze Reihe von Möglichkeiten. Hier besteht die Alternative (wie Sie bereits sagten) darin, dass die Messungen "weniger verteilt" sind als zuvor. Aber wie viel weniger ? Es gibt viele Möglichkeiten. Hier, lassen Sie mich Ihnen einen anderen zeigen. Ich habe es mit gelben Strichen gezeichnet. Es liegt zwischen den beiden vorhergehenden.
Student : Ich verstehe: Sie können unterschiedliche Ausbreitungsmengen haben, aber Sie wissen nicht im Voraus, wie hoch die Ausbreitung wirklich sein wird. Aber warum hast du die lustige Schattierung in diesem Bild gemacht?
Lehrer : Ich wollte hervorheben, wo und wie sich die Histogramme unterscheiden. Ich habe sie grau hinterlegt, wenn die alternativen Histogramme niedriger als die Null sind, und rot, wenn die Alternativen höher sind .
Student : Warum ist das wichtig?
Lehrer : Erinnerst du dich, wie du das erste Histogramm in beiden Schwänzen eingefärbt hast? Ah, hier ist es. Lassen Sie uns dieses Bild auf die gleiche Weise ausmalen.
Student : Ich erinnere mich: das sind die extremen Werte. Ich fand die Stellen, an denen die Nulldichte so gering wie möglich war und die dort 10% der Fläche färbten.
Lehrer : Erzählen Sie mir von den Alternativen in diesen extremen Bereichen.
Student : Es ist schwer zu sehen, weil der Wachsmalstift es verdeckt hat, aber es sieht so aus, als gäbe es kaum eine Alternative in den von mir eingefärbten Bereichen. Ihre Histogramme liegen genau auf der Werteachse und es ist kein Platz für einen Bereich unter ihnen vorhanden.
Lehrer : Lassen Sie uns diesen Gedanken fortsetzen. Wenn ich Ihnen hypothetisch sagen würde, dass eine Messung eine Verschiebung von , und Sie fragen würden, von welchem dieser drei Histogramme das wahrscheinlichste stammt, welches wäre es?−2
Student : Der erste - der blaue. Es ist das am meisten verbreitete und es ist das einzige, bei dem keine Chance zu haben scheint aufzutreten.−2
Lehrer : Und was ist mit dem Wert von im Manuskript?0.1
Student : Hmmm ... das ist eine andere Geschichte. Alle drei Histogramme sind mit ziemlich hoch über dem Boden .0.1
Lehrer : Okay, fair genug. Angenommen, ich habe Ihnen gesagt, dass der Wert in der Nähe von , also zwischen und . Hilft Ihnen das, einige Wahrscheinlichkeiten aus diesen Diagrammen abzulesen?0 0,20.1 0 0.2
Student : Sicher, weil ich Bereiche benutzen kann. Ich muss nur die Flächen unter jeder Kurve zwischen und schätzen . Aber das sieht ziemlich schwer aus.0,20 0.2
Lehrer : Sie müssen nicht so weit gehen. Kannst du einfach sagen, welches Gebiet das größte ist?
Student : Natürlich die unter der höchsten Kurve. Alle drei Bereiche haben dieselbe Basis. Je höher die Kurve, desto mehr Fläche befindet sich darunter und unter der Basis. Das heißt, das höchste Histogramm - das, das ich mit den roten Strichen gezeichnet habe - ist das wahrscheinlichste für eine Verschiebung von . Ich glaube, ich sehe, wohin Sie damit gehen, aber ich bin ein wenig besorgt: Muss ich mir nicht alle Histogramme für alle Alternativen ansehen , nicht nur das eine oder andere, das hier gezeigt wird? Wie könnte ich das machen?0.1
Lehrer : Sie sind gut darin, Muster zu erfassen. Sagen Sie mir also, was passiert mit dem Histogramm des Messgeräts, wenn es immer präziser wird?
Student : Es wird enger - oh, und es muss auch größer werden, damit die Gesamtfläche gleich bleibt. Das macht es ziemlich schwierig, die Histogramme zu vergleichen. Die alternativen sind alle höher als die Null rechts bei , das ist offensichtlich. Bei anderen Werten sind die Alternativen manchmal höher und manchmal niedriger! Zum Beispiel [zeigt auf einen Wert in der Nähe von ], genau hier ist mein rotes Histogramm das niedrigste, das gelbe Histogramm das höchste und das ursprüngliche Null-Histogramm liegt dazwischen. Aber rechts ist die Null die höchste.3 / 40 3/4
Lehrer : Im Allgemeinen ist das Vergleichen von Histogrammen eine komplizierte Angelegenheit. Um uns dabei zu helfen, habe ich den Computer gebeten, ein weiteres Diagramm zu erstellen : Er hat jede der alternativen Histogrammhöhen (oder "Dichten") durch die Null-Histogrammhöhe dividiert und Werte erstellt, die als "Wahrscheinlichkeitsverhältnisse" bekannt sind. Infolgedessen bedeutet ein Wert größer als dass die Alternative wahrscheinlicher ist, während ein Wert kleiner als bedeutet, dass die Alternative weniger wahrscheinlich ist. Es hat noch eine Alternative aufgezeigt: Es ist weiter verbreitet als die beiden anderen, aber immer noch weniger weit verbreitet als der ursprüngliche Apparat.11 1
Lehrer (Fortsetzung): Können Sie mir zeigen, wo die Alternativen tendenziell wahrscheinlicher sind als die Null?
Student (Färbung): Hier in der Mitte, offensichtlich. Und da es sich nicht mehr um Histogramme handelt, sollten wir eher Höhen als Flächen betrachten. Deshalb markiere ich nur einen Wertebereich auf der horizontalen Achse. Aber woher weiß ich, wie viel von der Mitte einzufärben ist? Wo höre ich auf zu färben?
Lehrer : Es gibt keine feste Regel. Es hängt alles davon ab, wie wir unsere Schlussfolgerungen verwenden wollen und wie heftig die Skeptiker sind. Aber lehnen Sie sich zurück und überlegen Sie, was Sie erreicht haben: Sie erkennen jetzt, dass Ergebnisse mit hohen Wahrscheinlichkeitsquoten ein Beweis für die Alternative sind und Ergebnisse mit geringen Wahrscheinlichkeitsquoten ein Beweis für die Alternative. Was ich Sie bitten werde, ist, in einem Bereich zu färben, der, soweit dies möglich ist, eine geringe Chance hat, unter der Nullhypothese aufzutreten, und eine relativ große Chance, unter den Alternativen aufzutreten. Zurück zu dem ersten Diagramm, das Sie zu Beginn unseres Gesprächs eingefärbt haben, haben Sie die beiden Enden der Null eingefärbt, weil sie "extrem" waren. Würden sie immer noch gute Arbeit leisten?
Student : Das glaube ich nicht. Obwohl sie unter der Nullhypothese ziemlich extrem und selten waren, sind sie für keine der Alternativen praktisch unmöglich. Wenn meine neue Messung beispielsweise , würde ich mich der Skepsis anschließen und bestreiten, dass eine Verbesserung eingetreten ist, obwohl in jedem Fall ein ungewöhnliches Ergebnis war. Ich möchte diese Farbe ändern. Hier - lass mich noch einen Wachsmalstift haben.3,03.0 3.0
Lehrer : Was bedeutet das?
Student : Wir begannen damit, dass Sie mich baten, nur 10% der Fläche unter dem ursprünglichen Histogramm einzuzeichnen - das, das die Null beschreibt. Also habe ich jetzt 10% des Gebiets eingezogen, in dem die Alternativen wahrscheinlicher auftreten. Ich denke, wenn sich eine neue Messung in diesem Bereich befindet, sollten wir an die Alternative glauben.
Lehrer : Und wie sollte die Skeptiker darauf reagieren?
Student : Ein Skeptiker muss nie zugeben, dass er sich irrt, oder? Aber ich denke, sein Glaube sollte ein wenig erschüttert sein. Immerhin haben wir es so angeordnet, dass eine Messung zwar innerhalb des Bereichs liegen könnte , den ich gerade gezeichnet habe, aber nur eine 10% ige Chance hat, dort zu sein, wenn die Null wahr ist. Und es hat eine größere Chance, dort zu sein, wenn die Alternative wahr ist. Ich kann Ihnen nur nicht sagen, wie viel größer diese Chance ist, da es davon abhängt, wie sehr der Wissenschaftler den Apparat verbessert hat. Ich weiß nur, dass es größer ist. Der Beweis wäre also gegen den Skeptiker.
Lehrer : Alles klar. Würde es Ihnen etwas ausmachen, Ihr Verständnis so zusammenzufassen, dass wir genau wissen, was Sie gelernt haben?
Student : Ich habe gelernt, dass wir, um alternative Hypothesen mit Nullhypothesen zu vergleichen, ihre Histogramme vergleichen sollten. Wir teilen die Dichten der Alternativen durch die Dichte der Null: Das haben Sie das "Wahrscheinlichkeitsverhältnis" genannt. Um einen guten Test zu machen, sollte ich eine kleine Zahl wie 10% auswählen oder was auch immer ausreicht, um einen Skeptiker zu erschüttern. Dann sollte ich Werte finden, bei denen das Wahrscheinlichkeitsverhältnis so hoch wie möglich ist, und sie einfärben, bis 10% (oder was auch immer) eingefärbt wurden.
Lehrer : Und wie würden Sie diese Färbung verwenden?
Student : Wie Sie mich früher erinnert haben, muss die Färbung zwischen vertikalen Linien sein. Werte (auf der horizontalen Achse), die unter der Färbung liegen, sprechen gegen die Nullhypothese. Andere Werte - nun, es ist schwer zu sagen, was sie bedeuten könnten, ohne einen genaueren Blick auf alle beteiligten Histogramme zu werfen.
Lehrer : Zurück zum Wert von im Manuskript, was würden Sie daraus schließen?0.1
Student : Das liegt in dem Bereich, den ich zuletzt gefärbt habe. Ich denke, der Wissenschaftler hatte wahrscheinlich Recht und der Apparat wurde wirklich verbessert.
Lehrer : Eine letzte Sache. Ihre Schlussfolgerung basierte auf der Auswahl von 10% als Kriterium oder "Größe" des Tests. Viele Leute verwenden stattdessen gerne 5%. Einige bevorzugen 1%. Was kannst du ihnen sagen?
Student : Ich konnte nicht alle diese Tests auf einmal machen! Na ja, vielleicht könnte ich das irgendwie. Ich kann sehen, dass ich unabhängig von der Größe des Tests mit dem Färben bei , was in diesem Sinne der "extremste" Wert ist, und von dort aus in beide Richtungen nach außen arbeiten sollte. Wenn ich genau bei - dem tatsächlich beobachteten Wert - anhalten würde, hätte ich wahrscheinlich in einem Bereich zwischen und , beispielsweise gefärbt . Die 5% und 1% Leute konnten sofort sagen, dass ich zu viel gefärbt habe: Wenn sie nur 5% oder 1% färben wollten, konnten sie es, aber sie würden nicht so weit herauskommen wie0,1 0,05 0,1 0,08 0,10 0.1 0.05 0.1 0.08 0.1 . Sie würden nicht zu dem gleichen Schluss kommen wie ich: Sie würden sagen, es gibt nicht genügend Beweise dafür, dass eine Änderung tatsächlich stattgefunden hat.
Lehrer : Sie haben mir gerade gesagt, was all diese Zitate am Anfang wirklich bedeuten. Aus diesem Beispiel sollte ersichtlich sein, dass sie möglicherweise nicht "extremer" oder "größer oder gleich" oder "mindestens so groß" im Sinne eines größeren Werts oder sogar eines Werts mit einer geringen Nulldichte beabsichtigen können . Sie meinen diese Dinge wirklich im Sinne großer Wahrscheinlichkeitsverhältnisse , die Sie beschrieben haben. Übrigens wird die Zahl um , die Sie berechnet haben, als "p-Wert" bezeichnet. Es kann nur so richtig verstanden werden, wie Sie es beschrieben haben: im Hinblick auf eine Analyse der relativen Histogrammhöhen - die Wahrscheinlichkeitsverhältnisse.0.08
Student : Danke. Ich bin nicht sicher, ob ich das alles vollständig verstehe, aber Sie haben mir viel zu denken gegeben.
Lehrer : Wenn Sie noch weiter gehen möchten, werfen Sie einen Blick auf das Neyman-Pearson-Lemma . Sie sind wahrscheinlich bereit, es jetzt zu verstehen.
Zusammenfassung
Bei vielen Tests, die auf einer einzelnen Statistik wie der im Dialogfeld basieren, wird diese als " " oder " " bezeichnet. Dies sind Anhaltspunkte dafür, wie das Null-Histogramm aussieht, aber sie sind nur Anhaltspunkte: Wie wir diese Zahl nennen, spielt keine Rolle. Die vom Schüler zusammengefasste Konstruktion, wie sie hier dargestellt ist, zeigt, wie sie mit dem p-Wert zusammenhängt. Der p-Wert ist die kleinste Testgröße, bei der eine Beobachtung von zur Ablehnung der Nullhypothese führen würde.t t = 0,1z t t=0.1
In dieser Abbildung, die zur Darstellung von Details gezoomt ist, ist die Nullhypothese durchgehend blau und zwei typische Alternativen sind mit gestrichelten Linien dargestellt. Der Bereich, in dem diese Alternativen tendenziell viel größer als die Null sind, ist schattiert. Die Schattierung beginnt dort, wo die relativen Wahrscheinlichkeiten der Alternativen am größten sind (bei ). Die Schattierung stoppt, wenn die Beobachtung erreicht ist. Der p-Wert ist die Fläche des schattierten Bereichs unter dem Null-Histogramm: Dies ist die Chance, unter der Annahme, dass die Null wahr ist, ein Ergebnis zu beobachten, dessen Wahrscheinlichkeitsverhältnisse tendenziell groß sind, unabhängig davon, welche Alternative wahr ist. Insbesondere hängt diese Konstruktion stark von der alternativen Hypothese ab. Es kann nicht ohne Angabe der möglichen Alternativen durchgeführt werden.t = 0,10 t=0.1
quelle
Bevor ich dieses Thema anspreche, stelle ich immer sicher, dass die Schüler sich gerne zwischen Prozentsätzen, Dezimalstellen, Quoten und Brüchen bewegen. Wenn sie damit nicht ganz zufrieden sind, können sie sehr schnell verwirrt werden.
Ich mag es, Hypothesentests zum ersten Mal (und damit p-Werte und Teststatistiken) durch Fischers klassisches Teeexperiment zu erklären. Ich habe mehrere Gründe dafür:
(i) Ich denke, dass es sinnvoller ist, ein Experiment durchzuarbeiten und die Begriffe zu definieren, als zunächst alle diese Begriffe zu definieren. (ii) Sie müssen sich nicht explizit auf Wahrscheinlichkeitsverteilungen, Bereiche unter der Kurve usw. verlassen, um über die wichtigsten Punkte des Hypothesentests hinwegzukommen. (iii) Es erklärt diese lächerliche Vorstellung von "als oder extremer als die beobachteten" auf eine ziemlich vernünftige Weise. (iv) Ich finde, dass die Schüler die Geschichte, die Herkunft und die Hintergrundgeschichte dessen, was sie studieren, gerne verstehen, weil es sie realer macht als einige abstrakte Theorien. (v) Es spielt keine Rolle, aus welcher Disziplin oder welchem Fach die Schüler kommen, sie können sich auf das Beispiel Tee beziehen. (Hinweis: Einige internationale Schüler haben Schwierigkeiten mit dieser besonders britischen Einrichtung für Tee mit Milch.)
[Anmerkung: Diese Idee stammt ursprünglich aus Dennis Lindleys wunderbarem Artikel "Die Analyse experimenteller Daten: Die Wertschätzung von Tee und Wein", in dem er demonstriert, warum Bayes'sche Methoden klassischen Methoden überlegen sind.]
Die Hintergrundgeschichte ist, dass Muriel Bristol eines Nachmittags in den 1920er Jahren Fisher in der Rothamsted Experimental Station auf eine Tasse Tee besucht. Als Fisher die Milch zuletzt einfüllte, beklagte sie sich, dass sie auch feststellen könne, ob die Milch zuerst (oder zuletzt) eingegossen wurde, und dass sie die erstere bevorzuge. Um dies zu testen, entwarf er sein klassisches Teeexperiment, bei dem Muriel ein Paar Teetassen überreicht bekommt und sie identifizieren muss, welcher zuerst die Milch hinzugefügt hat. Dies wird mit sechs Paar Teetassen wiederholt. Ihre Wahlmöglichkeiten sind entweder Richtig (R) oder Falsch (W) und ihre Ergebnisse sind: RRRRRW.
Angenommen, Muriel ahnt nur, und kann überhaupt nicht diskriminieren. Dies nennt man die Nullhypothese . Ziel des Experiments ist es nach Fisher, diese Nullhypothese in Abrede zu stellen. Wenn Muriel schätzt, wird sie die Teetasse mit einer Wahrscheinlichkeit von 0,5 bei jeder Runde korrekt identifizieren und da sie unabhängig sind, hat das beobachtete Ergebnis 0,5 = 0,016 (oder 1/64). Fisher argumentiert dann, dass entweder:6
(a) die Nullhypothese (Muriel vermutet) ist wahr und es ist ein Ereignis mit geringer Wahrscheinlichkeit eingetreten oder
(b) Die Nullhypothese ist falsch und Muriel hat diskriminierende Kräfte.
Der p-Wert (oder Wahrscheinlichkeitswert) ist die Wahrscheinlichkeit, dieses Ergebnis zu beobachten (RRRRRW), vorausgesetzt, die Nullhypothese ist wahr - es ist die in (a) oben genannte kleine Wahrscheinlichkeit. In diesem Fall ist es 0,016. Da Ereignisse mit geringen Wahrscheinlichkeiten nur selten (per Definition) auftreten, ist Situation (b) möglicherweise eine bessere Erklärung für das, was passiert ist, als Situation (a). Wenn wir die Nullhypothese ablehnen, akzeptieren wir tatsächlich die entgegengesetzte Hypothese, die wir alternative Hypothese nennen. In diesem Beispiel ist Muriel die alternative Hypothese.
Eine wichtige Überlegung ist, was wir als "kleine" Wahrscheinlichkeit einstufen. Ab wann sind wir bereit zu sagen, dass ein Ereignis unwahrscheinlich ist? Der Standard-Benchmark beträgt 5% (0,05) und wird als Signifikanzniveau bezeichnet. Wenn der p-Wert kleiner als das Signifikanzniveau ist, lehnen wir die Nullhypothese als falsch ab und akzeptieren unsere alternative Hypothese. Es ist üblich zu behaupten, dass ein Ergebnis "signifikant" ist, wenn der p-Wert kleiner als das Signifikanzniveau ist, dh wenn die Wahrscheinlichkeit, dass das, was wir unter der Annahme der Nullhypothese beobachtet haben, wahr ist, kleiner als unser Cutoff-Punkt. Es ist wichtig zu wissen, dass die Verwendung von 5% völlig subjektiv ist (wie auch die Verwendung der anderen üblichen Signifikanzniveaus von 1% und 10%).
Fisher erkannte, dass dies nicht funktioniert; Jedes mögliche Ergebnis mit einem falschen Paar war gleichermaßen ein Hinweis auf diskriminierende Kräfte. Die relevante Wahrscheinlichkeit für die obige Situation (a) beträgt daher 6 (0,5) ^ 6 = 0,094 (oder 6/64), was jetzt bei einem Signifikanzniveau von 5% nicht signifikant ist . Um dies zu überwinden, argumentierte Fisher, dass wenn 1 von 6 Fehlern als Beweis für Diskriminierungskräfte angesehen wird, dies keine Fehler sind, dh Ergebnisse, die stärker auf Diskriminierungskräfte hinweisen als die beobachteten, sollten bei der Berechnung des p-Werts einbezogen werden. Dies führte zur folgenden Änderung der Begründung:
(a) Die Nullhypothese (Muriel schätzt) ist wahr und die Wahrscheinlichkeit von Ereignissen, die extremer als die beobachtete sind, ist gering oder
(b) Die Nullhypothese ist falsch und Muriel hat diskriminierende Kräfte.
Zurück zu unserem Teeexperiment und wir stellen fest, dass der p-Wert unter dieser Einstellung 7 (0,5) ^ 6 = 0,109 ist, was bei der 5% -Schwelle immer noch nicht signifikant ist.
Ich bringe die Schüler dann dazu, mit einigen anderen Beispielen zu arbeiten, beispielsweise mit dem Werfen von Münzen, um herauszufinden, ob eine Münze fair ist oder nicht. Dies führt die Konzepte der Null- / Alternativhypothese, der p-Werte und der Signifikanzniveaus auf. Wir gehen dann auf den Fall einer stetigen Variablen über und führen den Begriff einer Teststatistik ein. Da wir uns bereits mit der Normalverteilung, der Standardnormalverteilung und der Z-Transformation befasst haben, müssen lediglich mehrere Konzepte miteinander verschraubt werden.
Neben der Berechnung von Teststatistiken, p-Werten und der Entscheidungsfindung (signifikant / nicht signifikant) veranlasse ich die Schüler, veröffentlichte Artikel auszufüllen und das fehlende Lückenspiel auszufüllen.
quelle
Kein Betrag der mündlichen Erklärung oder Berechnungen hat mir wirklich geholfen zu verstehen , auf dem Bauch heraus, was p-Werte waren, aber es aufgeschnappt in dem Fokus für mich wirklich , wenn ich einen Kurs nahm die Simulation beteiligt. Das gab mir die Möglichkeit, die durch die Nullhypothese erzeugten Daten tatsächlich zu sehen und die Mittelwerte / etc. von simulierten Proben, dann schauen Sie, wo die Statistik meiner Probe auf diese Verteilung fiel.
Ich denke, der Hauptvorteil dabei ist, dass die Schüler die Verteilung der Mathematik- und Teststatistiken für eine Minute vergessen und sich auf die vorliegenden Konzepte konzentrieren können. Zugegeben, ich musste lernen, wie man dieses Zeug simuliert, was für eine völlig andere Gruppe von Schülern zu Problemen führen wird. Aber es hat bei mir funktioniert und ich habe unzählige Male Simulationen verwendet, um anderen mit großem Erfolg Statistiken zu erklären (z. B. "So sehen Ihre Daten aus; so sieht eine überlagerte Poisson-Verteilung aus. Sind Sie sicher, dass Sie dies möchten?") eine Poisson-Regression durchführen? ").
Dies beantwortet nicht genau die Fragen, die Sie gestellt haben, aber für mich waren sie zumindest trivial.
quelle
Eine gute Definition des p-Werts ist "die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie diejenige, die unter der Annahme berechnet wurde, dass die Nullhypothese wahr ist".
Das Problem dabei ist, dass es ein Verständnis von "Teststatistik" und "Nullhypothese" erfordert. Aber das ist leicht zu vermitteln. Wenn die Nullhypothese zutrifft, ist in der Regel so etwas wie "Parameter aus Grundgesamtheit A ist gleich Parameter aus Grundgesamtheit B", und Sie berechnen Statistiken, um diese Parameter abzuschätzen anders"?
Wenn die Münze fair ist, mit welcher Wahrscheinlichkeit würde ich 60 Köpfe von 100 Würfen sehen? Das testet die Nullhypothese: "Die Münze ist fair" oder "p = 0,5", wobei p die Wahrscheinlichkeit von Köpfen ist.
Die Teststatistik in diesem Fall wäre die Anzahl der Köpfe.
Nun gehe ich davon aus, dass es sich bei dem, was Sie "t-Wert" nennen, um eine generische "Teststatistik" handelt, nicht um einen Wert aus einer "t-Verteilung". Sie sind nicht dasselbe, und der Begriff "t-Wert" ist (notwendigerweise) nicht weit verbreitet und könnte verwirrend sein.
Was Sie als "t-Wert" bezeichnen, ist wahrscheinlich das, was ich als "Teststatistik" bezeichne. Um einen p-Wert zu berechnen (denken Sie daran, es ist nur eine Wahrscheinlichkeit), benötigen Sie eine Verteilung und einen Wert, der in die Verteilung eingefügt wird, die eine Wahrscheinlichkeit zurückgibt. Sobald Sie dies tun, ist die Wahrscheinlichkeit, dass Sie zurückkehren, Ihr p-Wert. Sie können sehen, dass sie zusammenhängen, da unter der gleichen Verteilung unterschiedliche Teststatistiken unterschiedliche p-Werte zurückgeben. Extremere Teststatistiken geben niedrigere p-Werte zurück, was einen größeren Hinweis darauf gibt, dass die Nullhypothese falsch ist.
Ich habe das Problem der einseitigen und zweiseitigen p-Werte hier ignoriert.
quelle
Stellen Sie sich vor, Sie haben eine Tüte mit 900 schwarzen und 100 weißen Murmeln, dh 10% der Murmeln sind weiß. Stellen Sie sich nun vor, Sie nehmen einen Marmor heraus, schauen ihn sich an und zeichnen seine Farbe auf, nehmen einen anderen heraus, zeichnen seine Farbe auf usw. und machen dies 100 Mal. Am Ende dieses Prozesses haben Sie eine Zahl für weiße Murmeln, die im Idealfall 10, dh 10% von 100, betragen würde, aber in Wirklichkeit 8 oder 13 sein kann, oder was auch immer, einfach aufgrund der Zufälligkeit. Wenn Sie dieses 100-Marmor-Ausziehexperiment viele Male wiederholen und dann ein Histogramm der Anzahl der pro Experiment gezogenen weißen Murmeln aufzeichnen, werden Sie feststellen, dass Sie eine um 10 zentrierte Glockenkurve haben.
Dies stellt Ihre 10% -Hypothese dar: Wenn Sie in einem Beutel 1000 Murmeln, von denen 10% weiß sind, zufällig 100 Murmeln entnehmen, finden Sie 10 weiße Murmeln in der Auswahl, geben oder nehmen Sie 4 oder so. Der p-Wert ist alles über dieses "Geben oder Nehmen 4 oder so". Nehmen wir an, Sie können anhand der zuvor erstellten Glockenkurve feststellen, dass in weniger als 5% der Fälle 5 oder weniger weiße Murmeln erhalten werden und in weniger als 5% der Fälle 15 oder mehr weiße Murmeln, dh> 90% der Murmeln Mal enthält Ihre 100-Marmor-Auswahl zwischen 6 und 14 weiße Murmeln.
Angenommen, jemand stößt eine Tüte mit 1000 Murmeln mit einer unbekannten Anzahl weißer Murmeln hinunter, dann haben wir die Werkzeuge, um diese Fragen zu beantworten
i) Gibt es weniger als 100 weiße Murmeln?
ii) Gibt es mehr als 100 weiße Murmeln?
iii) Enthält der Beutel 100 weiße Murmeln?
Nehmen Sie einfach 100 Murmeln aus dem Beutel und zählen Sie, wie viele dieser Proben weiß sind.
a) Wenn die Probe 6 bis 14 Weiße enthält, können Sie die Hypothese, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 6 bis 14> 0,05 sind, nicht zurückweisen.
b) Wenn die Probe 5 oder weniger Weißtöne enthält, können Sie die Hypothese ablehnen, dass sich 100 weiße Kugeln im Beutel befinden und die entsprechenden p-Werte für 5 oder weniger <0,05 sind. Sie würden erwarten, dass der Beutel <10% weiße Murmeln enthält.
c) Wenn die Probe 15 oder mehr Weiße enthält, können Sie die Hypothese ablehnen, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 15 oder mehr <0,05 sind. Sie würden erwarten, dass der Beutel> 10% weiße Murmeln enthält.
Als Antwort auf Baltimarks Kommentar
In Anbetracht des obigen Beispiels gibt es ungefähr:
4,8% Chance, 5 weiße Kugeln oder weniger zu erhalten
1,85% Chance von 4 oder weniger
0,55% Chance von 3 oder weniger
0,1% Chance von 2 oder weniger
6,25% Chance von 15 oder mehr
3,25% Chance von 16 oder mehr
1,5% Chance von 17 oder mehr
0,65% Chance von 18 oder mehr
0,25% Chance von 19 oder mehr
0,1% Chance von 20 oder mehr
0,05% Chance von 21 oder mehr
Diese Zahlen wurden aus einer empirischen Verteilung geschätzt, die mit einer einfachen Monte-Carlo-Routine in R und den resultierenden Quantilen der Stichprobenverteilung erstellt wurde.
Nehmen wir zur Beantwortung der ursprünglichen Frage an, Sie ziehen 5 weiße Kugeln, und es besteht nur eine ungefähre Wahrscheinlichkeit von 4,8%, dass Sie, wenn der 1000-Marmorbeutel wirklich 10% weiße Kugeln enthält, nur 5 weiße Kugeln aus einer Stichprobe von 100 herausziehen würden. Dies entspricht einem p-Wert <0,05. Sie müssen sich jetzt entscheiden zwischen
i) Es sind wirklich 10% weiße Bälle in der Tasche und ich hatte einfach "Pech", so wenige zu zeichnen
oder
ii) Ich habe so wenige weiße Bälle gezeichnet, dass es nicht wirklich 10% weiße Bälle geben kann (lehne die Hypothese von 10% weißen Bällen ab)
quelle
Was der p-Wert nicht sagt, ist, wie wahrscheinlich es ist, dass die Nullhypothese wahr ist. Unter der Annahme, dass die Nullhypothese wahr ist, berechnen wir unter Verwendung des herkömmlichen (Fisher) Signifikanztest-Frameworks zunächst die Wahrscheinlichkeit der Beobachtung der Daten. Dies ist der p-Wert. Es erscheint daher intuitiv vernünftig anzunehmen, dass die Nullhypothese wahrscheinlich falsch ist, wenn die Daten unter der Nullhypothese mit hinreichender Wahrscheinlichkeit nicht eingehalten werden. Das ist völlig vernünftig. Statistiker verwenden traditionell einen Schwellenwert und "lehnen die Nullhypothese bei einem Signifikanzniveau von 95% ab", wenn (1 - p)> 0,95 ist; Dies ist jedoch nur eine Konvention, die sich in der Praxis als vernünftig erwiesen hat. Dies bedeutet nicht, dass die Wahrscheinlichkeit, dass die Nullhypothese falsch ist, geringer als 5% ist (und daher eine Wahrscheinlichkeit von 95%, dass die Alternativhypothese wahr ist).
Abbildung einer Funktion f (), die den p-Wert auf die Wahrscheinlichkeit abbildet, dass die alternative Hypothese wahr ist. Es wäre vernünftig zu behaupten, dass diese Funktion streng abnimmt (je wahrscheinlicher die Beobachtungen unter der Nullhypothese sind, desto unwahrscheinlicher ist es, dass die Alternativhypothese wahr ist) und dass sie Werte zwischen 0 und 1 liefert (da sie eine Schätzung ergibt) der Wahrscheinlichkeit). Das ist jedoch alles, was wir über f () wissen. Es gibt zwar eine Beziehung zwischen p und der Wahrscheinlichkeit, dass die alternative Hypothese wahr ist, sie ist jedoch nicht kalibriert. Das heißt, wir können den p-Wert nicht verwenden, um quantitative Aussagen über die Plausibilität der Null- und Alternativhypothesen zu treffen.
Vorbehalt Lektor: Es ist nicht wirklich im Rahmen des Frequentismus, von der Wahrscheinlichkeit zu sprechen, dass eine Hypothese wahr ist, da es sich nicht um eine Zufallsvariable handelt - sie ist entweder wahr oder nicht. Wo ich also von der Wahrscheinlichkeit der Wahrheit einer Hypothese gesprochen habe, bin ich implizit zu einer Bayes'schen Interpretation übergegangen. Es ist falsch, Bayesian und Frequentist zu mischen, es besteht jedoch immer die Versuchung, dies zu tun, da wir wirklich einen quantitativen Hinweis auf die relative Plausibilität / Wahrscheinlichkeit der Hypothesen wünschen. Dies ist jedoch nicht das, was der p-Wert liefert.
quelle
In der Statistik kann man nie sagen, dass etwas absolut sicher ist. Daher verwenden Statistiker einen anderen Ansatz, um zu beurteilen, ob eine Hypothese wahr ist oder nicht. Sie versuchen, alle anderen Hypothesen abzulehnen, die von den Daten nicht unterstützt werden.
Zu diesem Zweck haben statistische Tests eine Nullhypothese und eine Alternativhypothese. Der aus einem statistischen Test gemeldete p-Wert ist die Wahrscheinlichkeit des Ergebnisses, wenn die Nullhypothese korrekt ist. Deshalb wollen wir kleine p-Werte. Je kleiner sie sind, desto unwahrscheinlicher wäre das Ergebnis, wenn die Nullhypothese richtig wäre. Wenn der p-Wert klein genug ist (dh es ist sehr unwahrscheinlich, dass das Ergebnis aufgetreten ist, wenn die Nullhypothese korrekt war), wird die Nullhypothese verworfen.
Auf diese Weise können Nullhypothesen formuliert und anschließend verworfen werden. Wenn die Nullhypothese abgelehnt wird, akzeptieren Sie die Alternativhypothese als beste Erklärung. Denken Sie jedoch daran, dass die Alternativhypothese niemals sicher ist, da die Nullhypothese zufällig die Ergebnisse hätte erzeugen können.
quelle
Ich bin etwas schüchtern, um das alte Thema wiederzubeleben, aber ich bin von hier weggesprungen, also poste ich dies als Antwort auf die Frage im Link.
Der p-Wert ist ein konkreter Begriff, es sollte keinen Raum für Missverständnisse geben. Es ist jedoch irgendwie mystisch, dass umgangssprachliche Übersetzungen der Definition von p-Wert zu vielen unterschiedlichen Fehlinterpretationen führen. Ich denke, die Wurzel des Problems liegt in der Verwendung der Ausdrücke "mindestens so negativ wie die Nullhypothese" oder "mindestens so extrem wie die in Ihren Beispieldaten" usw.
Zum Beispiel sagt Wikipedia
Ich denke, es ist besser, das "extremere Ergebnis" so etwas wie einem indirekten Sprechakt zu überlassen . Also ist meine Einstellung
x
Da der p-Wert klein ist, ist es sehr unwahrscheinlich, dass die Stichprobe
x
in der hypothetischen Welt gezogen wurde. Daher schließen wir, dass es sehr unwahrscheinlich ist, dass die hypothetische Welt tatsächlich die tatsächliche Welt war.quelle
Ich finde es hilfreich, eine Reihenfolge einzuhalten, in der Sie Konzepte in der folgenden Reihenfolge erläutern: (1) Der Z-Score und die Proportionen über und unter dem Z-Score unter der Annahme einer normalen Kurve. (2) Der Begriff einer Stichprobenverteilung und der z-Wert für eine gegebene Stichprobe bedeuten, wenn die Populationsstandardabweichung bekannt ist (und dann der z-Test für eine Stichprobe). (3) Der t-Test für eine Stichprobe und die Wahrscheinlichkeit von a Stichprobenmittelwert, wenn die Standardabweichung der Grundgesamtheit nicht bekannt ist (voller Geschichten über die geheime Identität eines bestimmten Industriestatistikers und warum Guinness gut für die Statistik ist). (4) T-Test mit zwei Stichproben und Stichprobenverteilung der mittleren Differenzen. Die Leichtigkeit, mit der Einsteiger den T-Test verstehen, hat viel mit der Vorbereitung auf dieses Thema zu tun.
/ * Ausbilder von verängstigten Schülern Modus aus * /
quelle
Ich habe auch festgestellt, dass Simulationen im Unterricht nützlich sind.
pnorm(tstat)
nullMeans
quelle
In einem ontologischen Sinn (was ist Wahrheit?) Bedeutet es nichts . Jeder Hypothesentest basiert auf ungeprüften Annahmen . Dies ist normalerweise Teil des Tests selbst, aber auch Teil des von Ihnen verwendeten Modells (z. B. in einem Regressionsmodell). Da wir diese lediglich annehmen, können wir nicht wissen, ob der Grund, warum der p-Wert unter unserer Schwelle liegt, darin liegt, dass die Null falsch ist. Es ist keine Folge davon , bedingungslos zu schließen, dass wir wegen eines niedrigen p-Werts die Null zurückweisen müssen. Zum Beispiel könnte etwas im Modell falsch sein.
In einem erkenntnistheoretischen Sinn (was können wir lernen?) Bedeutet es etwas . Sie erwerben Kenntnisse, die davon abhängig sind, dass die nicht getesteten Voraussetzungen erfüllt sind. Da wir (zumindest bis jetzt) nicht jedes Gebäude der Realität beweisen können, wird unser gesamtes Wissen notwendigerweise bedingt sein. Wir werden niemals zur "Wahrheit" gelangen.
quelle
Ich denke, dass Beispiele mit Murmeln oder Münzen oder Höhenmessungen für das Üben der Mathematik in Ordnung sein können, aber sie sind nicht gut für die Erstellung von Intuitionen. College-Studenten hinterfragen gerne die Gesellschaft, oder? Wie wäre es mit einem politischen Beispiel?
Angenommen, ein politischer Kandidat hat eine Kampagne durchgeführt, in der er versprochen hat, dass eine Politik der Wirtschaft helfen wird. Sie wurde gewählt, sie ließ die Politik in Kraft setzen und 2 Jahre später boomt die Wirtschaft. Sie steht zur Wiederwahl und behauptet, dass ihre Politik der Grund für den Wohlstand aller ist. Solltest du sie wieder wählen?
Der nachdenkliche Bürger sollte sagen: "Nun, es stimmt, dass die Wirtschaft gut läuft, aber können wir das wirklich Ihrer Politik zuschreiben?" Um dies wirklich zu beantworten, müssen wir uns die Frage stellen: "Wäre die Wirtschaft in den letzten zwei Jahren ohne sie gut gelaufen?" Wenn die Antwort ja lautet (z. B. boomt die Wirtschaft aufgrund einer neuen, nicht verwandten technologischen Entwicklung), lehnen wir die Erklärung der Politiker zu den Daten ab.
Das heißt, um eine Hypothese zu untersuchen (Politik hat der Wirtschaft geholfen), müssen wir ein Modell der Welt aufbauen, in dem diese Hypothese null ist (die Politik wurde nie in Kraft gesetzt). Wir machen dann eine Vorhersage unter diesem Modell. Wir bezeichnen die Wahrscheinlichkeit, diese Daten in dieser alternativen Welt zu beobachten, als p-Wert . Wenn der p-Wert zu hoch ist, dann sind wir von der Hypothese nicht überzeugt - die Politik hat keinen Unterschied gemacht. Wenn der p-Wert niedrig ist, dann vertrauen wir der Hypothese - die Politik war wesentlich.
quelle
quelle
Der p-Wert ist nicht so mysteriös, wie es die meisten Analysten ausmachen. Es ist eine Möglichkeit, das Konfidenzintervall für einen t-Test nicht berechnen zu müssen, sondern lediglich das Konfidenzniveau zu bestimmen, mit dem die Nullhypothese zurückgewiesen werden kann.
ILLUSTRATION. Sie führen einen Test durch. Der p-Wert beträgt 0,1866 für die Q-Variable, 0,0023 für die R-Variable. (Diese sind in% ausgedrückt).
Wenn Sie mit einem Konfidenzniveau von 95% testen, um die Null-Hypo abzulehnen;
für Q: 100-18,66 = 81,34%
für R: 100-0,23 = 99,77%.
Bei einem Konfidenzniveau von 95% gibt Q ein Konfidenzniveau von 81,34%, das zurückgewiesen werden kann. Dies liegt unter 95% und ist nicht akzeptabel. NULL AKZEPTIEREN.
R gibt ein Vertrauen von 99,77%, um null abzulehnen. Deutlich über den gewünschten 95%. Wir lehnen daher die Null ab.
Ich habe gerade das Ablesen des p-Wertes durch eine "umgekehrte Methode" veranschaulicht, um ihn bis zu dem Konfidenzniveau zu messen, bei dem wir die Nullhypo ablehnen.
quelle
****** p-Wert beim Testen der Hypothese misst die Empfindlichkeit des Tests. Je niedriger der p-Wert, desto größer ist die Empfindlichkeit. Wenn das Signifikanzniveau auf 0,05 eingestellt ist, weist der p-Wert von 0,0001 auf eine hohe Wahrscheinlichkeit hin, dass die Testergebnisse korrekt sind. ******
quelle