Ich habe viel darüber gelesen, wie man einen P-Wert richtig interpretiert, und nach allem, was ich gelesen habe, sagt der p-Wert NICHTS über die Wahrscheinlichkeit aus, dass die Nullhypothese wahr oder falsch ist. Beim Lesen der folgenden Anweisung:
Der p - Wert repräsentiert die Wahrscheinlichkeit, einen Fehler vom Typ I zu machen oder die Nullhypothese abzulehnen, wenn sie wahr ist. Je kleiner der p-Wert ist, desto geringer ist die Wahrscheinlichkeit, dass Sie die Nullhypothese fälschlicherweise ablehnen.
EDIT: Und dann 5 Minuten später las ich:
Fehlerhafte Interpretationen von P-Werten sind sehr häufig. Der häufigste Fehler besteht darin, einen P-Wert als die Wahrscheinlichkeit eines Fehlers zu interpretieren, indem eine echte Nullhypothese (ein Fehler vom Typ I) zurückgewiesen wird.
Das hat mich verwirrt. Was ist richtig? Und kann jemand bitte erklären, wie man den p-Wert richtig interpretiert und wie er sich richtig auf die Wahrscheinlichkeit bezieht, einen Typ-I-Fehler zu machen?
quelle
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
Der p - Wert repräsentiert die a priori Wahrscheinlichkeit, einen Fehler vom Typ I zu machen, dh die Nullhypothese unter der Annahme, dass dies wahr ist, abzulehnen.Antworten:
Aufgrund Ihrer Kommentare werde ich zwei separate Abschnitte erstellen:
p-Werte
Beim Testen statistischer Hypothesen finden Sie statistische Belege für die alternative Hypothese. Wie ich im Folgenden erklärt habe, wenn wir die Nullhypothese nicht ablehnen? , es ist ähnlich wie 'Beweis durch Widerspruch' in der Mathematik.
Wenn wir also 'statistische Beweise' finden wollen, nehmen wir das Gegenteil an, das wir von dem bezeichnen, was wir versuchen zu beweisen, was wir H 1 nennen . Danach ziehen wir eine Stichprobe und berechnen aus der Stichprobe eine sogenannte Teststatistik (zB einen t-Wert in einem t-Test).H0 H1
Dann können wir, da wir annehmen, dass wahr ist und unsere Stichprobe zufällig aus der Verteilung unter H 0 gezogen wird , die Wahrscheinlichkeit berechnen, Werte zu beobachten, die den aus unserer (Zufalls-) Stichprobe abgeleiteten Wert überschreiten oder diesem entsprechen. Diese Wahrscheinlichkeit wird als p-Wert bezeichnet.H0 H0
Wenn dieser Wert "klein genug" ist, dh kleiner als das von uns gewählte Signifikanzniveau, lehnen wir und betrachten H 1 als "statistisch bewiesen".H0 H1
Dabei sind mehrere Dinge wichtig:
Was ist also ein Fehler vom Typ I: Ein Fehler vom Typ I wird gemacht, wenn die zufällig aus gezogene Stichprobe zu der Schlussfolgerung führt, dass H 0 falsch ist, während es in Wirklichkeit wahr ist.H0 H0
Beachten Sie, dass dies impliziert, dass ein p-Wert nicht die Wahrscheinlichkeit eines Fehlers vom Typ I ist . In der Tat ist ein Fehler vom Typ I eine falsche Entscheidung durch den Test und die Entscheidung kann nur durch Vergleichen des p-Wertes mit dem gewählten Signifikanzniveau getroffen werden, mit einem p-Wert allein kann man keine Entscheidung treffen, es erfolgt erst nach dem Vergleichen Der p-Wert des gewählten Signifikanzniveaus, auf dem eine Entscheidung getroffen wird , und solange keine Entscheidung getroffen wird, ist der Fehler vom Typ I nicht einmal definiert.
Was ist dann der p-Wert? Die möglicherweise falsche Zurückweisung von ist auf die Tatsache zurückzuführen, dass wir unter H 0 eine Zufallsstichprobe ziehen. Es kann also sein, dass wir beim Ziehen der Stichprobe Pech haben und dass dies zu Pech führt zu einer falschen Ablehnung von HH0 H0 . Der p-Wert (obwohl dies nicht vollständig korrekt ist) entspricht also eher der Wahrscheinlichkeit, eine "schlechte Stichprobe" zu ziehen. Die korrekte Interpretation des p-Wertes ist, dass es die Wahrscheinlichkeit ist, dass die Teststatistik den Wert der Teststatistik, die aus einer zufällig gezogenen Stichprobe unter H 0 abgeleitet wurde, überschreitet oder diesem entsprichtH0 H0
Falsche Entdeckungsrate (FDR)
Wie oben erläutert, betrachtet man dies jedes Mal, wenn die Nullhypothese zurückgewiesen wird, als "statistischen Beweis" für . Wir haben also neue wissenschaftliche Erkenntnisse gefunden, daher spricht man von einer Entdeckung . Oben wurde auch erklärt, dass wir falsche Entdeckungen machen können (dh H 0 fälschlicherweise ablehnen ), wenn wir einen Fehler vom Typ I machen. In diesem Fall haben wir einen falschen Glauben an eine wissenschaftliche Wahrheit. Wir wollen nur wirklich wahre Dinge entdecken und deshalb versucht man, die falschen Entdeckungen auf ein Minimum zu beschränken, dh man wird auf einen Typ-I-Fehler kontrollieren. Es ist nicht so schwer zu erkennen, dass die Wahrscheinlichkeit eines Fehlers vom Typ I das gewählte Signifikanzniveau α ist . Um also Fehler vom Typ I zu kontrollieren, wird ein α korrigiertH1 H0 α α -Ebene, die Ihre Bereitschaft widerspiegelt, "falsche Beweise" zu akzeptieren.
Intuitiv bedeutet dies, dass ein Bruchteil dieser Tests zu einer falschen Schlussfolgerung führt , wenn wir eine große Anzahl von Proben ziehen und mit jeder Probe den Test durchführen. Es ist wichtig zu beachten, dass wir den Durchschnitt über viele Stichproben bilden . also gleich teste viele proben.α
Wenn wir dasselbe Beispiel für viele verschiedene Tests verwenden , liegt ein mehrfacher Testfehler vor (siehe mein Anser auf familienbezogenen Fehlergrenze: Führt die Wiederverwendung von Datensätzen für verschiedene Studien unabhängiger Fragen zu mehreren Testproblemen? ). In diesem Fall kann man die agr; -Inflation unter Verwendung von Techniken steuern, um die familienweise Fehlerrate (FWER) zu steuern , wie z. B. eine Bonferroni-Korrektur.α
Ein anderer Ansatz als FWER besteht darin, die Rate falscher Entdeckungen (FDR) zu steuern. . In diesem Fall einer steuert die Anzahl der falschen Entdeckungen (FD) unter allen Entdeckungen (D), so steuert einFDD , D ist die Anzahl der abgelehnten .H0
Die Fehlerwahrscheinlichkeit vom Typ I hat also damit zu tun, dass derselbe Test an vielen verschiedenen Stichproben durchgeführt wird. Bei einer großen Anzahl von Stichproben konvergiert die Fehlerwahrscheinlichkeit des Typs I mit der Anzahl von Stichproben, die zu einer falschen Zurückweisung, dividiert durch die Gesamtzahl der gezogenen Stichproben, führt .
Das FDR hat mit vielen Tests an derselben Stichprobe zu tun und konvergiert bei einer großen Anzahl von Tests zur Anzahl der Tests, bei denen ein Fehler vom Typ I gemacht wird (dh zur Anzahl der falschen Entdeckungen), dividiert durch die Gesamtzahl der Ablehnungen von (dh die Gesamtzahl der Entdeckungen)H0 .
Beachten Sie, dass Sie die beiden obigen Absätze vergleichen müssen:
Der FDR gibt an, dass Sie bei einer Stichprobe mit mehreren Tests 1000 Entdeckungen (dh Ablehnungen von ) mit einem FDR von 0,38 0,38 × erhaltenH0 falsche Entdeckungen.0.38×1000
quelle
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0
Ist so Ist es nicht "gleich oder größer"? Der P-Wert ist die Wahrscheinlichkeit, dass wir unter wahrem H0 diesen oder einen stärkeren Unterschied oder Zusammenhang als den tatsächlich beobachteten beobachten.Die erste Aussage ist nicht ganz richtig.
Aus einem raffinierten Artikel über das Missverständnis von Bedeutung: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )
Einfacher ausgedrückt, um die Wahrscheinlichkeit einzuschätzen, dass Sie H0 falsch abgelehnt haben, benötigen Sie die Wahrscheinlichkeit, dass H0 wahr ist, die Sie mit diesem Test einfach nicht erhalten können.
quelle
Die korrekte Interpretation eines p-Wertes ist die bedingte Wahrscheinlichkeit eines Ergebnisses, das für die alternative Hypothese mindestens so gut geeignet ist wie der beobachtete Wert (mindestens "extrem"), vorausgesetzt, die Nullhypothese ist wahr . Inkorrekte Interpretationen beinhalten im Allgemeinen entweder eine marginale Wahrscheinlichkeit oder ein Umschalten der Bedingung:
quelle
Mit dem p-Wert können wir bestimmen, ob die Nullhypothese (oder die behauptete Hypothese) abgelehnt werden kann oder nicht. Wenn der p-Wert kleiner als das Signifikanzniveau α ist, stellt dies ein statistisch signifikantes Ergebnis dar und die Nullhypothese sollte verworfen werden. Ist der p-Wert größer als das Signifikanzniveau α, kann die Nullhypothese nicht verworfen werden. Dies ist der ganze Grund, warum Sie den p-Wert nachschlagen müssen, wenn Sie die Tabelle verwenden oder einen Online-Rechner wie diesen, den p-Wert-Rechner , verwenden, um den p-Wert aus der Teststatistik zu ermitteln.
Jetzt weiß ich, dass Sie Fehler vom Typ I und II erwähnt haben. Das hat wirklich nichts mit dem p-Wert zu tun. Dies hat mit den Originaldaten zu tun, wie dem verwendeten Stichprobenumfang und den für die Daten erhaltenen Werten. Wenn beispielsweise die Stichprobengröße zu klein ist, kann dies zu einem Fehler vom Typ I führen.
quelle