Johansson (2011) in „ Hail the unmöglich: p-Wert, Beweise und Wahrscheinlichkeit “ (hier ist auch Link zur Zeitschrift ) besagt , dass untere - Werte oft als stärkere Beweise gegen die Null betrachtet werden. Johansson impliziert, dass die Leute Beweise gegen die Null als stärker ansehen würden, wenn ihr statistischer Test einen Wert von ausgeben würde , als wenn ihr statistischer Test einen Wert von ausgeben würde . Johansson nennt vier Gründe, warum der Wert nicht als Beweis gegen die Null verwendet werden kann:
- ist unter der Nullhypothese gleichmäßig verteilt und kann daher niemals Hinweise auf die Null geben.
- ist ausschließlich von der Nullhypothese abhängig und daher nicht geeignet, Beweise zu quantifizieren, da Beweise immer im Sinne von Beweisen für oder gegen eine Hypothese relativ zu einer anderen Hypothese relativ sind.
- bezeichnet eher die Wahrscheinlichkeit, Beweise zu erhalten (angesichts der Null) als die Stärke der Beweise.
- hängt von unbeobachteten Daten und subjektiven Absichten ab und impliziert daher unter Berücksichtigung der offensichtlichen Interpretation, dass die offensichtliche Stärke beobachteter Daten von Dingen abhängt, die nicht geschehen sind, und von subjektiven Absichten.
Leider kann ich Johanssons Artikel nicht intuitiv nachvollziehen. Für mich bedeutet ein Wert von , dass die Wahrscheinlichkeit geringer ist, dass die Null wahr ist, als ein Wert von . Warum sind niedrigere Werte kein stärkerer Beweis gegen null?
Antworten:
Meine persönliche Einschätzung seiner Argumente:
Sein Vorschlag, das Wahrscheinlichkeitsverhältnis als Beweismaß zu verwenden, ist meiner Meinung nach gut (aber hier ist die Idee eines Bayes-Faktors allgemeiner), aber in dem Kontext, in dem er es einbringt, ist es etwas eigenartig: Zuerst geht er die Gründe für Fischertests, aus denen es keine alternative Hypothese zur Berechnung des Wahrscheinlichkeitsverhältnisses gibt. Aber als Beweis gegen die Null ist Fisherian. Daher verwechselt er Fisher und Neyman-Pearson. Zweitens sind die meisten Teststatistiken, die wir verwenden, (Funktionen) des Wahrscheinlichkeitsverhältnisses, und in diesem Fall ist p eine Transformation des Wahrscheinlichkeitsverhältnisses. Wie Cosma Shalizi es ausdrückt:p p
Hier ist die Dichte im Zustand "Signal" und p ( x ) die Dichte im Zustand "Rauschen". Die Maßnahme für "hinreichend wahrscheinlich" wäre hier P ( q ( X ) / p ( x ) > t o b s | H 0 ) , das ist p . Beachten Sie, dass in der richtigen Neyman-Pearson Testen t o b s durch eine feste substituiert ist t ( s ) derart , dass Pq(x) p(x) P(q(X)/p(x)>tobs∣H0) p tobs t(s) . P(q(X)/p(x)>t(s)∣H0)=α
quelle
Der Grund , dass Argumente wie Johanssons recycelt werden , so scheint oft mit der Tatsache zusammen, dass P-Werte Indizes der Beweise gegen die Null sind , sind aber nicht Maßnahmen der Beweise. Die Evidenz hat mehr Dimensionen, als jede einzelne Zahl messen kann, und daher gibt es immer Aspekte der Beziehung zwischen P-Werten und Evidenz, die für Menschen schwierig sein können.
Ich habe viele der von Johansson in einem Artikel verwendeten Argumente überprüft, die die Beziehung zwischen P-Werten und Likelihood-Funktionen und damit Belege zeigen: http://arxiv.org/abs/1311.0081 Leider wurde dieser Artikel jetzt dreimal zurückgewiesen. obwohl seine Argumente und die Beweise für sie nicht widerlegt wurden. (Es scheint, dass es unangenehm ist, wenn Schiedsrichter Meinungen wie Johanssons vertreten, anstatt sich zu irren.)
quelle
Hinzufügen zu @ Momos nette Antwort:
quelle
Spricht Johansson von p-Werten aus zwei verschiedenen Experimenten? In diesem Fall kann der Vergleich von p-Werten dem Vergleich von Äpfeln mit Lammkoteletts entsprechen. Wenn das Experiment "A" eine große Anzahl von Proben umfasst, kann sogar ein kleiner unwichtiger Unterschied statistisch signifikant sein. Wenn das Experiment "B" nur wenige Proben umfasst, kann ein wichtiger Unterschied statistisch unbedeutend sein. Schlimmer noch (deshalb habe ich gesagt, Lammkoteletts und keine Orangen), die Waage ist möglicherweise völlig unvergleichlich (psi in der einen und kwh in der anderen).
quelle