Wahrscheinlichkeit, dass die Nullhypothese wahr ist

14

Das mag eine häufige Frage sein, aber ich habe nie eine zufriedenstellende Antwort gefunden.

Wie bestimmen Sie die Wahrscheinlichkeit, dass die Nullhypothese wahr (oder falsch) ist?

Angenommen, Sie geben den Schülern zwei verschiedene Versionen eines Tests und möchten feststellen, ob die Versionen gleichwertig sind. Sie führen einen t-Test durch und er ergibt einen p-Wert von .02. Was für ein schöner p-Wert! Das muss bedeuten, dass es unwahrscheinlich ist, dass die Tests gleichwertig sind, oder? Nein. Leider scheint P (Ergebnisse | Null) Ihnen nicht P (Null | Ergebnisse) mitzuteilen. Normalerweise lehnen wir die Nullhypothese ab, wenn wir auf einen niedrigen p-Wert stoßen. Aber woher wissen wir, dass wir keine Nullhypothese ablehnen, die sehr wahrscheinlich wahr ist? Um ein albernes Beispiel zu nennen: Ich kann einen Test für Ebola mit einer falsch positiven Rate von .02 entwerfen: Gib 50 Bälle in einen Eimer und schreibe "Ebola" auf einen. Wenn ich jemanden damit teste und er den "Ebola" -Ball auswählt, ist der p-Wert (P (den Ball auswählt | er hat kein Ebola)) .02,

Dinge, über die ich bisher nachgedacht habe:

  1. Angenommen, P (null | results) ~ = P (results | null) - für einige wichtige Anwendungen eindeutig falsch.
  2. Hypothese akzeptieren oder ablehnen, ohne P (null | results) zu kennen - Warum akzeptieren oder lehnen wir sie dann ab? Ist es nicht der springende Punkt, dass wir ablehnen, was wir für LIKELY false halten, und akzeptieren, was LIKELY true ist?
  3. Verwenden Sie den Satz von Bayes - Aber wie kommen Sie zu Ihren Vorgesetzten? Kommst du nicht wieder an den selben Ort, um sie experimentell zu bestimmen? Und sie a priori auszuwählen, scheint sehr willkürlich.
  4. Ich habe hier eine sehr ähnliche Frage gefunden: stats.stackexchange.com/questions/231580/. Die eine Antwort hier scheint im Grunde genommen zu sagen, dass es keinen Sinn macht, nach der Wahrscheinlichkeit zu fragen, dass eine Nullhypothese wahr ist, da dies eine Bayes'sche Frage ist. Vielleicht bin ich im Herzen ein Bayesianer, aber ich kann mir nicht vorstellen, diese Frage nicht zu stellen. Tatsächlich scheint es, dass das häufigste Missverständnis von p-Werten darin besteht, dass es sich um die Wahrscheinlichkeit einer echten Nullhypothese handelt. Wenn Sie diese Frage als Frequentist wirklich nicht stellen können, lautet meine Hauptfrage: Wie kommen Sie zu Ihren Prioren, ohne in einer Schleife hängen zu bleiben?

Edit: Danke für all die nachdenklichen Antworten. Ich möchte ein paar gemeinsame Themen ansprechen.

  1. Definition der Wahrscheinlichkeit: Ich bin mir sicher, dass es eine Menge Literatur dazu gibt, aber meine naive Vorstellung ist so etwas wie "der Glaube, dass ein vollkommen rationales Wesen die Informationen gegeben hätte" oder "die Wettquoten, die den Gewinn maximieren würden, wenn die Situation diesbezüglich wurde wiederholt und Unbekannte durften variieren ".
  2. Können wir jemals P (H0 | Ergebnisse) kennen? Dies scheint sicherlich eine schwierige Frage zu sein. Ich glaube jedoch, dass jede Wahrscheinlichkeit theoretisch erkennbar ist, da die Wahrscheinlichkeit immer von den gegebenen Informationen abhängig ist. Jedes Ereignis wird entweder stattfinden oder nicht, sodass die Wahrscheinlichkeit bei vollständiger Information nicht gegeben ist. Es ist nur vorhanden, wenn nicht genügend Informationen vorhanden sind, und sollte daher erkennbar sein. Wenn mir zum Beispiel gesagt wird, dass jemand eine Münze hat und nach der Wahrscheinlichkeit von Köpfen fragt, würde ich 50% sagen. Es kann vorkommen, dass die Münze zu 70% mit den Köpfen gewichtet ist, aber mir wurden diese Informationen nicht gegeben, sodass die Wahrscheinlichkeit für die Informationen, die ich hatte, 50% betrug, genauso wie die Wahrscheinlichkeit, dass sie auf den Schwänzen landet, 70% betrug Köpfe, als ich das gelernt habe. Da die Wahrscheinlichkeit immer von einer Menge (unzureichender) Daten abhängig ist,
    Edit: "Immer" kann etwas zu stark sein. Es mag einige philosophische Fragen geben, für die wir die Wahrscheinlichkeit nicht bestimmen können. In realen Situationen können wir zwar "fast nie" absolute Gewissheit haben, aber es sollte "fast immer" eine bestmögliche Schätzung geben.
Kalev Maricq
quelle
1
Wenn Ihre 'Nullhypothese' so ähnlich ist wie , das heißt, dass ein gewisser Unterschied Null ist, bedeutet das Zurückweisen, dass Sie genügend Beweise dafür gefunden haben, dass H A : θ = 0 ist . Sie könnten stattdessen für eine Nullhypothese wie H 0 : | θ | Δ , das heißt, ein gewisser Unterschied ist mindestens so groß wie Δ (wobei Δ für den Forscher der kleinste Unterschied ist, den er interessiert), und Zurückweisen bedeutet, dass Sie H A : | gefunden haben θ | <H0:θ=0HEIN:θ=0H0:|θ|ΔΔΔ (dh - Δ < θ < Δ ). Siehe Tests für Äquivalenzstats.stackexchange.com/tags/tost/infoHEIN:|θ|<Δ-Δ<θ<Δ
Alexis
Die Aussagekraft eines Experiments (und des statistischen Tests, der die Ergebnisse des Experiments analysiert) ist die Wahrscheinlichkeit, dass das Experiment einen Effekt ab einer bestimmten Größe bei einer bestimmten Signifikanzschwelle erkennen würde. statisticsdonewrong.com/power.html
Bennett Brown
Ihr Münzbeispiel ist gut. Es zeigt, dass Sie niemals P (H0 | Ergebnisse) kennen können, wenn Sie nur die Ergebnisse kennen und keine weiteren Annahmen treffen . Haben Sie wissen , die Wahrscheinlichkeit von Köpfen in einem bestimmten Wurf ‚unter der Annahme , ‘ eine gewisse Fairness der Münze? Ja. (Dies ist jedoch unter den gegebenen Voraussetzungen hypothetisch, und Sie werden nie erfahren, ob Ihre Annahmen zutreffen.) Kennen Sie die Wahrscheinlichkeit, mit der ein Wurf ausgeführt wird, wenn Sie eine Reihe vorheriger Ergebnisse kennen ? Nein! und es spielt keine Rolle, wie viele frühere Ergebnisse Sie kennen. Sie können die Wahrscheinlichkeitsköpfe im nächsten Wurf nicht genau kennen.
Sextus Empiricus

Antworten:

13

Sie haben mit Sicherheit ein wichtiges Problem identifiziert, und der Bayesianismus ist ein Versuch, es zu lösen. Sie können einen nicht informativen Prior auswählen, wenn Sie dies wünschen. Ich werde andere über den Bayes-Ansatz informieren.

In den allermeisten Fällen wissen Sie jedoch BescheidDie Null ist in der Bevölkerung falsch, Sie wissen nur nicht, wie groß der Effekt ist. Wenn Sie zum Beispiel eine völlig lächerliche Hypothese aufstellen - zum Beispiel, dass das Gewicht einer Person davon abhängt, ob ihre SSN ungerade oder gerade ist - und Sie es irgendwie schaffen, genaue Informationen aus der gesamten Bevölkerung zu erhalten, sind die beiden Mittelwerte nicht genau gleich. Sie werden sich (wahrscheinlich) geringfügig unterscheiden, aber nicht genau übereinstimmen. 'Wenn Sie diesen Weg gehen, werden Sie p-Werte und Signifikanztests unterdrücken und mehr Zeit damit verbringen, sich mit der Schätzung der Effektgröße und ihrer Genauigkeit zu befassen. Wenn Sie also eine sehr große Stichprobe haben, stellen Sie möglicherweise fest, dass Menschen mit einer ungeraden SSN 0,001 Pfund mehr wiegen als Menschen mit einer geraden SSN, und dass der Standardfehler für diese Schätzung 0,000001 Pfund beträgt, sodass sich p <0,05 für niemanden interessiert.

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Nicht , dass ich nicht einverstanden mit Ihnen, aber glauben Sie nicht , wenn er kümmert sich um p (Daten | H0) oder p (H0 | Daten) er über Studien mit niedrigen spricht . Das Beispiel, das Sie geben, ist sowohl in Bayes'schen als auch in Frequent'schen Frameworks einfach, da ihre jeweiligen Schwächen / Subjektivitäten im Lichte reichlich vorhandener Daten keine Rolle spielen. Der einzige Fehler, den Sie in dieser Situation noch machen können, besteht darin, die Bedeutung mit der Effektgröße zu verwechseln. n
David Ernst
1
Guter Punkt zur Effektgröße. Gibt es ein Analogon zu Situationen wie dem Testen auf eine Krankheit, in denen die Frage boolescher Natur ist?
Kalev Maricq
1
FWIW, ich bin vollkommen bereit zu glauben, dass es keine Beziehung zwischen dem Gewicht einer Person und der ungeraden oder der geraden SSN einer Person gibt. In einer Beobachtungsstudie werden diese Variablen mit einigen anderen Variablen usw. korreliert, so dass letztendlich eine nicht-0-marginale Assoziation besteht. Ich denke, der berechtigte Punkt ist, dass es für die meisten Dinge, für die Forscher ihre Zeit investieren, einen guten Grund gibt, anzunehmen, dass es einen echten Nicht-0-Effekt gibt.
gung - Wiedereinsetzung von Monica
1
@gung Sie können glauben, was Sie wollen, aber es gibt definitiv eine Nicht-Null-Beziehung zwischen Gewicht und SSN. Wir wissen mehr über die Beziehung als über ihre Existenz und dass sie wahrscheinlich klein ist.
Emory
1
Ich weiß, dass das Gewicht eine kontinuierliche Variable ist. Obwohl wir es als eine ganze Zahl von Kilogramm aufnehmen könnten. Ihr Kommentar betraf eine Beobachtungsstudie (Rückschlüsse auf eine Population anhand einer Stichprobe). Da meine Studie aus hypothetischen Dollars finanziert wird, handelt es sich um eine Bevölkerungsstudie mit unendlichen Präzisionsskalen - es ist keine statistische Inferenz erforderlich.
Emory
3

Um diese Frage zu beantworten, müssen Sie die Wahrscheinlichkeit definieren. Dies liegt daran, dass die Nullhypothese entweder wahr (mit der Ausnahme, dass sie bei der Betrachtung von Nullhypothesen für Punkte fast nie zutrifft) oder falsch ist. Eine Definition ist, dass meine Wahrscheinlichkeit meinen persönlichen Glauben darüber beschreibt, wie wahrscheinlich es ist, dass meine Daten aus dieser Hypothese entstanden sind, im Vergleich dazu, wie wahrscheinlich es ist, dass meine Daten aus den anderen Hypothesen entstanden sind, die ich in Betracht ziehe. Wenn Sie von diesem Framework ausgehen, ist Ihr Prior lediglich Ihre Überzeugung, die auf all Ihren vorherigen Informationen basiert, jedoch die vorliegenden Daten ausschließt.

jaradniemi
quelle
Guter Punkt. Ich denke, meine Vorstellung von Wahrscheinlichkeit ist so etwas wie "der vollkommen rationale Glaube" anstelle meines persönlichen. Ich habe meine Frage bearbeitet, um Ihre Punkte anzusprechen.
Kalev Maricq
2

Die Schlüsselidee besteht darin, dass Sie empirisch zeigen können, dass etwas falsch ist (geben Sie nur ein Gegenbeispiel an), aber Sie können nicht zeigen, dass etwas definitiv wahr ist (Sie müssten "alles" testen, um zu zeigen, dass es keine Gegenbeispiele gibt).

Fälschbarkeit ist die Grundlage der wissenschaftlichen Methode: Sie gehen davon aus, dass eine Theorie korrekt ist, und Sie vergleichen ihre Vorhersagen mit dem, was Sie in der realen Welt beobachten (z. B. wurde angenommen, dass die Gravitationstheorie von Netwon "wahr" ist, bis herausgefunden wurde, dass dies der Fall ist unter extremen Umständen nicht gut funktionieren).

Dies geschieht auch beim Testen von Hypothesen: Wenn P (results | null) niedrig ist, widersprechen die Daten der Theorie (oder Sie hatten Pech), sodass es Sinn macht, die Nullhypothese abzulehnen. Angenommen, null ist wahr, dann ist P (null) = P (null | Ergebnisse) = 1, und P (Ergebnisse | null) ist nur dann niedrig, wenn P (Ergebnisse) niedrig ist (Pech).

Wenn andererseits P (results | null) hoch ist, wer weiß? Vielleicht ist null falsch, aber P (result) ist hoch. In diesem Fall können Sie nichts weiter tun, als ein besseres Experiment zu entwerfen.

Lassen Sie mich wiederholen: Sie können nur zeigen, dass die Nullhypothese (wahrscheinlich) falsch ist. Ich würde also sagen, die Antwort ist die Hälfte Ihres zweiten Punktes: Sie müssen P (null | results) nicht kennen, wenn P (results | null) niedrig ist, um null abzulehnen, aber Sie können nicht sagen, null ist wahr, wenn es P ist (results | null) ist hoch.

Auch deshalb ist Reproduzierbarkeit sehr wichtig: Es wäre verdächtig, fünf Mal von fünf Pech zu haben.

Schwarzbär
quelle
H0:Heinlterneintichve:
Ich stimme Martijn zu. Wenn Sie mir sagen können, wie ich die Wahrscheinlichkeit ermitteln kann, dass die Nullhypothese falsch ist, würde ich dies als eine erfolgreiche Antwort auf meine Frage ansehen.
Kalev Maricq
Beachten Sie auch, dass es normal sein kann, dass P (result | null) klein ist, auch wenn null wahr ist. Zum Beispiel, wenn wir den Durchschnitt in 1000 Würfeln beobachten,μ1000, dann P(μ1000=3.50)ist klein, auch für einen fairen Würfel. p-Werte sind anders konstruiert als P (result | null) und werden präziser gemacht, um den Fehler vom Typ I zu definieren, indem 'result' als 'das Ergebnis, bei dem wir ablehnen' beschrieben wird. Auf diese Weise haben wir einen Fehler vom Typ I als P (null zurückgewiesen | null wahr) = P (Zurückweisungsergebnis | null). Stellen Sie sich vor, die Null ist wahr (hypothetisch), dann haben wir die Wahrscheinlichkeit P (Zurückweisungsergebnis | Null), einen Fehler vom Typ I zu machen.
Sextus Empiricus
2

-------------------------------------------------- ---------------------

(redigieren Sie: Ich denke, dass es nützlich wäre, eine Version meines Kommentars zu dieser Frage oben in dieser Antwort zu setzen, da es viel kürzer ist)

Die nicht symmetrische Berechnung von p (a | b) erfolgt, wenn sie als kausaler Zusammenhang wie p (Ergebnis | Hypothese) angesehen wird. Diese Berechnung funktioniert nicht in beide Richtungen: Eine Hypothese bewirkt eine Verteilung möglicher Ergebnisse, aber ein Ergebnis bewirkt keine Verteilung von Hypothesen.

P (result | hypothesis) ist ein theoretischer Wert, der auf der Kausalzusammenhangshypothese -> result basiert.

Wenn p (a | b) eine Korrelation oder beobachtete Häufigkeit (nicht notwendigerweise eine kausale Beziehung) ausdrückt, wird sie symmetrisch. Wenn wir zum Beispiel die Anzahl der Spiele aufschreiben, die eine Sportmannschaft gewinnt / verliert, und die Anzahl der Spiele, bei denen eine Sportmannschaft weniger als / mehr als 2 Tore in einer Kontingenztabelle erzielt. Dann sind P (win | score> 2) und P (score> 2 | win) ähnliche experimentelle / beobachtende (nicht theoretische) Objekte.

-------------------------------------------------- -------------------

Sehr simpel

Der Ausdruck P (Ergebnis | Hypothese) scheint so einfach, dass man leicht denkt, man könne die Terme einfach umkehren. 'Result' ist jedoch eine stochastische Variable mit einer Wahrscheinlichkeitsverteilung (unter der Annahme). Und 'Hypothese' ist (normalerweise) keine stochastische Variable. Wenn wir 'Hypothese' zu einer stochastischen Variablen machen, impliziert dies eine Wahrscheinlichkeitsverteilung verschiedener möglicher Hypothesen, genauso wie wir eine Wahrscheinlichkeitsverteilung verschiedener Ergebnisse haben. (Die Ergebnisse geben uns jedoch nicht diese Wahrscheinlichkeitsverteilung der Hypothese und ändern lediglich die Verteilung mit Hilfe des Bayes-Theorems.)


Ein Beispiel

Angenommen, Sie haben eine Vase mit rot / blauen Murmeln im Verhältnis 50/50, aus der Sie 10 Murmeln ziehen. Dann können Sie leicht etwas wie P (Vasenexperiment) ausdrücken, aber es ist wenig sinnvoll, P (Vasenexperiment) auszudrücken. Das Ergebnis ist (allein) nicht die Wahrscheinlichkeitsverteilung verschiedener möglicher Vasenversuche.

Wenn Sie mehrere mögliche Arten von Vasenexperimenten haben, ist es in diesem Fall möglich, P (Art des Vasenexperiments) auszudrücken und die Bayes-Regel zu verwenden, um ein P (Art des Vasenexperiments) zu erhalten, da nun die Art von Das Vasenexperiment ist eine stochastische Variable. (Anmerkung: genauer gesagt ist es P (Art des Vasenexperiments | Ergebnis & Verteilung der Art des Vasenexperiments))

Dennoch erfordert dieses P (Typ des Vasenexperiments) eine (Meta-) Hypothese über eine gegebene Anfangsverteilung P (Typ des Vasenexperiments).


Intuition

Vielleicht hilft der Ausdruck unten, die eine Richtung zu verstehen

X) Wir können die Wahrscheinlichkeit von X mit einer Hypothese über X ausdrücken.

somit

1) Wir können die Wahrscheinlichkeit für Ergebnisse mit einer Hypothese über die Ergebnisse ausdrücken.

und

2) Wir können die Wahrscheinlichkeit einer Hypothese mit einer (Meta-) Hypothese zu diesen Hypothesen ausdrücken.

Es ist die Bayes-Regel, die es uns erlaubt, eine Inverse von (1) auszudrücken, aber wir brauchen (2), dafür muss die Hypothese eine stochastische Variable sein.


Ablehnung als Lösung

Daher können wir angesichts der Ergebnisse keine absolute Wahrscheinlichkeit für eine Hypothese erhalten. Das ist eine Tatsache des Lebens. Der Versuch, diese Tatsache zu bekämpfen, scheint der Grund dafür zu sein, dass keine zufriedenstellende Antwort gefunden wird. Die Lösung, um eine zufriedenstellende Antwort zu finden, lautet: Akzeptieren, dass Sie keine (absolute) Wahrscheinlichkeit für eine Hypothese erhalten können.


Frequentisten

Genauso wie wir eine Hypothese nicht akzeptieren können, sollten wir die Hypothese auch nicht (automatisch) ablehnen, wenn P (result | hypothesis) nahe Null ist. Es bedeutet nur, dass es Beweise gibt, die eine Veränderung unserer Überzeugungen unterstützen, und es hängt auch von P (Ergebnis) und P (Hypothese) ab, wie wir unsere neuen Überzeugungen zum Ausdruck bringen sollten.

Wenn Frequentisten ein Ablehnungsschema haben, ist das in Ordnung. Was sie ausdrücken, ist nicht, ob eine Hypothese wahr oder falsch ist, oder die Wahrscheinlichkeit für solche Fälle. Das können sie nicht (ohne Vorgesetzte). Was sie stattdessen ausdrücken, ist etwas über die Fehlerrate (Zuverlässigkeit) ihrer Methode (vorausgesetzt, bestimmte Annahmen sind wahr).


Allwissend

Eine Möglichkeit, all dies herauszufinden, besteht darin, das Konzept der Wahrscheinlichkeit zu eliminieren. Wenn Sie die gesamte Population von 100 Murmeln in der Vase beobachten, können Sie bestimmte Aussagen zu einer Hypothese machen. Wenn Sie also allwissend werden und das Konzept der Wahrscheinlichkeit irrelevant ist, können Sie angeben, ob eine Hypothese wahr ist oder nicht (obwohl die Wahrscheinlichkeit auch außerhalb der Gleichung liegt).

Sextus Empiricus
quelle
Ihr Vasenbeispiel macht Sinn. Im wirklichen Leben wissen wir jedoch fast nie, wie viele Murmeln jeder Farbe in der Vase sind. Ich stelle mir immer die Frage "Gibt es mehr rote als blaue Murmeln?" Und meine Daten sind, dass ich 4 rote Murmeln und 1 blauen Marmor aus der Vase gezogen habe. Jetzt kann ich Annahmen wie "Es gibt wahrscheinlich ~ 100 Murmeln und jede Murmel ist entweder rot oder blau mit einer Wahrscheinlichkeit von 50%." diese Prioren.
Kalev Maricq
Das ist eher eine erkenntnistheoretische Frage als ein Problem der Wahrscheinlichkeit. Ein Ausdruck wie P (Ergebnis | Hypothese) ist in ähnlicher Weise "falsch", ich meine, es ist ein hypothetischer Ausdruck. Sie können die Wahrscheinlichkeit für ein Ergebnis ausdrücken, wenn Sie eine bestimmte hypothetische Annahme über die „Realität“ haben. Ebenso wie eine Wahrscheinlichkeit für ein experimentelles Ergebnis hypothetisch ist, erfordert ein Ausdruck für die Wahrscheinlichkeit einer Theorie (mit oder ohne Beobachtung eines Ergebnisses) einen gewissen hypothetischen Glauben an die „Realität“. Ja, die Prioritäten sind etwas willkürlich. Aber das ist auch eine Hypothese.
Sextus Empiricus
Über die Wahrscheinlichkeiten sprechen. Beachten Sie, dass die Bayes-Regel zwei stochastische Variablen umfasst: P (a | b) P (b) = P (b | a) P (a). Sie können die bedingten Wahrscheinlichkeiten in Beziehung setzen. Wenn eines dieser P (b | a) eine kausale Beziehung ist, wie es in der Theorie zur Verteilung der Ergebnisse führt, können Sie es genau berechnen. Ein solcher Fall liegt nur an der (1-gerichteten) Kausalität. Die Hypothese erlaubt es, alles zu wissen (hypothetisch), was Sie brauchen, die Murmeln in der Vase. Umgekehrt funktioniert das nicht. Ein experimentelles Ergebnis 4 vs 1 blau rot, nicht dazu führen , die Wahrscheinlichkeitsverteilung von Marmor in der Vase.
Sextus Empiricus