Nehmen wir an, wir werfen wiederholt eine faire Münze und wir wissen, dass die Anzahl der Köpfe und Schwänze ungefähr gleich sein sollte. Wenn wir ein Ergebnis wie 10 Köpfe und 10 Schwänze für insgesamt 20 Würfe sehen, glauben wir den Ergebnissen und neigen dazu zu glauben, dass die Münze fair ist.
Wenn Sie ein Ergebnis wie 10000 Köpfe und 10000 Schwänze für insgesamt 20000 Würfe sehen, würde ich tatsächlich die Gültigkeit des Ergebnisses in Frage stellen (hat der Experimentator die Daten gefälscht), da ich weiß, dass dies unwahrscheinlicher ist als beispielsweise ein Ergebnis von 10093 Köpfe und 9907 Schwänze.
Was ist das statistische Argument hinter meiner Intuition?
quelle
Ich mag Srikants Erklärung und ich denke, die Bayes'sche Idee ist wahrscheinlich der beste Weg, um ein Problem wie dieses anzugehen. Aber hier ist eine andere Möglichkeit, es ohne Bayes zu sehen: (in R)
Das ist ungefähr 31,2 auf meinem System. Mit anderen Worten, es ist mehr als 30-mal wahrscheinlicher, 10 von 20 zu sehen, als 10.000 von 20.000, selbst mit einer fairen Münze in beiden Fällen. Dieses Verhältnis nimmt ungebunden mit zunehmender Probengröße zu.
Dies ist eine Art Likelihood-Ratio-Ansatz, aber in meinem Bauch fühlt sich dies mehr als alles andere wie ein Bayes-Urteil an.
quelle
Ein subjektivistisches Bayes'sches Argument ist praktisch der einzige Weg (vom statistischen Standpunkt aus), um Ihre Intuition zu verstehen , die - eigentlich - Gegenstand einer psychologischen Untersuchung ist, keine statistische. Es ist jedoch offensichtlich unfair - und daher ungültig -, einen Bayes'schen Ansatz zu verwenden, um zu argumentieren, dass ein Ermittler die Daten gefälscht hat. Die Logik hierfür ist vollkommen kreisförmig: Es kommt darauf an zu sagen, "basierend auf meinen vorherigen Überzeugungen über das Ergebnis finde ich Ihr Ergebnis unglaublich, und deshalb müssen Sie betrogen haben." Solch ein unlogisches, eigennütziges Argument würde offensichtlich nicht in einem Gerichtssaal oder in einem Peer-Review-Prozess aufstehen.
Stattdessen könnten wir einen Tipp aus Ronald Fischers Kritik an Mendels Experimenten nehmen und einen formalen Hypothesentest durchführen. Natürlich ist es ungültig, eine Post-hoc- Hypothese basierend auf dem Ergebnis zu testen . Aber Experimente müssen wiederholt werden, um geglaubt zu werden: Das ist ein Grundsatz der wissenschaftlichen Methode. Nachdem wir ein Ergebnis gesehen haben, von dem wir glauben, dass es gefälscht ist, können wir eine geeignete Hypothese formulieren, um zukünftige (oder zusätzliche) Ergebnisse zu testen . In diesem Fall würde der kritische Bereich eine Reihe von Ergebnissen umfassen, die der Erwartung sehr nahe kommen. Zum Beispiel ein Test amα = 5% würden jedes Ergebnis zwischen 9.996 und 10.004 als verdächtig ansehen, da (a) diese Sammlung nahe an unseren hypothetischen "gefälschten" Ergebnissen liegt und (b) unter der Nullhypothese " keine Fälschung" (unschuldig bis vor Gericht als schuldig erwiesen!) Ein Ergebnis in diesem Bereich hat nur eine Wahrscheinlichkeit von 5% (tatsächlich 5,07426%). Darüber hinaus können wir diesen scheinbar ad-hoc- Ansatz in einen Chi-Quadrat-Kontext (a la Fisher) stellen, indem wir einfach die Abweichung zwischen dem beobachteten Anteil und dem erwarteten Anteil quadrieren und dann das Neyman-Pearson-Lemma in einem einseitigen Test am aufrufen niedriger Schwanz und Anwenden der Normalen Näherung auf die Binomialverteilung .
Obwohl ein solcher Test keine Fälschung beweisen kann, kann er auf zukünftige Berichte dieses Experimentators angewendet werden, um die Glaubwürdigkeit seiner Behauptungen zu beurteilen, ohne ungünstige und nicht zu unterstützende Annahmen allein aufgrund Ihrer Intuition zu treffen. Dies ist viel fairer und strenger, als sich auf ein Bayes'sches Argument zu berufen, um jemanden zu implizieren, der vollkommen unschuldig ist und einfach so viel Pech hat, dass er ein wunderschönes experimentelles Ergebnis erzielt hat!
quelle
Ich denke, deine Intuition ist fehlerhaft. Es scheint, dass Sie implizit ein einzelnes "sehr spezielles" Ergebnis (genau 10000 Köpfe) mit einer Reihe vieler Ergebnisse vergleichen (alle "nicht speziellen" Anzahlen von Köpfen nahe 10000). Die Definition von "speziell" ist jedoch eine willkürliche Wahl, die auf unserer Psychologie basiert. Wie wäre es mit binär 10000000000000 (Dezimalzahl 8192) oder Hex ABC (Dezimalzahl 2748) - wäre das auch verdächtig speziell? Wie Joris Meys kommentierte, wäre das Bayes-Argument für jede einzelne Anzahl von Köpfen im Wesentlichen dasselbe, was impliziert, dass jedes Ergebnis verdächtig wäre.
Um das Argument ein wenig zu erweitern: Sie möchten eine Hypothese testen ("der Experimentator täuscht vor") und dann eine Teststatistik (Anzahl der Köpfe) auswählen. Ist diese Teststatistik geeignet, um Ihnen etwas über Ihre Hypothese zu erzählen? Mir scheint, dass die gewählte Teststatistik nicht informativ ist (keine Funktion eines Parameters, der in der Hypothese als fester Wert angegeben ist). Dies geht zurück auf die Frage, was Sie unter "Betrug" verstehen. Wenn dies bedeutet, dass der Experimentator die Münze nach Belieben kontrolliert, wird dies in der Teststatistik nicht berücksichtigt. Ich denke, Sie müssen genauer sein, um einen quantifizierbaren Indikator zu finden, und die Frage daher einem statistischen Test zugänglich machen.
quelle
Die Schlussfolgerung, die Sie ziehen, hängt SEHR von dem Prior ab, den Sie für die Wahrscheinlichkeit des Betrugs ausgewählt haben, und von der vorherigen Wahrscheinlichkeit, dass, wenn der Flipper liegt, x Köpfe gemeldet werden.
Die meiste Masse auf P zu legen (10000 Köpfe gemeldet | lügen) ist meiner Meinung nach ein wenig kontraintuitiv. Wenn der Reporter nicht naiv ist, kann ich mir nicht vorstellen, dass jemand diese Art von gefälschten Daten meldet (hauptsächlich aus den Gründen, die Sie im ursprünglichen Beitrag erwähnt haben; es ist für die meisten Menschen zu verdächtig). Wenn die Münze wirklich unfair ist und der Flipper dies meldet gefälschte Daten, dann denke ich, dass ein vernünftigerer (und sehr ungefährer) Wert vor den gemeldeten Ergebnissen ein diskreter einheitlicher Wert vor P (X Köpfe gemeldet | liegend) = 1/201 für die ganzen Zahlen {9900, ..., 10100} und sein könnte P (x Köpfe gemeldet | liegend) = 0 für alle anderen x. Angenommen, Sie glauben, die vorherige Wahrscheinlichkeit zu lügen beträgt 0,5. Dann sind einige hintere Wahrscheinlichkeiten:
P (liegend | 9900 Köpfe gemeldet) = P (liegend | 10100 Köpfe gemeldet) = 0,70;
P (Lügen | 9950 Köpfe gemeldet) = P (Lügen | 10050 Köpfe gemeldet) = 0,54;
P (liegend | 10000 Köpfe gemeldet) = 0,47.
Die vernünftigste Anzahl von gemeldeten Köpfen aus einer fairen Münze führt zu Verdacht. Um zu zeigen, wie empfindlich die posterioren Wahrscheinlichkeiten für Ihre Priors sind, werden die posterioren Wahrscheinlichkeiten, wenn die vorherige Wahrscheinlichkeit des Betrugs auf 0,10 gesenkt wird:
P (liegend | 9900 Köpfe gemeldet) = P (liegend | 10100 Köpfe gemeldet) = 0,21;
P (Lügen | 9950 Köpfe gemeldet) = P (Lügen | 10050 Köpfe gemeldet) = 0,11;
P (liegend | 10000 Köpfe gemeldet) = 0,09.
Daher denke ich, dass das Original (und die hoch bewertete Antwort) ein wenig erweitert werden könnte. Sie sollten in keiner Weise zu dem Schluss kommen, dass die Daten ohne gründliche Berücksichtigung vorheriger Informationen gefälscht sind. Wenn man nur intuitiv darüber nachdenkt, scheint es, dass die posterioren Lügenwahrscheinlichkeiten eher durch die vorherige Lügenwahrscheinlichkeit als durch die vorherige Verteilung der gemeldeten Köpfe beeinflusst werden, da die Flosse lügt (mit Ausnahme der Prioren, die alle setzen ihre Masse auf einer kleinen Anzahl von Köpfen, von denen berichtet wird, dass die Flosse liegt, wie in meinem Beispiel.)
quelle
Für die Bayes'sche Erklärung benötigen Sie eine vorherige Wahrscheinlichkeitsverteilung auf die gemeldeten Ergebnisse durch einen liegenden Münzflipper sowie eine vorherige Wahrscheinlichkeit des Lügens. Wenn Sie einen Wert sehen, der unter der Lügenverteilung viel wahrscheinlicher ist als der zufällige Flip, ist Ihre hintere Wahrscheinlichkeit, zu liegen, viel höher.
quelle