Das statistische Argument, warum 10.000 Köpfe aus 20.000 Würfen stammen, deutet auf ungültige Daten hin

11

Nehmen wir an, wir werfen wiederholt eine faire Münze und wir wissen, dass die Anzahl der Köpfe und Schwänze ungefähr gleich sein sollte. Wenn wir ein Ergebnis wie 10 Köpfe und 10 Schwänze für insgesamt 20 Würfe sehen, glauben wir den Ergebnissen und neigen dazu zu glauben, dass die Münze fair ist.

Wenn Sie ein Ergebnis wie 10000 Köpfe und 10000 Schwänze für insgesamt 20000 Würfe sehen, würde ich tatsächlich die Gültigkeit des Ergebnisses in Frage stellen (hat der Experimentator die Daten gefälscht), da ich weiß, dass dies unwahrscheinlicher ist als beispielsweise ein Ergebnis von 10093 Köpfe und 9907 Schwänze.

Was ist das statistische Argument hinter meiner Intuition?

confidence-interval binomial Haibao Tang
quelle

21

Unter der Annahme einer fairen Münze ist das Ergebnis von 10000 Köpfen und 10000 Schwänzen tatsächlich wahrscheinlicher als das Ergebnis von 10093 Köpfen und 9907 Schwänzen.

Wenn Sie jedoch sagen, dass ein echter Experimentator wahrscheinlich nicht die gleiche Anzahl von Köpfen und Schwänzen erhält, rufen Sie implizit den Bayes-Satz auf. Ihre vorherige Überzeugung über ein echtes Experiment ist, dass Prob (Anzahl der Köpfe = 10000 in 20000 Würfen | Angesichts der Tatsache, dass der Experimentator nicht vortäuscht) nahe bei 0 liegt. Wenn Sie also ein tatsächliches Ergebnis sehen, dass die Anzahl der Köpfe = 10000 Ihre ist posterior über Prob (Experimentator fälscht nicht | beobachtetes Ergebnis von 10000 Köpfen) liegt ebenfalls nahe bei 0. Sie schließen daraus, dass der Experimentator die Daten fälscht.

quelle

Sehr gut erklärt! Was für ein wunderbares Beispiel für den Bayes-Theorem-Ansatz.

Tal Galili

1

@Srikant: Dieser Prior kann nicht formal definiert werden. In jedem Fall ist Prob (Anzahl der Köpfe = X | Experimentator täuscht nicht vor) immer um Null, wenn N = 20000, unabhängig vom Wert von X und unabhängig von Ihrem Vorgänger. Ihr posterior für eine beliebige Zahl liegt also auch immer nahe bei 0. Ich verstehe nicht, was dies mit dem Bayes-Theorem zu tun hat.

Joris Meys

All dies von einem Kerl, der versucht hatte zu beweisen, dass Gott existiert. Wirklich elegant.

Brandon Bertelsen

1

In einer allgemeineren Perspektive ist der Punkt, dem ich zustimme, dass der Bayes-Satz hier am Werk ist. Insbesondere gibt es alternative Wahrscheinlichkeiten (entsprechend verschiedenen generativen Prozessen) für Betrug und für ehrliche Experimentatoren. Das Festlegen des Betrugs ist eine hintere Folgerung in Bezug auf den intuitiven und daher völlig unterbestimmten Betrügerprozess.

Conjugateprior

1

@Srikant @whuber: die kombinatorischen ... du hast recht. Ich ging von einer einheitlichen Wahrscheinlichkeit aus, was in diesem Fall natürlich Unsinn ist. Mein schlechtes

Joris Meys

12

Ich mag Srikants Erklärung und ich denke, die Bayes'sche Idee ist wahrscheinlich der beste Weg, um ein Problem wie dieses anzugehen. Aber hier ist eine andere Möglichkeit, es ohne Bayes zu sehen: (in R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

Das ist ungefähr 31,2 auf meinem System. Mit anderen Worten, es ist mehr als 30-mal wahrscheinlicher, 10 von 20 zu sehen, als 10.000 von 20.000, selbst mit einer fairen Münze in beiden Fällen. Dieses Verhältnis nimmt ungebunden mit zunehmender Probengröße zu.

Dies ist eine Art Likelihood-Ratio-Ansatz, aber in meinem Bauch fühlt sich dies mehr als alles andere wie ein Bayes-Urteil an.

quelle

Warum das Verhältnis? Warum nicht einfach sagen, dass die Wahrscheinlichkeit dieser exakten Auslosung extrem gering ist?

Andy W

5

Die Behauptung, dass eine bestimmte Wahrscheinlichkeit außerhalb des Kontexts gering ist, überzeugt nicht. Die Wahrscheinlichkeit, dass ich genau so groß bin wie meine Größe (was auch immer das sein mag), ist Null. Und ja, es ist problematisch, die Höhe sogar mit unendlicher Präzision zu definieren, yada, yada, yada ... Mein Punkt ist, dass der Strudel der Existenz ständig von Ereignissen mit infinitesimaler Wahrscheinlichkeit abweicht! 10.000 von 20.000 - aus dem Zusammenhang gerissen - überrascht mich überhaupt nicht. Unabhängig von der numerischen Wahrscheinlichkeit.

9

Ein subjektivistisches Bayes'sches Argument ist praktisch der einzige Weg (vom statistischen Standpunkt aus), um Ihre Intuition zu verstehen , die - eigentlich - Gegenstand einer psychologischen Untersuchung ist, keine statistische. Es ist jedoch offensichtlich unfair - und daher ungültig -, einen Bayes'schen Ansatz zu verwenden, um zu argumentieren, dass ein Ermittler die Daten gefälscht hat. Die Logik hierfür ist vollkommen kreisförmig: Es kommt darauf an zu sagen, "basierend auf meinen vorherigen Überzeugungen über das Ergebnis finde ich Ihr Ergebnis unglaublich, und deshalb müssen Sie betrogen haben." Solch ein unlogisches, eigennütziges Argument würde offensichtlich nicht in einem Gerichtssaal oder in einem Peer-Review-Prozess aufstehen.

Stattdessen könnten wir einen Tipp aus Ronald Fischers Kritik an Mendels Experimenten nehmen und einen formalen Hypothesentest durchführen. Natürlich ist es ungültig, eine Post-hoc- Hypothese basierend auf dem Ergebnis zu testen . Aber Experimente müssen wiederholt werden, um geglaubt zu werden: Das ist ein Grundsatz der wissenschaftlichen Methode. Nachdem wir ein Ergebnis gesehen haben, von dem wir glauben, dass es gefälscht ist, können wir eine geeignete Hypothese formulieren, um zukünftige (oder zusätzliche) Ergebnisse zu testen . In diesem Fall würde der kritische Bereich eine Reihe von Ergebnissen umfassen, die der Erwartung sehr nahe kommen. Zum Beispiel ein Test am $\alpha$ = 5% würden jedes Ergebnis zwischen 9.996 und 10.004 als verdächtig ansehen, da (a) diese Sammlung nahe an unseren hypothetischen "gefälschten" Ergebnissen liegt und (b) unter der Nullhypothese " keine Fälschung" (unschuldig bis vor Gericht als schuldig erwiesen!) Ein Ergebnis in diesem Bereich hat nur eine Wahrscheinlichkeit von 5% (tatsächlich 5,07426%). Darüber hinaus können wir diesen scheinbar ad-hoc- Ansatz in einen Chi-Quadrat-Kontext (a la Fisher) stellen, indem wir einfach die Abweichung zwischen dem beobachteten Anteil und dem erwarteten Anteil quadrieren und dann das Neyman-Pearson-Lemma in einem einseitigen Test am aufrufen niedriger Schwanz und Anwenden der Normalen Näherung auf die Binomialverteilung .

Obwohl ein solcher Test keine Fälschung beweisen kann, kann er auf zukünftige Berichte dieses Experimentators angewendet werden, um die Glaubwürdigkeit seiner Behauptungen zu beurteilen, ohne ungünstige und nicht zu unterstützende Annahmen allein aufgrund Ihrer Intuition zu treffen. Dies ist viel fairer und strenger, als sich auf ein Bayes'sches Argument zu berufen, um jemanden zu implizieren, der vollkommen unschuldig ist und einfach so viel Pech hat, dass er ein wunderschönes experimentelles Ergebnis erzielt hat!

whuber
quelle

5

Ich denke, deine Intuition ist fehlerhaft. Es scheint, dass Sie implizit ein einzelnes "sehr spezielles" Ergebnis (genau 10000 Köpfe) mit einer Reihe vieler Ergebnisse vergleichen (alle "nicht speziellen" Anzahlen von Köpfen nahe 10000). Die Definition von "speziell" ist jedoch eine willkürliche Wahl, die auf unserer Psychologie basiert. Wie wäre es mit binär 10000000000000 (Dezimalzahl 8192) oder Hex ABC (Dezimalzahl 2748) - wäre das auch verdächtig speziell? Wie Joris Meys kommentierte, wäre das Bayes-Argument für jede einzelne Anzahl von Köpfen im Wesentlichen dasselbe, was impliziert, dass jedes Ergebnis verdächtig wäre.

Um das Argument ein wenig zu erweitern: Sie möchten eine Hypothese testen ("der Experimentator täuscht vor") und dann eine Teststatistik (Anzahl der Köpfe) auswählen. Ist diese Teststatistik geeignet, um Ihnen etwas über Ihre Hypothese zu erzählen? Mir scheint, dass die gewählte Teststatistik nicht informativ ist (keine Funktion eines Parameters, der in der Hypothese als fester Wert angegeben ist). Dies geht zurück auf die Frage, was Sie unter "Betrug" verstehen. Wenn dies bedeutet, dass der Experimentator die Münze nach Belieben kontrolliert, wird dies in der Teststatistik nicht berücksichtigt. Ich denke, Sie müssen genauer sein, um einen quantifizierbaren Indikator zu finden, und die Frage daher einem statistischen Test zugänglich machen.

Karakal
quelle

+1, aber ich bin nicht überzeugt. Das Besondere an 10.000 ist, dass es genau der erwarteten Anzahl von Köpfen unter der Hypothese entspricht, dass die Münze fair ist. Diese Tatsache ist unabhängig von jeglicher Psychologie oder jedem System der Zahlendarstellung. Die Analyse in dieser Antwort könnte einen Einblick in eine Situation geben, in der beispielsweise 20.005 Münzen geworfen und 10.000 Köpfe (und damit 10.005 Schwänze) notiert wurden und jemandes "Intuition" eine Fälschung vorschlug.

whuber

Ich stimme voll und ganz zu, dass - wie Sie in Ihrer Antwort hervorheben - alles von der A-priori-Definition der Hypothese abhängt: Wenn Sie im Voraus definieren, dass Sie mit "Fälschung des Experiments" ein Ergebnis für die Anzahl der Köpfe erzielen wollen nahe am erwarteten Wert ", dann ist dies eine Grundlage für einen statistischen Test mit" Anzahl der Köpfe "als Teststatistik. Ohne eine solche a-priori-Klarstellung bleibt die Bedeutung von "Fälschung" und "Sonderwert für die Anzahl der Köpfe" jedoch trübe, und es ist nicht klar, was sie miteinander zu tun haben.

Caracal

4

Die Schlussfolgerung, die Sie ziehen, hängt SEHR von dem Prior ab, den Sie für die Wahrscheinlichkeit des Betrugs ausgewählt haben, und von der vorherigen Wahrscheinlichkeit, dass, wenn der Flipper liegt, x Köpfe gemeldet werden.

Die meiste Masse auf P zu legen (10000 Köpfe gemeldet | lügen) ist meiner Meinung nach ein wenig kontraintuitiv. Wenn der Reporter nicht naiv ist, kann ich mir nicht vorstellen, dass jemand diese Art von gefälschten Daten meldet (hauptsächlich aus den Gründen, die Sie im ursprünglichen Beitrag erwähnt haben; es ist für die meisten Menschen zu verdächtig). Wenn die Münze wirklich unfair ist und der Flipper dies meldet gefälschte Daten, dann denke ich, dass ein vernünftigerer (und sehr ungefährer) Wert vor den gemeldeten Ergebnissen ein diskreter einheitlicher Wert vor P (X Köpfe gemeldet | liegend) = 1/201 für die ganzen Zahlen {9900, ..., 10100} und sein könnte P (x Köpfe gemeldet | liegend) = 0 für alle anderen x. Angenommen, Sie glauben, die vorherige Wahrscheinlichkeit zu lügen beträgt 0,5. Dann sind einige hintere Wahrscheinlichkeiten:

P (liegend | 9900 Köpfe gemeldet) = P (liegend | 10100 Köpfe gemeldet) = 0,70;

P (Lügen | 9950 Köpfe gemeldet) = P (Lügen | 10050 Köpfe gemeldet) = 0,54;

P (liegend | 10000 Köpfe gemeldet) = 0,47.

Die vernünftigste Anzahl von gemeldeten Köpfen aus einer fairen Münze führt zu Verdacht. Um zu zeigen, wie empfindlich die posterioren Wahrscheinlichkeiten für Ihre Priors sind, werden die posterioren Wahrscheinlichkeiten, wenn die vorherige Wahrscheinlichkeit des Betrugs auf 0,10 gesenkt wird:

P (liegend | 9900 Köpfe gemeldet) = P (liegend | 10100 Köpfe gemeldet) = 0,21;

P (Lügen | 9950 Köpfe gemeldet) = P (Lügen | 10050 Köpfe gemeldet) = 0,11;

P (liegend | 10000 Köpfe gemeldet) = 0,09.

Daher denke ich, dass das Original (und die hoch bewertete Antwort) ein wenig erweitert werden könnte. Sie sollten in keiner Weise zu dem Schluss kommen, dass die Daten ohne gründliche Berücksichtigung vorheriger Informationen gefälscht sind. Wenn man nur intuitiv darüber nachdenkt, scheint es, dass die posterioren Lügenwahrscheinlichkeiten eher durch die vorherige Lügenwahrscheinlichkeit als durch die vorherige Verteilung der gemeldeten Köpfe beeinflusst werden, da die Flosse lügt (mit Ausnahme der Prioren, die alle setzen ihre Masse auf einer kleinen Anzahl von Köpfen, von denen berichtet wird, dass die Flosse liegt, wie in meinem Beispiel.)

HairyBeast
quelle

Ich denke, das ist eine sehr gute Antwort, aber ich bin mit Ihrem zweiten Absatz nicht einverstanden. Ich denke nicht, dass Srikants ursprüngliche bedingte Wahrscheinlichkeit kontraintuitiv ist, und nur weil es eine schwer zu beantwortende Frage ist, ist dies kein Argument dagegen. Ich denke auch nicht, dass Ihre einheitliche Wahrscheinlichkeit, zwischen 9900 und 10100 zu liegen, überhaupt Sinn macht, obwohl sie für Demonstrationszwecke nützlich ist.

Andy W

2

Für die Bayes'sche Erklärung benötigen Sie eine vorherige Wahrscheinlichkeitsverteilung auf die gemeldeten Ergebnisse durch einen liegenden Münzflipper sowie eine vorherige Wahrscheinlichkeit des Lügens. Wenn Sie einen Wert sehen, der unter der Lügenverteilung viel wahrscheinlicher ist als der zufällige Flip, ist Ihre hintere Wahrscheinlichkeit, zu liegen, viel höher.

Internet
quelle

Das statistische Argument, warum 10.000 Köpfe aus 20.000 Würfen stammen, deutet auf ungültige Daten hin

Antworten: