Entwerfen eines Tests für einen Hellseher, der sagt, er könne Würfelwürfe beeinflussen

11

Nehmen wir an, ich habe einen Freund (nennen wir ihn "George"), der sagt, dass er den Würfelwurf mit seinem Verstand steuern kann (dh die Wahrscheinlichkeit erhöht, dass die Würfel auf eine bestimmte Zahl fallen, an die er denkt).

Wie kann ich einen wissenschaftlich strengen Test entwerfen, um festzustellen, ob er dies tatsächlich kann? (Ich glaube natürlich nicht, dass er das kann, aber ich möchte, dass er den Details eines Tests im Amazing Randi-Stil zustimmt, bevor der Test beginnt.) Ich möchte die (sehr wahrscheinlichen) Ausreden nach dem Test reduzieren dass er sich einfallen lässt.

Folgendes habe ich bisher:

  1. Bestimmen Sie die physikalische Würfelrolltechnik (welche Würfel, Schüttelbecher, Landefläche usw.)

  2. Definieren Sie eine "Testsitzung", die aus X Würfeln besteht. Dies muss klein genug sein, um in einer Sitzung durchgeführt zu werden, aber groß genug, um (nach Analyse) innerhalb eines Vertrauens von 95% bis 99% festzustellen, ob die Würfel fair waren oder eine Seite bevorzugten

  3. Führen Sie Y- Sitzungen mit den ausgewählten Würfeln durch (ohne Einfluss von George), um sicherzustellen, dass die Würfel selbst "faire" Ergebnisse zeigen

  4. Führen Sie Z- Sitzungen mit George durch. Wirf vor jedem einen separaten Würfel, um zu bestimmen, auf welche Zahl sich George während der gesamten Sitzung "konzentrieren" wird.

  5. Kompilieren und analysieren Sie die Ergebnisse.

  6. George macht sich einige Ausreden für seine düstere Leistung.

Also meine Fragen an Sie:

  • Irgendwelche Mängel oder Probleme mit meiner Gesamtmethodik? Hat George wahrscheinlich etwas dagegen?

  • Soll ich einen D6 verwenden? Oder eine D20? Ist das wichtig? Würde ein Würfel mit mehr Flächen mehr Würfe erfordern, um ähnlich sichere Ergebnisse zu erzielen? Oder das Gegenteil? Aus praktischen Gründen würde ich weniger Rollen als mehr bevorzugen :)

  • Was sind vernünftige Werte für X , Y und Z ? Sie sind nicht völlig unabhängig; Wenn mein gewählter Wert von X nur 95% iges Vertrauen für eine einzelne Sitzung zulässt, kann 1 von 20 Sitzungen auch ohne Georges Einfluss "fehlschlagen"

  • Wie definiere ich "Erfolg" oder "Misserfolg" für eine einzelne Sitzung? (Ich habe diese Frage gefunden, die die Details eines Chi-Quadrat-Tests durchläuft. Ich denke, das ist meine Bewertungsmethode, aber was sind vernünftige Konfidenzschwellen?)

  • Wie definiere ich "Erfolg" oder "Misserfolg" für den Gesamttest? George könnte zufällig eine einzelne Sitzung "gewinnen", aber wie viele der Z- Sitzungen müsste er bestehen, um den gesamten Test zu bestehen?

Ich werde diese Ergebnisse wahrscheinlich in einer MS Excel-Tabelle analysieren, wenn dies einen Unterschied macht.

BradC
quelle
Wenn er die Würfel nur mit seinem Verstand manipuliert, sollte jemand sie werfen. Ich denke, Dinge wie D6 oder D20 sollten George überlassen bleiben. Welche Art von Manipulation könnte George tun? Hat er gesagt, er könnte eine bestimmte Nummer machen, die er sich gewünscht hat? Wenn ja, dann wären Erfolge Instanzen dieser Zahl, während Misserfolge alles andere wären.
John
@ John - Er hat nur behauptet, dass er diese Nummer öfter als sonst erreichen kann, nicht, dass diese Nummer immer auftaucht.
BradC
(Ursprünglich eine Version dieser Frage unter math.stackexchange.com/q/57624/14626 gestellt )
BradC
Ihre mathematischen Antworten von Michael Hardy und TonyK sind beide recht gut.
John
4
Ich würde mich nicht mit einem Konfidenzniveau von nur 95% oder sogar 99% zufrieden geben. Außergewöhnliche Ansprüche erfordern in der Regel außergewöhnliche Beweise. Oder um es in einen eher bayesianischen Kontext zu stellen: Meine vorherige Überzeugung, dass er eine solche Fähigkeit besitzt, ist so gering, dass ich eine lächerliche Menge an Beweisen benötigen würde, um meine hintere Überzeugung sinnvoll zu ändern.
Michael McGowan

Antworten:

2

Ich würde empfehlen, dies folgendermaßen zu analysieren:

Zählen Sie jede Rolle, in der George das Ergebnis erfolgreich als Erfolg vorhersagt, und jede andere als Misserfolg. Dann berechnen Sie einfach eine Erfolgswahrscheinlichkeit für George und ein Konfidenzintervall von 95% oder 99%. Behauptet er, er könne das Ergebnis "doppelt so gut" vorhersagen wie das zufällige Würfeln? Dann:

H0: p> = 1/3

H1: p <1/3

(unter der Annahme eines 6-seitigen Würfels).

Von dort aus ist es ziemlich einfach, den Hypothesentest durchzuführen. Außerdem können Sie die Leistung a priori ziemlich einfach berechnen (sogar in etwas wie Excel). Wählen Sie eine Anzahl von Rollen (wie 10) und erstellen Sie dann eine Tabelle mit den möglichen Erfolgen als Zeilen (0-10). Berechnen Sie dann für jeden Erfolg die Wahrscheinlichkeit, dass er so viele Erfolge erzielen wird (wenn er nur raten würde, was wir davon ausgehen, dass er es tut). Bestimmen Sie außerdem für jeden Wert, ob dies zu einer Ablehnung oder Annahme der Null führen würde. Um die Leistung zu ermitteln, können Sie einfach alle Wahrscheinlichkeiten addieren, bei denen die Null zurückgewiesen wird.

random_forest_fanatic
quelle
1

Ein D20 erfordert mehr Würfe mit dem gleichen Signifikanzniveau, damit George sicher Erfolg hat, wenn Sie den Chi-Quadrat-Test durchführen müssen. Ich glaube nicht, dass Sie den vollständigen Chis-Quadrat-Test durchführen müssen. Sie müssen nur überprüfen, ob die Würfel öfter als zufällig die "gewählte" Zahl würfeln. Ich würde nur das cdf des Binomials verwenden , um den p-Wert zu berechnen, mit dem die gewählte Zahl häufiger als zufällig gewürfelt wirdθ=16als Binomialparameter für D6. Ich denke, es ist einfach, die Anzahl zu bestimmenX.basierend auf dem p-Wert, den Sie für den Erfolg von George benötigen. Ich bin mir nicht mal sicher, ob Sie Z-Sitzungen benötigen. Warum nicht einfach eine Sitzung für jede Seite des Würfels ausführen? Ist es für die Hypothesen, an denen Sie interessiert sind, überhaupt wichtig, die gewählte Seite zufällig zu wählen?

grosse Bandbreite
quelle
Die Randomisierung der gewählten Seite spielt wahrscheinlich keine Rolle, ich war nur besorgt über A) Berücksichtigung einer möglichen wahren Verzerrung in den Würfeln und B) Sicherstellen, dass eine einzelne anomale Sitzung (die 1 zu 20 aufgrund der wahren Zufälligkeit, über die ich gesprochen habe) nicht ist Es wird nicht als Bestätigung seiner psychischen Fähigkeiten angesehen. Wahrscheinlich wären 6 Sitzungen, eine für jede Nummer, ausreichend, solange mein X (und mein Konfidenzniveau) hoch genug ist.
BradC