Artikel über den Missbrauch statistischer Methoden in NYTimes

Ich beziehe mich auf diesen Artikel: http://www.nytimes.com/2011/01/11/science/11esp.html

Betrachten Sie das folgende Experiment. Angenommen, es besteht Grund zu der Annahme, dass eine Münze leicht gegen die Köpfe gewichtet ist. In einem Test kommt die Münze 527-mal aus 1.000 heraus.

Ist dies ein wichtiger Beweis dafür, dass die Münze gewichtet ist?

Klassische Analyse sagt ja. Mit einer fairen Münze ist die Wahrscheinlichkeit, mit 1.000 Flips 527 oder mehr Köpfe zu erzielen, geringer als 1 zu 20 oder 5 Prozent des herkömmlichen Cutoffs. Anders ausgedrückt: Das Experiment findet Hinweise auf eine gewichtete Münze „mit 95-prozentigem Vertrauen“.

Doch viele Statistiker kaufen es nicht. Einer von 20 ist die Wahrscheinlichkeit, in 1.000 Würfen eine beliebige Anzahl von Köpfen über 526 zu erhalten. Das heißt, es ist die Summe der Wahrscheinlichkeit des Kippens 527, der Wahrscheinlichkeit des Kippens 528, 529 und so weiter.

Das Experiment fand jedoch nicht alle Zahlen in diesem Bereich. Es ist daher genauer, sagen diese Experten, die Wahrscheinlichkeit zu berechnen, diese eine Zahl zu erhalten - 527 -, wenn die Münze gewichtet ist, und sie mit der Wahrscheinlichkeit zu vergleichen, die gleiche Zahl zu erhalten, wenn die Münze ist Messe.

Statistiker können nachweisen, dass dieses Verhältnis nicht höher als etwa 4 zu 1 sein kann, so der Statistiker Paul Speckman, der zusammen mit dem Psychologen Jeff Rouder das Beispiel lieferte.

Erste Frage: Das ist neu für mich. Hat jemand eine Referenz, wo ich die genaue Berechnung finden kann und / oder können SIE mir helfen, indem Sie mir die genaue Berechnung selbst geben, und / oder können Sie mich auf ein Material verweisen, in dem ich ähnliche Beispiele finden kann?

Bayes entwickelte eine Methode, um die Wahrscheinlichkeit für eine Hypothese zu aktualisieren, sobald neue Beweise vorliegen.

Bei der Bewertung der Stärke eines bestimmten Befundes berücksichtigt die Bayes'sche Analyse (ausgesprochen BAYZ-ee-un) bekannte Wahrscheinlichkeiten, sofern verfügbar, von außerhalb der Studie.

Man könnte es den "Ja, richtig" -Effekt nennen. Wenn eine Studie feststellt, dass Kumquats das Risiko für Herzerkrankungen um 90 Prozent senken, dass eine Behandlung in einer Woche die Alkoholsucht heilt und dass sensible Eltern doppelt so häufig ein Mädchen wie einen Jungen zur Welt bringen, entspricht die Bayes'sche Reaktion der von Der einheimische Skeptiker: Ja, richtig. Die Studienergebnisse werden gegen das abgewogen, was in der Welt zu beobachten ist.

In mindestens einem Bereich der Medizin - diagnostischen Screening-Tests - nutzen Forscher bereits bekannte Wahrscheinlichkeiten, um neue Erkenntnisse auszuwerten. Ein neuer Lügendetektionstest kann beispielsweise zu 90 Prozent genau sein und 9 von 10 Lügnern korrekt markieren. Aber wenn es einer Bevölkerung von 100 Personen gegeben wird, von denen bereits bekannt ist, dass sie 10 Lügner umfassen, ist der Test viel weniger beeindruckend.

Es identifiziert 9 der 10 Lügner korrekt und übersieht einen; aber es identifiziert fälschlicherweise 9 der anderen 90 als liegend. Teilen Sie die so genannten True Positives (9) durch die Gesamtzahl der markierten Personen (18), so ergibt sich eine Genauigkeitsrate von 50 Prozent. Die "falsch positiven" und "falsch negativen" Werte hängen von den bekannten Raten in der Bevölkerung ab.

Zweite Frage: Wie beurteilen Sie mit dieser Methode genau, ob ein neuer Befund "echt" ist oder nicht? Und: Ist das nicht so willkürlich wie die 5% -Barriere, weil eine voreingestellte vorherige Wahrscheinlichkeit verwendet wird?

hypothesis-testing bayesian statistics-in-media vonjd
quelle

Für die fairen und unfairen Münzen ist dies eine hilfreiche Lektüre: stat.columbia.edu/~gelman/research/published/diceRev2.pdf

mpiktas

Antworten:

Ich werde die erste Frage ausführlich beantworten.

Mit einer fairen Münze ist die Wahrscheinlichkeit, mit 1.000 Flips 527 oder mehr Köpfe zu erzielen, geringer als 1 zu 20 oder 5 Prozent des herkömmlichen Cutoffs.

Für eine faire Münze folgt die Anzahl der Köpfe in 1000 Versuchen der Binomialverteilung mit der Anzahl der Versuche und der Wahrscheinlichkeit . Die Wahrscheinlichkeit, mehr als 527 Köpfe zu bekommen, ist dann $n=1000$ $p=1/2$

P (B (1000, 1 / 2) > = 527)

$P(B(1000,1/2)>=527)$

Dies kann mit jedem statistischen Softwarepaket berechnet werden. R gibt uns

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Die Wahrscheinlichkeit, dass wir mit einer fairen Münze mehr als 526 Köpfe erhalten, liegt also bei ungefähr 0,047, was einem im Artikel erwähnten Abschlag von 5% entspricht.

Die folgende Aussage

Anders ausgedrückt: Das Experiment findet Hinweise auf eine gewichtete Münze „mit 95-prozentigem Vertrauen“.

ist umstritten. Ich würde es nur ungern sagen, da 95% Vertrauen auf verschiedene Arten interpretiert werden können.

Als nächstes wenden wir uns an

Das Experiment fand jedoch nicht alle Zahlen in diesem Bereich. Es ist daher genauer, sagen diese Experten, die Wahrscheinlichkeit zu berechnen, diese eine Zahl zu erhalten - 527 -, wenn die Münze gewichtet ist, und sie mit der Wahrscheinlichkeit zu vergleichen, die gleiche Zahl zu erhalten, wenn die Münze ist Messe.

Hier vergleichen wir zwei Ereignisse - faire Münze und - gewichtete Münze. Ersetzen Sie die Formeln durch Wahrscheinlichkeiten dieser Ereignisse und stellen Sie fest, dass der Binomialkoeffizient nicht mehr gültig ist $B(1000,1/2)=527$ $B(1000,p)=527$

\frac{P (B (1000, p) = 527)}{P (B (1000, 1 / 2) = 527)} = \frac{p^{527} (1 - p)^{473}}{(1 / 2)^{1000}} .

$\frac{P(B(1000,p)=527)}{P(B(1000,1/2)=527)}=\frac{p^{527}(1-p)^{473}}{(1/2)^{1000}}.$

Dies ist eine Funktion von , daher können wir Minima oder Maxima davon finden. Aus dem Artikel können wir schließen, dass wir Maxima brauchen: $p$

Statistiker können nachweisen, dass dieses Verhältnis nicht höher als etwa 4 zu 1 sein kann, so der Statistiker Paul Speckman, der zusammen mit dem Psychologen Jeff Rouder das Beispiel lieferte.

Um die Maximierung zu vereinfachen, nehmen Sie den Logarithmus des Verhältnisses, berechnen Sie die Ableitung in Bezug auf und setzen Sie sie mit Null gleich. Die Lösung wird sein $p$

p = \frac{527}{1000} .

$p=\frac{527}{1000}.$

Wir können überprüfen, ob es wirklich ein Maximum ist, indem wir zum Beispiel den Test der zweiten Ableitung verwenden . Ersetzen Sie es durch die Formel, die wir erhalten

\frac{(527 / 1000)^{527} (473 / 1000)^{473}}{(1 / 2)^{1000}} \approx 4.3

$\frac{(527/1000)^{527}(473/1000)^{473}}{(1/2)^{1000}}\approx 4.3$

Das Verhältnis ist also 4,3 zu 1, was mit dem Artikel übereinstimmt.

mpiktas
quelle

"Maximieren Sie jetzt diese Menge in Bezug auf p": Ich denke, Sie meinen minimieren.

Simon Byrne

@mpiktas (+1) Nette (aktualisierte) Antwort.

chl

Ich denke, dieses Beispiel zeigt Ihnen genau, was ein Konfidenzintervall ist. Ich finde es am einfachsten, ein CI als EINE Beobachtung aus einer Bernouli-verteilten Zufallsvariablen mit einem Wahrscheinlichkeitsparameter zu interpretieren, der dem Vertrauensniveau entspricht. Es ist für mich nur sinnvoll, CIs zu verwenden, wenn Sie das Experiment wiederholt durchführen. Ein weiteres Problem ist, was ist die alternative Hypothese? ist es p = 7/10, p> 0,5, p = 1050/2000? p = 527/1000? Ein weiteres Problem ist, was wir mit p = meinen . ist es GENAU oder ist es wobei eine kleine Zahl ist.

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

p \in (\frac{1}{2} \pm ϵ)

$p \in \left(\frac{1}{2} \pm \epsilon \right)$

ϵ

$\epsilon$

Wahrscheinlichkeitsrechnung

@ Simon, warum ist die Korrektur zu minimieren? Maximiert der gefundene Wert von P nicht das Verhältnis?

@statnovice: Die ursprüngliche Version der Antwort hatte den Zähler und Nenner umgestellt.

Simon Byrne