Viele Basketballfans / -spieler glauben, dass nach mehreren Schlägen hintereinander der nächste Schlag eher eintritt. Dies wird manchmal als heiße Hand bezeichnet.
Ausgehend von Gilovich, Mallone und Tversky (1985) wurde (glaube ich) "gezeigt", dass dies tatsächlich ein Trugschluss war. Selbst wenn mehrere Schüsse hintereinander abgegeben wurden, ist es nicht wahrscheinlicher, dass der nächste Schuss eingeht, als es Ihr durchschnittlicher Schussanteil vorschreibt.
Miller und Sanjurjo (2015) argumentieren, dass die heiße Hand tatsächlich existiert und frühere Forscher einfach einem ziemlich grundlegenden statistischen Irrtum zum Opfer gefallen waren. Ihr Argument ist ungefähr so:
Wirf viermal eine Münze. Berechnen Sie die Wahrscheinlichkeit, dass H auf H folgt. Um einige Beispiele zu nennen: HHTT hätte die Wahrscheinlichkeit 1/2, HTHT hätte die Wahrscheinlichkeit 0/2, TTHH hätte die Wahrscheinlichkeit 0/1 1/1 und sowohl TTTT als auch TTTH wären NA
Die Pointe von Miller und Sanjurjo lautet, dass der erwartete Wert dieser Wahrscheinlichkeit nicht 0,5, sondern 0,4 beträgt. Und der Fehler früherer Forscher bestand darin, fälschlicherweise anzunehmen, dass der erwartete Wert dieser Wahrscheinlichkeit 0,5 beträgt. Wenn diese früheren Forscher beispielsweise das obige Münzwurf-Experiment durchführten und eine durchschnittliche Wahrscheinlichkeit von 0,497 fanden, kamen sie fälschlicherweise zu dem Schluss, dass es keine Hinweise auf eine heiße Hand gab (nicht signifikant verschieden von 0,5), obwohl es tatsächlich sehr war starker Hinweis auf eine heiße Hand (signifikant verschieden von 0,4).
Meine Frage lautet: Haben Miller und Sanjurjo Recht, dass frühere Forscher die heiße Hand einfach aufgrund dieses Fehlers nicht erkannt haben? Ich habe nur ein oder zwei Artikel darüber überflogen, deshalb wollte ich eine Bestätigung von jemandem hier bekommen, der diese Literatur vielleicht besser kennt. Dies scheint ein überraschend dummer Fehler zu sein, der drei Jahrzehnte oder länger andauerte.
quelle
Antworten:
(Diese Antwort wurde im Juli 2017 zur besseren Übersichtlichkeit und Lesbarkeit komplett neu geschrieben.)
Wirf 100 Mal hintereinander eine Münze.
Untersuche den Flip sofort nach einem Streifen von drei Schwänzen. Sei der Anteil der Münzwürfe nach jedem Streifen von drei Schwänzen in einer Reihe, die Köpfe sind. In ähnlicher Weise sei der Anteil der Münzwürfe nach jedem Streifen von drei Köpfen in einer Reihe, die Köpfe sind. ( Beispiel unten in dieser Antwort. )p^(H|3T) p^(H|3H)
Sei .x:=p^(H|3H)−p^(H|3T)
Wenn die Münzwürfe iid sind, dann "offensichtlich" über viele Sequenzen von 100 Münzwürfen,
(1) wird voraussichtlich so oft auftreten wie .x>0 x<0
(2) .E(X)=0
Wir generieren eine Million Sequenzen von 100 Münzwürfen und erhalten die folgenden zwei Ergebnisse:
(I) kommt ungefähr so oft vor wie .x>0 x<0
(II) ( ist der Durchschnitt von über die Millionen Sequenzen).x¯≈0 x¯ x
Und so kommen wir zu dem Schluss, dass die Münzwürfe tatsächlich iid sind und es keine Hinweise auf eine heiße Hand gibt. Dies ist, was GVT (1985) tat (aber mit Basketballschüssen anstelle von Münzwürfen). Und so kamen sie zu dem Schluss, dass die heiße Hand nicht existiert.
Punchline: Erschreckenderweise sind (1) und (2) falsch. Wenn die Münzwürfe iid sind, sollte es stattdessen so sein
(1-korrigiert) tritt nur etwa 37% der Zeit auf, während etwa 60% der Zeit auftritt. (In den verbleibenden 3% der Zeit ist entweder oder undefiniert - entweder weil in den 100 Flips kein Streifen von 3H oder kein Streifen von 3T vorhanden war.)x>0 x<0 x=0 x
(2-korrigiert) .E(X)≈−0.08
Die Intuition (oder Gegenintuition) ähnelt der einiger anderer berühmter Wahrscheinlichkeitsrätsel: des Monty Hall-Problems, des Zwei-Jungen-Problems und des Prinzips der eingeschränkten Auswahl (in der Kartenspielbrücke). Diese Antwort ist bereits lang genug und ich werde die Erklärung dieser Intuition überspringen.
Die Ergebnisse (I) und (II) von GVT (1985) sind also ein starker Beweis für die heiße Hand. Dies haben Miller und Sanjurjo (2015) gezeigt.
Weitere Analyse der Tabelle 4 von GVT.
Viele (z. B. @scerwin unten) haben - ohne sich die Mühe zu machen, GVT (1985) zu lesen - ihren Unglauben geäußert, dass ein "ausgebildeter Statistiker jemals" in diesem Zusammenhang einen Durchschnitt der Durchschnittswerte ermitteln würde.
Aber genau das hat GVT (1985) in Tabelle 4 getan. Siehe Tabelle 4, Spalten 2-4 und 5-6, untere Reihe. Sie finden, dass über die 26 Spieler gemittelt,
Tatsächlich ist es der Fall, dass für jedes das gemittelte . Das Argument von GVT scheint jedoch zu sein, dass diese statistisch nicht signifikant sind und daher keine Beweise für die heiße Hand sind. OK Fair genug.p ( H | k H ) > P ( H | k M )k=1,2,3 p^(H|kH)>p^(H|kM)
Wenn wir jedoch anstelle des Durchschnitts der Durchschnittswerte (ein Zug, der von einigen als unglaublich dumm angesehen wird) ihre Analyse wiederholen und über die 26 Spieler aggregieren (jeweils 100 Schüsse, mit einigen Ausnahmen), erhalten wir die folgende Tabelle mit gewichteten Durchschnittswerten.
Die Tabelle besagt zum Beispiel, dass die 2.5 Spieler insgesamt 2.515 Schüsse abgegeben haben, von denen 1.175 oder 46,72% gemacht wurden.
Und von den 400 Fällen, in denen ein Spieler 3 in Folge verpasste, folgten 161 oder 40,25% sofort ein Treffer. Und von den 313 Fällen, in denen ein Spieler 3 in Folge traf, folgten 179 oder 57,19% sofort ein Treffer.
Die oben genannten gewichteten Durchschnittswerte scheinen ein starker Beweis für die heiße Hand zu sein.
Denken Sie daran, dass das Schießexperiment so angelegt wurde, dass jeder Spieler von dem Punkt aus schoss, an dem festgestellt wurde, dass er ungefähr 50% seiner Schüsse machen konnte.
(Anmerkung: "Seltsamerweise" zeigt GVT in Tabelle 1 für eine sehr ähnliche Analyse mit dem Schießen der Sixers im Spiel stattdessen die gewichteten Durchschnittswerte. Warum haben sie das nicht auch für Tabelle 4 getan? Ich vermute, dass sie es tun sicherlich haben die gewichteten Durchschnittswerte für Tabelle 4 berechnet - die Zahlen, die ich oben präsentiere, mochten nicht, was sie sahen, und entschieden sich, sie zu unterdrücken. Diese Art von Verhalten ist leider für den akademischen Kurs selbstverständlich.)
PS GVTs (1985) Tabelle 4 enthält mehrere Fehler. Ich habe mindestens zwei Rundungsfehler entdeckt. Und auch für Spieler 10 addieren sich die Klammerwerte in den Spalten 4 und 6 nicht zu einem Wert weniger als in Spalte 5 (im Gegensatz zu der Anmerkung unten). Ich habe Gilovich kontaktiert (Tversky ist tot und Vallone bin ich mir nicht sicher), aber leider hat er nicht mehr die ursprünglichen Sequenzen von Hits und Misses. Tabelle 4 ist alles, was wir haben.
quelle
(Haftungsausschluss: Ich kenne diese Literatur nicht.) Es scheint mir, dass Miller und Sanjurjo eine gültige Kritik an einem bestimmten statistischen Maß haben. Ich weiß nicht, ob dies in Betracht gezogen werden sollte, um alle früheren Arbeiten zum Hot-Hand-Effekt ungültig zu machen, da sie sich nur auf diese bestimmte Maßnahme konzentrieren.
Das Maß ist
Frühere Arbeiten wie [Gilovich, Mallone, Tversky, 1985] behaupten, dass nahe Null oder negativ ist, was auf ein Fehlen des Hot-Hand-Effekts hinweist . Die implizite Annahme ist, dass wenn ein Hot-Hand-Effekt und wenn dies nicht der Fall ist . (Siehe den Unterabschnitt Analyse der bedingten Wahrscheinlichkeiten unter Studie 2.)M EM>0 EM=0
Miller und Sanjurjo weisen jedoch darauf hin, dass wenn kein Hot-Hand-Effekt vorliegt. Daher deutet nahe Null nicht auf ein Fehlen des Hot-Hand-Effekts hin.EM<0 M
Zusammenfassend habe ich Ihre Frage, ob dieses Papier frühere Arbeiten zum Hot-Hand-Effekt (der viele verschiedene statistische Maße verwendet) ungültig macht, nicht wirklich beantwortet, aber es scheint mir, dass das Papier einen gültigen Punkt in Bezug auf dieses bestimmte statistische Maß darstellt . Insbesondere verwenden beispielsweise Gilovich, Mallone und Tversky die Nicht-Positivität von als einen unterstützenden Beweis, und dieses Papier zeigt den Fehler in diesem Argument.M
quelle
Keines der beiden Papiere ist hinsichtlich seiner Anwendung der Statistik klar genug, daher werde ich in dieser Antwort eine Klarstellung versuchen.
Gilovich, Mallone und Tversky (1985) definieren in ihrer Zusammenfassung den "Hot-Hand-Effekt" wie folgt:
"Vorheriger Schuss" wird dann auf vorherige "ein, zwei oder drei" Schüsse erweitert. Bezeichnet eine Reihe von aufeinanderfolgenden von und eine Reihe von aufeinanderfolgenden Fehlschlägen von , ist das Vorhandensein des Hot-Hand-Effekts definiert alsk Hk k Mk
Aus Gründen der Kompaktheit versteht es sich, dass der fragliche Schuss derjenige ist, der unmittelbar auf die aufeinanderfolgenden Treffer oder Fehlschläge folgt. Dies sind theoretische bedingte Wahrscheinlichkeiten (dh Konstanten), keine bedingten relativen empirischen Häufigkeiten.
Wie versuchen die Autoren, die Existenz des Hot-Hand-Effekts zu testen? Sie erhalten empirische Daten, sie berechnen bedingte relative empirische Frequenzen (die Zufallsvariablen sind) und sie führen t-Tests mit Nullhypothese durch (S. 299-300)P^(H∣Hk),P^(H∣Mk)
Beachten Sie übrigens, dass dieser Test schwächer ist als ein Test für die Unabhängigkeit von Schüssen: Diese Wahrscheinlichkeiten könnten gleich sein, sich aber immer noch von der bedingungslosen Wahrscheinlichkeit .P(H)
Natürlich wird als Statistik . Die Autoren stellen fest, dass die Null bei herkömmlichen Signifikanzniveaus verworfen wird , jedoch in einer Richtung gegen die Hot-Hand-Hypothese: Der t-Wert ist groß genug, aber negativ.T≡P^(H∣Hk)−P^(H∣Mk)
Die Frage ist dann: Ist der Test gültig? Erstens muss die Probe ergodisch-stationär sein, damit empirische Frequenzen unbekannte Wahrscheinlichkeiten konsistent abschätzen können. Dies ist in diesem Fall der Fall (siehe Diskussion auf S.297). Dann bleibt noch die Frage, wie die Verteilung der Statistik . Wird es durch eine Student-Verteilung für endliche Stichproben gut angenähert (da die kritischen Werte aus der Student-Verteilung verwendet werden)? Und für welche Größen?T
Was Miller und Sanjurjo (2015) tun, ist zu argumentieren (und anscheinend zu beweisen), dass die "exakte" (endliche Stichprobe) Verteilung von einen nicht zu vernachlässigenden negativen Versatz und einen erwarteten Wert ungleich Null aufweist (siehe S. 18-). 19). In diesem Fall kann die Verwendung des t-Tests zumindest für endliche Stichproben irreführend sein , obwohl er möglicherweise asymptotisch / für "große" Stichproben gültig bleibt.T
Wenn daher ein Problem mit Gilovich et al. Papier, es ist nicht die Definition der Hot-Hand, es ist nicht die Formulierung der Nullhypothese, es ist nicht die Auswahl der zu verwendenden Statistik: Es ist die Gültigkeit der kritischen Werte, die zur Durchführung der Tests verwendet werden ( und so von der impliziten Verteilungsannahme), wenn tatsächlich die endliche Verteilung kleiner Stichproben (unter der Nullhypothese) bei Null sichtbar nicht zentriert und auch asymmetrisch ist.
In solchen Fällen werden normalerweise durch Simulation spezielle kritische Werte ermittelt, um den Test durchzuführen (denken Sie beispielsweise an die speziellen kritischen Werte für den Dickey-Fuller-Test für eine Einheitswurzel). Ich habe einen solchen Ansatz im Miller-Sanjurjo-Papier nicht gesehen, stattdessen führen sie eine "mittlere Vorspannungsanpassung" durch und stellen fest, dass nach dieser Anpassung die Schlussfolgerung aus dem Test umgekehrt ist. Ich bin mir nicht sicher, ob dies der richtige Weg ist.
Trotzdem validiert eine grobe Simulation die Miller-Sanjurjo-Ergebnisse hinsichtlich der Verteilung der Statistik. Ich simulierte jeweils Proben der Größe von unabhängigen Bernoullis mit . Die empirische Verteilung der Statistik hat einen Stichprobenmittelwert von und einen Median von , wobei der Werte negativ sind . Das empirische Histogramm istn = 100 p = 0,5 T 3 = P ( H | H 3 ) - P ( H | M 3 ) - 0,0807 - 0,072 62,5 %200 n=100 p=0.5
T3=P^(H∣H3)−P^(H∣M3) −0.0807 −0.072 62.5%
quelle
Meiner Ansicht nach haben Miller und Sanjurjo die relativen Häufigkeiten in Tabelle 1 einfach falsch berechnet. Ihre Tabelle wird unten mit zwei neuen Spalten gezeigt, die die Anzahl der Teilsequenzen HH und HT zählen, die in jeder Sequenz von 4 Münzwürfen auftreten. Um die gewünschte bedingte Wahrscheinlichkeit p (H | H) zu erhalten, muss man diese Zählungen N (HH) und N (HT) summieren und dann wie unten gezeigt teilen. Dies ergibt erwartungsgemäß p (H | H) = 0,5. Aus irgendeinem Grund berechneten Miller und Sanjurjo zuerst die relative Häufigkeit für jede Sequenz und mittelten sie dann über die Sequenzen. Das ist einfach falsch.
quelle
In jeder beobachteten Sequenz "fehlt" die letzte Bedingung in dem Sinne, dass danach kein Wert mehr vorhanden ist. Die Autoren behandeln dies, indem sie Fälle, in denen dies geschieht, einfach ignorieren und sagen, dass sie nicht definiert sind. Wenn die Reihe kurz ist, hat diese Auswahl offensichtliche Auswirkungen auf die Berechnungen. Abbildung 1 ist eine schöne Illustration dieser Idee.
quelle
Ich werde einen Kommentar, den ich oben gemacht habe, in eine Antwort ändern und behaupten, die Antwort auf die ursprüngliche Frage sei, dass die Originalarbeiten korrekt sind. Die Autoren des Papiers von 2015 werfen Sequenzen aus, die logischerweise in ihre Analyse einbezogen werden sollten, wie ich im Kommentar beschreibe, und führen daher eine Verzerrung ein, die ihre Behauptungen stützt. Die Welt funktioniert so wie sie sollte.
Nachtrag als Antwort auf den Kommentar: Wir sehen uns Tabelle 1 im Papier an. Wir sehen, dass wir 4 Werte aus der letzten Spalte herauswerfen. Um den erwarteten Unterschied zu erhalten, werden nur 12 der 16 Sequenzen gemittelt. Wenn wir diese Wahrscheinlichkeiten als Frequenzen betrachten und für die erste Zeile TTTT sagen, mit welcher Frequenz ein Kopf einem Kopf folgt, dann geschieht dies logischerweise immer, und wir sollten eine 1 in p (H, H setzen ) Spalte, kein Bindestrich. Wir machen das für die anderen drei Sequenzen, die wir rausgeworfen haben, und wir schließen daraus, dass der erwartete Wert der Differenz 0 ist, nicht -.33. Wir können solche Daten nicht einfach wegwerfen, wenn es eine klare logische Interpretation der Daten gibt.
Beachten Sie, dass wir die Wahrscheinlichkeiten korrekt berechnen müssen, damit die Drift verschwindet, was in der Arbeit nicht beschrieben wird. Es wird behauptet, dass die Wahrscheinlichkeiten in der Tabelle die "Wahrscheinlichkeit sind, dass ein Kopf einem Schwanz folgt, in dieser gegebenen Folge von vier Würfen". Und wir sehen, dass wir für die Zeile TTTH glauben sollen, dass die Wahrscheinlichkeit 1/3 beträgt. Es ist nicht. Es gibt vier Würfe in der Reihe, und einer der vier Würfe in dieser Reihe ist das Ereignis "Ein Kopf folgt einem Schwanz". Die Wahrscheinlichkeit ist 1/4. Berechnen Sie also die Wahrscheinlichkeiten richtig und verwenden Sie alle Zeilen, und Sie erhalten die Antwort, die seit 30 Jahren akzeptiert wird.
quelle