Ich wette mit einem Kollegen, dass ich von 50 Ping-Pong-Spielen (zuerst 21 Punkte, dann 2) alle 50 gewinne. Bisher haben wir 15 Spiele gespielt und im Durchschnitt 58% von ihnen gewonnen Die Punkte und ich habe alle Spiele gewonnen. Wir fragen uns also, ob ich eine Chance von 58% habe, einen Punkt zu gewinnen, und ob er eine Chance von 42% hat, einen Punkt zu gewinnen. Wie hoch ist die prozentuale Chance, dass ich das Spiel gewinne? Gibt es eine Formel, mit der wir die prozentualen Chancen von Unterschieden einschließen können?
Wir haben überall gegoogelt und sogar die Datenwissenschaftler in unserem Unternehmen gefragt, konnten aber keine eindeutige Antwort finden.
Edit: Wow, ich bin überwältigt von der Gründlichkeit der Antworten. Vielen Dank euch allen !!! Falls die Leute neugierig sind, habe ich ein Update zu meiner Wette: Ich habe jetzt 18 von 50 Spielen gewonnen, also muss ich 32 weitere Spiele gewinnen. Ich habe 58,7% aller Punkte gewonnen und mein Gegner hat daher 41,3% der Punkte gewonnen. Die Standardabweichung für meinen Gegner beträgt 3,52, sein Durchschnittswert beträgt 14,83 und sein Median 15,50. Unten sehen Sie einen Screenshot der Punktzahl für jedes Spiel. Ich kann die Wette fortsetzen, wenn die Leute interessiert sind.
Edit # 2 : Leider konnten wir nur ein paar weitere Spiele spielen. Nachfolgend sind die Ergebnisse aufgeführt. Ich werde das Bild einfach weiter ersetzen, damit ich keine Screenshots der Partitur habe.
Letztes Update : Ich habe in Spiel Nr. 28 endlich gegen meinen Kollegen verloren. Er hat mich 21-13 geschlagen. Vielen Dank für all Ihre Hilfe!
quelle
Antworten:
Die Analyse wird durch die Aussicht erschwert, dass das Spiel in die "Verlängerung" geht, um mit einem Vorsprung von mindestens zwei Punkten zu gewinnen. (Andernfalls wäre es so einfach wie die unter https://stats.stackexchange.com/a/327015/919 gezeigte Lösung .) Ich werde zeigen, wie Sie das Problem visualisieren und in leicht berechnete Beiträge zu zerlegen die Antwort. Das Ergebnis ist zwar etwas chaotisch, aber überschaubar. Eine Simulation bestätigt ihre Richtigkeit.
Sei deine Wahrscheinlichkeit, einen Punkt zu gewinnen.p Angenommen, alle Punkte sind unabhängig. Die Chance, dass Sie ein Spiel gewinnen, kann in (nicht überlappende) Ereignisse unterteilt werden, je nachdem, wie viele Punkte Ihr Gegner am Ende hat, vorausgesetzt, Sie machen keine Überstunden ( ) oder machen keine Überstunden . Im letzteren Fall ist (oder wird) offensichtlich, dass die Punktzahl irgendwann 20-20 betrug.0,1,…,19
Es gibt eine schöne Visualisierung. Lassen Sie die Punkte während des Spiels als Punkte wobei Ihre Punktzahl und die Punktzahl Ihres Gegners ist. Während sich das Spiel entfaltet, bewegen sich die Punkte entlang des Ganzzahlgitters im ersten Quadranten, beginnend bei , wodurch ein Spielpfad erstellt wird . Es endet, wenn einer von Ihnen zum ersten Mal mindestens Punkte erzielt hat und einen Vorsprung von mindestens . Solche Gewinnpunkte bilden zwei Sätze von Punkten, die "absorbierende Grenze" dieses Prozesses, an der der Spielpfad enden muss.x y ( 0 , 0 ) 21 2(x,y) x y (0,0) 21 2
Diese Figur zeigt einen Teil der Absorptionsgrenze (sie erstreckt sich unendlich nach oben und rechts) zusammen mit dem Weg eines Spiels, das in die Verlängerung gegangen ist (leider mit einem Verlust für Sie).
Lass uns zählen. Die Anzahl der Möglichkeiten, wie das Spiel mit Punkten für Ihren Gegner enden kann, ist die Anzahl der unterschiedlichen Pfade im ganzzahligen Gitter von Punkten, die mit der anfänglichen Punktzahl und mit der vorletzten Punktzahl . Solche Pfade werden durch die Punkte im Spiel bestimmt, die Sie gewonnen haben. Sie entsprechen daher den Teilmengen der Größe der Zahlen , und es gibt von ihnen. Da Sie auf jedem dieser Pfade Punkte gewonnen haben (mit jeweils unabhängigen Wahrscheinlichkeiten , wobei der Endpunkt gezählt wird) und Ihr Gegner gewonnen haty (x,y) (0,0) (20,y) 20+y 20 1,2,…,20+y 21py1-py(20+y20) 21 p y Punkte (mit jeweils unabhängigen Wahrscheinlichkeiten ), die mit verknüpften Pfade ergeben eine Gesamtchance von1−p y
Ebenso gibt es Möglichkeiten, zu zu gelangen, die die 20-20-Bindung darstellen. In dieser Situation haben Sie keinen bestimmten Gewinn. Wir können Ihre Gewinnchance durch Annahme einer gemeinsamen Konvention berechnen: Vergessen Sie, wie viele Punkte bis jetzt erzielt wurden, und beginnen Sie, die Punktedifferenz aufzuspüren. Das Spiel hat eine Differenz von und endet, wenn es zuerst oder und zwangsläufig passiert . Lassen sein die Chance , dass Sie gewinnen , wenn das Differential ist .(20+2020) (20,20) 0 +2 −2 ±1 g(i) i∈{−1,0,1}
Da Ihre Gewinnchance in jeder Situation , haben wirp
Die einzigartige Lösung dieses linearen Gleichungssystems für den Vektor impliziert(g(−1),g(0),g(1))
Dies ist also Ihre Gewinnchance, sobald erreicht ist (was mit einer Chance von ).(20,20) (20+2020)p20(1−p)20
Folglich ist Ihre Gewinnchance die Summe aller dieser disjunkten Möglichkeiten, gleich
Das Zeug in den Klammern rechts ist ein Polynom in . (Es sieht aus wie sein Abschluss , aber die führenden Begriffe streichen alle: sein Abschluss ist )p 21 20
Bei liegt die Gewinnchance nahe beip=0.58 0.855913992.
Sie sollten keine Probleme damit haben, diese Analyse auf Spiele zu verallgemeinern, die mit einer beliebigen Anzahl von Punkten enden. Wenn der erforderliche Spielraum größer als das Ergebnis komplizierter, ist aber genauso einfach.2
Übrigens hatten Sie mit diesen Gewinnchancen eine Chance von , die ersten Spiele zu gewinnen. Dies steht nicht im Widerspruch zu dem, was Sie melden. Dies könnte uns dazu ermutigen, weiterhin davon auszugehen, dass die Ergebnisse der einzelnen Punkte unabhängig sind. Wir würden damit projizieren, dass Sie eine Chance haben(0.8559…)15≈9.7% 15
alle verbleibenden Spiele zu gewinnen, vorausgesetzt, sie gehen nach all diesen Annahmen vor. Es klingt nicht nach einer guten Wette, es sei denn, die Auszahlung ist hoch!35
Ich überprüfe diese Arbeit gerne mit einer schnellen Simulation. Hier ist
R
Code, um Zehntausende von Spielen in einer Sekunde zu generieren. Es wird davon ausgegangen, dass das Spiel innerhalb von 126 Punkten beendet ist (extrem wenige Spiele müssen so lange fortgesetzt werden, sodass diese Annahme keinen wesentlichen Einfluss auf das Ergebnis hat).Als ich dies durchführte, haben Sie in 8.570 Fällen von 10.000 Iterationen gewonnen. Ein Z-Score (mit ungefähr einer Normalverteilung) kann berechnet werden, um solche Ergebnisse zu testen:
Der Wert von in dieser Simulation stimmt vollkommen mit der vorstehenden theoretischen Berechnung überein.0.31
Anhang 1
Angesichts der Aktualisierung der Frage, in der die Ergebnisse der ersten 18 Spiele aufgelistet sind, werden hier die Spielpfade rekonstruiert, die mit diesen Daten übereinstimmen. Sie können sehen, dass zwei oder drei der Spiele gefährlich nahe an den Verlusten waren. (Jeder Pfad, der auf einem hellgrauen Quadrat endet, ist ein Verlust für Sie.)
Mögliche Verwendungen dieser Figur umfassen das Beobachten von:
Die Pfade konzentrieren sich um eine Steigung, die sich aus dem Verhältnis 267: 380 der Gesamtpunktzahl ergibt, was ungefähr 58,7% entspricht.
Die Streuung der Pfade um diese Steigung zeigt die erwartete Variation, wenn die Punkte unabhängig sind.
Wenn Punkte in Streifen gezeichnet werden, weisen einzelne Pfade in der Regel lange vertikale und horizontale Strecken auf.
Erwarten Sie in einer längeren Reihe ähnlicher Spiele, dass Pfade innerhalb des Farbbereichs bleiben, aber auch, dass einige darüber hinausgehen.
Die Aussicht auf ein oder zwei Spiele, deren Weg in der Regel über diesem Spread liegt, deutet auf die Möglichkeit hin, dass Ihr Gegner möglicherweise früher als später ein Spiel gewinnt.
Anlage 2
Der Code zum Erstellen der Figur wurde angefordert. Hier ist es (aufgeräumt, um eine etwas schönere Grafik zu erzeugen).
quelle
r code
Implementierungsoffenlegung? Danke vielmals.Verwenden Sie die Binomialverteilung und nehmen Sie an, dass jeder Punkt unabhängig ist:
Die Wahrscheinlichkeit, dass der -Spieler in den ersten Punkten auf (unter Berücksichtigung der Tatsache, dass der letzte Punkt gewonnen werden muss), ist58% 21 40 ∑40n=21(n−120)0.58210.42n−21 =∑40k=21(40k)0.58k0.4240−k ≈0.80695
Die Wahrscheinlichkeit, dass Spieler von Punkten erhalten, ist das Binomial . Vorausgesetzt, die Wahrscheinlichkeit, dass der -Spieler mit dem Zwei-Punkte-Vorsprung gewinnt, beträgt58% 20 40 (4020)0.58200.4220≈0.074635 58% 0.5820.582+0.422≈0.656006
Die Gesamtwahrscheinlichkeit, mit der der -Spieler gewinnt, liegt bei0,80695 + 0,074635 × 0,656006 ≈ 0,855958% 0.80695+0.074635×0.656006 ≈0.8559
Die Wahrscheinlichkeit, dass der -Spieler die ersten Spiele beträgt dann ungefähr was ziemlich unwahrscheinlich ist. Die Wahrscheinlichkeit, dass der -Spieler die letzten Spiele liegt bei was sehr unwahrscheinlich ist. 15 0,85559 15 ≈ 0,0969 58 % 35 0,85559 35 ≈ 0,004358% 15 0.8555915≈0.0969 58% 35 0.8555935≈0.0043
quelle
Ich ging mit einer rechnerischen Antwort. Hier ist eine R-Funktion, die ein Ping-Pong-Spiel simuliert, bei dem der Gewinner mit 2 gewinnen muss. Das einzige Argument ist die Wahrscheinlichkeit, dass Sie einen Punkt gewinnen. Es wird das Endergebnis des Spiels zurückgegeben:
Stellen wir zunächst sicher, dass es funktioniert, indem wir 10.000 Spiele simulieren, bei denen Sie eine 50% ige Chance haben, jeden Punkt zu gewinnen. Wir sollten beachten, dass Ihr Gewinnprozentsatz ungefähr 50% beträgt:
Dies ergibt .4955, ungefähr das, was wir erwarten würden. Also schließen wir Ihre 58% an:
Das gibt 8606 zurück. Sie haben also eine Chance von 86,06%, ein Spiel zu gewinnen.
Wir können jetzt über 35 Spielstapel simulieren und sehen, wie oft Sie alle 35 gewinnen würden :
Dies ergibt .0037, was bedeutet, dass Sie eine Chance von 0,37% haben, die nächsten 35 Spiele zu gewinnen. Dies setzt voraus, dass alle Spiele und alle Punkte unabhängig voneinander sind. Sie könnten das explizit in die obige Funktion programmieren, wenn Sie wollten.
Hinweis: Ich mache das im laufenden Betrieb. Ich bin mir sicher, dass es einen effizienteren Weg gibt, dies zu programmieren.
quelle
pbetterwins <- pbinom(19,40,0.42) + dbinom(20,40,0.42) * 0.58^2/(0.58^2+0.42^2); pbetterwins; pbetterwins^35
eine Berechnung mit der Binomialverteilung. Nah genug an Ihrer SimulationSollen wir davon ausgehen, dass die Gewinnchance von 58% feststeht und die Punkte unabhängig voneinander sind?
Ich glaube, dass Whubers Antwort gut und schön geschrieben und erklärt ist, wenn man bedenkt, dass jeder Punkt unabhängig vom nächsten ist . Ich glaube jedoch, dass dies in der Praxis nur ein interessanter Ausgangspunkt ist (theoretisch / idealisiert). Ich stelle mir vor, dass die Punkte in Wirklichkeit nicht unabhängig voneinander sind, und dies könnte es mehr oder weniger wahrscheinlich machen, dass Ihr Kollege mindestens einmal von 50 zu einem Sieg kommt.
Zuerst stellte ich mir vor, dass die Abhängigkeit der Punkte ein zufälliger Prozess wäre , dh nicht von den Spielern kontrolliert (z. B. wenn man gewinnt oder verliert, wenn man anders spielt), und dies sollte zu einer größeren Streuung der Ergebnisse führen, die dem geringeren Spieler zugute kommt dieser eine von fünfzig Punkten.
Ein zweiter Gedanke könnte jedoch das Gegenteil suggerieren : Die Tatsache, dass Sie bereits mit 9,7% der Chancen etwas "erreicht" haben, kann aus bayesianischer Sicht einige (aber nur geringfügige) Vorteile für Ideen zur Bevorzugung von Mechanismen bringen, die Sie dazu bringen Gewinnen Sie mit einer Wahrscheinlichkeit von mehr als 85%, um ein Spiel zu gewinnen (oder machen Sie es zumindest weniger wahrscheinlich, dass Ihr Gegner eine viel höhere Wahrscheinlichkeit als 15% hat, wie in den vorherigen beiden Absätzen dargelegt). Zum Beispiel könnte es sein, dass Sie besser abschneiden, wenn Ihre Position weniger gut ist (es ist nicht verwunderlich, dass Spieler bei Spielpunkten für oder gegen viel mehr Punkte erzielen als bei regulären Punkten). Sie können die Schätzungen der 85% verbessern, indem Sie diese Dynamik berücksichtigen, und möglicherweise haben Sie eine Wahrscheinlichkeit von mehr als 85%, ein Spiel zu gewinnen.
Wie auch immer, es könnte sehr falsch sein, diese einfache Punktestatistik zu verwenden , um eine Antwort zu geben. Ja, Sie können es tun, aber es wird nicht richtig sein, da die Prämissen (Unabhängigkeit von Punkten) nicht unbedingt korrekt sind und die Antwort stark beeinflussen . Die Statistik 42/58 enthält mehr Informationen, aber wir wissen nicht genau, wie sie zu verwenden ist (die Richtigkeit des Modells), und die Verwendung der Informationen kann zu hochpräzisen Antworten führen, die es tatsächlich nicht gibt.
Beispiel
Beispiel: Ein ebenso vernünftiges Modell mit einem völlig anderen Ergebnis
Die hypothetische Frage (unter der Annahme unabhängiger Punkte und bekannter theoretischer Wahrscheinlichkeiten für diese Punkte) ist an sich interessant und kann beantwortet werden. Aber nur um nervig und skeptisch / zynisch zu sein. Eine Antwort auf den hypothetischen Fall bezieht sich nicht so sehr auf Ihr zugrunde liegendes / ursprüngliches Problem, und möglicherweise zögern die Statistiker / Datenwissenschaftler in Ihrem Unternehmen, eine klare Antwort zu geben.
Nur um ein alternatives (nicht unbedingt besseres) Beispiel zu nennen, das eine verwirrende (Gegen-) Aussage enthält: "F: Wie hoch ist die Wahrscheinlichkeit, alle 50 Spiele zu gewinnen, wenn ich bereits 15 gewonnen habe?" Wenn wir nicht glauben, dass "die Punktzahlen 42/58 relevant sind oder uns bessere Vorhersagen geben", werden wir anfangen, Vorhersagen über Ihre Wahrscheinlichkeit, das Spiel zu gewinnen, und Vorhersagen über weitere 35 Spiele zu treffen, die ausschließlich auf Ihren zuvor gewonnenen Ergebnissen basieren 15 Spiele:
Das bedeutet, dass ich nicht so pessimistisch wäre wie die einfache Vorhersage von 0,432%. Die Tatsache, dass Sie bereits 15 Spiele gewonnen haben, sollte die Wahrscheinlichkeit erhöhen, dass Sie die nächsten 35 Spiele gewinnen.
Notiz basierend auf den neuen Daten
Basierend auf Ihren Daten für die 18 Spiele habe ich versucht, ein Beta-Binomial-Modell anzupassen. Variiere und und berechne die Wahrscheinlichkeiten, um zu einer Punktzahl i, 21 (über i, 20) oder einer Punktzahl 20, 20 zu gelangen und dann ihre Logs zu summieren ein Log-Likelihood-Score.α=μν β=(1−μ)ν
Es zeigt sich, dass ein sehr hoher Parameter (geringe Streuung in der zugrunde liegenden Beta-Verteilung) eine höhere Wahrscheinlichkeit aufweist und daher wahrscheinlich eine geringe Überstreuung vorliegt. Das bedeutet, dass die Daten nicht darauf hindeuten, dass es besser ist, einen variablen Parameter für Ihre Gewinnwahrscheinlichkeit zu verwenden, als Ihre feste Gewinnchance von 58%. Diese neuen Daten bieten zusätzliche Unterstützung für die Whuber-Analyse, bei der Scores basierend auf einer Binomialverteilung angenommen werden. Dies setzt natürlich weiterhin voraus, dass das Modell statisch ist und dass Sie und Ihr Mitarbeiter sich nach einem Zufallsmodell verhalten (bei dem jedes Spiel und jeder Punkt unabhängig sind).ν
Schätzung der maximalen Wahrscheinlichkeit für Parameter der Betaverteilung anstelle einer festen Gewinnchance von 58%:
F: Wie lese ich das Diagramm "LogLikelihood for parameters mu and nu"?
EIN:
Code / Berechnung für Grafik 1
Code / Berechnung für Grafik 2
quelle
Man könnte viel Mühe auf ein perfektes Modell verwenden. Aber manchmal ist ein schlechtes Modell besser. Und nichts sagt schlechtes Modell wie der zentrale Grenzwertsatz - alles ist eine normale Kurve.
Wir werden "Überstunden" ignorieren. Wir modellieren die Summe der einzelnen Punkte als normale Kurve. Wir spielen Modell 38 Runden und wer die meisten Punkte hat, gewinnt, anstatt zuerst 20. Dies ist ziemlich ähnlich spieltechnisch!
Und ich behaupte blind, wir kommen der richtigen Antwort sehr nahe.
Sei die Verteilung eines Punktes. hat den Wert 1, wenn Sie einen Punkt erhalten, und 0, wenn Sie dies nicht tun.X X
Also ist = ~ und = = ~ .E(X) 0.58 Var(X) E(X)∗(1−E(X)) 0.24
WennXi ∑38i=1Xi
und = = ~√SD(∑38i=1Xi) 3,0238∗Var(X))−−−−−−−−−−−√ 3.02
In unserem Rohmodell verlieren wir, wenn und gewinnen, wenn .≤ 38 i = 1 X i > 19∑38i=1Xi<19 ∑38i=1Xi>19
1,0115,62%22.04−193.02 ist eine Standardabweichung von vom Mittelwert, die nach Konsultation eines z-Score-Diagramms eine von .1.01 15.62%
Wenn wir mit den strengeren Antworten vergleichen, ist dies ungefähr weniger als der richtige Wert.1%
Im Allgemeinen ist es besser, die Zuverlässigkeit der Siegchance zu prüfen, als ein strengeres Modell, das eine Chance annimmt und diese perfekt modelliert.58 %58% 58%
quelle
Basierend auf der Simulation sieht es so aus, als ob die Wahrscheinlichkeit, ein bestimmtes Spiel zu gewinnen, bei 85,5% liegt.
Die Gewinnwahrscheinlichkeit von genau 2 (so habe ich den Titel gelesen, aber es scheint nicht das zu sein, wonach Sie fragen) liegt bei etwa 10,1%.
Führen Sie den folgenden Code aus.
quelle
dbinom(20,40,0.58)*0.58^2/(1-2*0.58+2*0.58^2)+dbinom(20,39,0.58)*0.58
Geben von 10,04%