Kombinieren von binomialen Zufallsvariablen

7

(Haftungsausschluss: Dies ist keine Hausaufgabenfrage). Ich versuche, mir selbst eine elementare Wahrscheinlichkeit beizubringen, und ich dachte an das folgende Beispiel: Stellen Sie sich vor, Sie spielen ein Spiel mit zwei Münzen. Um das Spiel zu gewinnen, müssen Sie die Köpfe vor Ihrem Gegner drehen. Das heißt, wenn sie zuerst den Kopf drehen, gewinnen sie und Sie verlieren. Nehmen wir auch an, dass das Spiel rundenbasiert gespielt wird und Sie zuerst die Münze werfen. Außerdem sind die Münzen mit und 'unfair' .P(X=heads)|coin1=p1P(X=heads)|coin2=p2

Ich bin mir nicht sicher, wie ich im Durchschnitt berechnen soll, wie viele Runden es dauern wird, um das Spiel zu gewinnen.

Bisher glaube ich, dass wir dieses Spiel mit der folgenden Funktion (die sehr ähnlich erscheint) modellieren können eine geometrische Verteilung), denn um das Spiel zu gewinnen (vorausgesetzt, Sie haben zuerst die Schwänze umgedreht), muss der Gegner die Schwänze mit Wahrscheinlichkeit umdrehen, verlieren Sie. Dieses Muster wiederholt sich für jede Runde des Spiels.P(X=k)=p1(1p1)k1(1p2)k1(1p2)

Ich glaube, die Gewinnwahrscheinlichkeit ist gleich und der erwarteten Anzahl von Runden zu gewinnen ist gegeben durch \ sum_ {k = 1} ^ {\ inf} p_1 (1-p_1) ^ {k-1} (1-p_2) ^ {k-1} k .k=1infp1(1p1)k1(1p2)k1k=1infp1(1p1)k1(1p2)k1k

Ich habe eine Monte-Carlo-Simulation geschrieben, um diese Werte unter der Annahme von Werten für p1 und p_2 zu berechnen p2, aber das ist für mich nicht zufriedenstellend. Ich würde gerne wissen, wie man dieses Problem mathematisch und nicht programmatisch löst.

Zwei Fragen: 1) Bin ich mit der Gewinnwahrscheinlichkeit und der erwarteten Anzahl der zu gewinnenden Runden auf dem richtigen Weg? 2) Wenn ja, können Sie mir bei der Lösung dieser unendlichen Reihen helfen. Zugegeben, ich bin nicht besonders gut darin, Serien zu lösen.

Bearbeiten: Die Frage wurde beantwortet, aber ich wollte meinen Code posten, falls jemand interessiert ist. (Ich habe ursprünglich über dieses Problem im Sinne einer Seeschlacht nachgedacht, deshalb werden die Kommentare und Variablennamen so benannt.)

from pylab import *
nSim = 100000
p_h1 = 0.5
p_h2 = 0.5
number_won = 0
total_shots = []
for i in range(nSim):
    won = False
    shots_fired = 0
    while not won:
        shots_fired += 1
        # simulate shot
        shot = rand(1)
        # if it hits, the game is over
        if shot <= p_h1:
            won = True
            number_won += 1
        # else, other player shoots
        else:
            shot = rand(1)
            if shot <= p_h2:
                won = True 
        total_shots.append(shots_fired)

print 'from monte carlo simulation:'
print 'P(win): ', float(number_won) / float(nSim)
print 'expected # of shots: ', np.array(total_shots).mean()

# testing
print 'from theory:'
denom = (1-p_h1)*(1-p_h2)
print 'P(win): ', p_h1 / (1 - denom)
pstar = (1 - (1-p_h1)*(1-p_h2))
print 'expected # of shots: ', 1. / pstar

und die Ausgabe:

from monte carlo simulation:
P(win):  0.66706
expected # of shots:  1.33967131236
from theory:
P(win):  0.666666666667
expected # of shots:  1.33333333333
wsavran
quelle
Mit "wie viele Runden wird es dauern, um zu gewinnen" gehen Sie davon aus, dass Sie gewinnen? Ist das eine bedingte Wahrscheinlichkeit?
Glen_b -Reinstate Monica
Ich gehe davon aus, dass der Spieler, der Münze1 wirft, gewinnt. Die einzige Bedingung scheint zu sein, dass Spieler2 immer die Schwänze umdrehen muss, damit Spieler1 gewinnt.
wsavran
Terminologie-Hinweis: Wir lösen keine Serien. "Lösen" machen wir mit Gleichungen. Wir können die Summe der Begriffe berechnen (die Reihe auswerten, die Folge der Begriffe summieren). Oft sagen die Leute "Summe der Reihen" (vielleicht lose, da eine Reihe formal eine Summe von Begriffen ist - aber nicht mehrdeutig).
Glen_b -Reinstate Monica
Danke @Glen_b, das ist ein guter Punkt zum "Lösen" von Serien. Es macht nicht viel Sinn, das zu sagen.
wsavran

Antworten:

6

[Ich habe am Ende etwas Material darüber zusammengestellt, wie man geometrische Verläufe und die Erwartung geometrischer Zufallsvariablen summiert. Diese Antwort basiert auf solchen Ergebnissen, aber sie sind ziemlich bekannt, so dass ich dachte, ich würde nicht mit ihnen anfangen. Wenn dies bei Lesern nicht der Fall ist, gehen Sie zum Ende, um einen Weg zu finden, wie Sie sie herausholen können. Es lohnt sich, einige davon selbst zu machen (ohne zu spähen), damit Sie die Idee in Ihrem Kopf fixieren.]

Wenn Sie davon ausgehen, dass Spieler 1 gewinnen muss, müssen Sie bedingte Wahrscheinlichkeiten berechnen. Wenn Sie davon ausgehen, dass Spieler 1 gewinnt, sind Ihre Berechnungen falsch.

P(A|B)=P(AB)P(B)

P(at toss k player 1 wins|player 1 wins)=P(player 1 wins on toss k)P(player 1 wins)

=p1(1p1)k1(1p2)k1j=1p1(1p1)j1(1p2)j1

Sparen wir uns jetzt etwas Mühe: Sei1p=(1p1)(1p2)

=p1(1p)k1p1j=1(1p)j1

=p(1p)k1pj=1(1p)j1

Jetzt ist der Zähler die pmf einer geometrischen Zufallsvariablen und der Nenner ist die Summe dieser geometrischen pmf (die sich zu 1 summiert):

=p(1p)k1

(Mit einigem Nachdenken können Sie ohne algebraische Manipulation direkt zu derselben Antwort gelangen.)

Nun kommt die bedingte Erwartung sofort zum Vorschein

E(number of tosses until player 1 wins|player 1 wins))=1p


Summieren einer geometrischen Reihe:

S0=p+p(1p)+p(1p)2+p(1p)3+...

(1p)S0=p(1p)+p(1p)2+p(1p)3+...

(1(1p))S0=p+0+0+0+...

Also ist oder .pS0=pS0=1

Wenn Sie sehen möchten, wie Sie die Erwartung einer geometrischen ( ) Zufallsvariablen erhalten, können Sie den gleichen Trick wie oben verwenden - schreiben Sie die Begriffe in eins nach dem anderen, und dann schreiben Sie darunter die Terme in , aber verschoben, so dass die zweite Menge von Termen alle eins nach rechts verschoben werden.pS1=k=1kp(1p)k1(1p)S1

Nehmen Sie dann Unterschiede Begriff für Begriff und dieses Mal haben Sie eine geometrische Reihe (anstelle eines einzelnen Werts und vollständig stornierter Begriffe), aber wir wissen bereits, wie man geometrische Reihen summiert, wir haben es mit oben gemacht.S0

Glen_b -State Monica
quelle
Vielen Dank für eine so informative Antwort. Die Theorie überprüft mit der Monte-Carlo-Simulation. Ich werde meinen Code in der Frage posten, falls jemand interessiert ist.
wsavran
Ich bin ein bisschen spät dran, aber ich arbeite mich durch die Algebra und sollte die Summe in Gleichung 2 und Gleichung 3 nicht unendlich werden? Ich bekomme nur dann die richtige Antwort, wenn ich die Summe für alle möglichen Runden habe.
wsavran
Ja, die Obergrenzen für die Beträge sollten auf jeden Fall sein überall. Entschuldigung, das war ein Tippfehler, der dann kopiert wurde.
Glen_b -Reinstate Monica
2

Definieren wir eine Runde von Würfen als zwei Würfe; der erste Wurf von A, der eine Münze mit wirft, und der zweite Wurf von B, der eine Münze mit wirft .P(Heads)=p1P(Heads)=p2

Die Ergebnisse einer Runde und die entsprechenden Wahrscheinlichkeiten sind wobei, wenn eines der ersten beiden Ergebnisse auftritt, A gewinnt (mit der Wahrscheinlichkeit ); Tatsächlich spielt es keine Rolle, ob B überhaupt eine Münze wirft, sobald A einen Kopf geworfen hat. Nennen Sie dieses Ereignis Wenn das dritte Ergebnis auftritt, gewinnt B (mit der Wahrscheinlichkeit ; wir nennen dies Wenn das vierte Ergebnis auftritt, gewinnt niemand und eine neue Runde wird initiiert. Dies ist event Somit ist eines der drei (disjunkten) Ereignisse

HHp1p2HTp1(1p2)TH(1p1)p2TT(1p1)(1p2)
p1ATH(1p1)p2=p2p1p2BTTCA,B,C kann in einer Runde auftreten. Das Spiel endet in einer Runde mit der Wahrscheinlichkeit und wird für die nächste Runde mit der Wahrscheinlichkeit fortgesetzt .p=p1+p2p1p21p

A gewinnt das Spiel, wenn die Ergebnisse der Runden eine der folgenden disjunkten Folgen von Ereignissen sind: Somit ist und in ähnlicher Weise

ACACCACCCACk1A
P(A)=p1+(1p)p1+(1p)2p1+=p1p
P(B)=(1p1)p2+(1p)(1p1)p2+(1p)2(1p1)p2+=(1p1)p2p=pp1p=1P(A).

Beachten Sie, dass unter der Bedingung , dass das Spiel in der Runde endet, die Gewinnwahrscheinlichkeiten der Spieler Dies sind die gleichen wie die bedingungslosen Wahrscheinlichkeiten von und

P(A wins)=p1p1+p2p1p2=p1p,P(B wins)=p2p1p2p1+p2p1p2=pp1p.
AB

Let bezeichnen die Anzahl der Runden , bis das Spiel endet. auch an, wie oft der Gewinner des Spiels die Münze wirft. Dann ist eine geometrische Zufallsvariable mit dem Parameter . Der vorige Absatz zeigt jedoch, dass abhängig vom Auftreten des Ereignisses die bedingte Wahrscheinlichkeit von dieselbe ist wie die unbedingte Wahrscheinlichkeit, dh für jedes , das Ereignis und das EreignisX XX p=p1+p2p1p2{X=k}Ak,k=1,2,3,{X=k}A sind voneinander unabhängige Ereignisse. Tatsächlich ist die Zufallsvariable ist unabhängig von der Veranstaltung . Nun wird der erwartete Wert von ist und dieser erwartete Wert ist dem Auftreten oder Nicht-Auftreten von äußerst gleichgültig . Kurz gesagt, die erwartete Anzahl von Würfen, wenn A das Spiel gewinnt, ist XAX

E[X]=1p+2(1p)p+3(1p)2p+=p[1+2(1p)+3(1p)2+]=p1(1(1p))2=p1(p)2=1p=1p1+p2p1p2
A1p Dies entspricht der erwarteten Anzahl von Würfen, wenn B das Spiel gewinnt.
Dilip Sarwate
quelle
Vielen Dank, dass Sie sich für die alternative Herangehensweise an das Problem entschieden haben.
wsavran