Modellieren von Cricket-Bowlern, die Schlagmänner herausholen

9

Ich habe einen Datensatz mit einer großen Anzahl von Cricket-Spielen (einige Tausend). Beim Cricket werfen "Bowler" wiederholt einen Ball auf eine Abfolge von "Schlagmännern". Der Bowler versucht, den Schlagmann "raus" zu bringen. In dieser Hinsicht ist es Krügen und Schlägern im Baseball ziemlich ähnlich.

Wenn ich den gesamten Datensatz nehmen und die Gesamtzahl der Bälle, die einen Schlagmann herausgeholt haben, durch die Gesamtzahl der geworfenen Bälle dividieren würde, könnte ich sehen, dass ich die durchschnittliche Wahrscheinlichkeit hätte, dass ein Bowler einen Schlagmann herausholt - es wird ungefähr 0,03 sein ( hoffentlich habe ich mich nicht schon geirrt?)

Was mich interessiert, ist, was ich tun kann, um die Wahrscheinlichkeit zu berechnen, mit der ein bestimmter Schlagmann beim nächsten Ball von einem bestimmten Bowler herausgeworfen wird.

Der Datensatz ist groß genug, dass jeder Bowler Tausende von Bällen vor einer Vielzahl von Schlagmännern geworfen hat. Ich glaube also, ich könnte einfach die Anzahl der Outs eines Bowlers durch die Anzahl der Bälle teilen, die er geworfen hat, um eine neue Wahrscheinlichkeit für diesen bestimmten Bowler zu berechnen, der aus dem nächsten Ball herauskommt.

Mein Problem ist, dass der Datensatz nicht groß genug ist, um zu garantieren, dass ein bestimmter Bowler eine statistisch signifikante Anzahl von Bällen bei einem bestimmten Schlagmann geworfen hat. Wenn ich also daran interessiert bin, die Wahrscheinlichkeit eines Ausfalls für einen bestimmten Bowler zu berechnen, der einem bestimmten Schlagmann gegenübersteht, denke ich nicht, dass dies nicht auf die gleiche vereinfachte Weise möglich ist.

Meine Frage ist, ob der folgende Ansatz gültig ist:

  • Im gesamten Datensatz beträgt die Wahrscheinlichkeit, dass ein Ball herauskommt, 0,03.

  • Wenn ich berechne, dass Bowler A im Durchschnitt eine Wahrscheinlichkeit von 0,06 hat (dh doppelt so wahrscheinlich wie ein durchschnittlicher Bowler),

  • und im Durchschnitt hatte Schlagmann B eine Wahrscheinlichkeit von 0,01 (ein Drittel so wahrscheinlich wie ein durchschnittlicher Schlagmann),

  • Ist es dann gültig zu sagen, dass die Wahrscheinlichkeit, dass dieser bestimmte Schlagmann auf dem nächsten Ball zu diesem bestimmten Bowler ausfällt, 0,06 * (0,01 / 0,03) = 0,02 beträgt?

Ravi
quelle
Wenn der Bowler den Ball wiederholt werfen würde, wäre er schnell nicht mehr in der Lage, im Spiel wieder zu rollen.
Glen_b -Reinstate Monica

Antworten:

2

Wenn ich den gesamten Datensatz nehmen und die Gesamtzahl der Bälle, die einen Schlagmann herausgeholt haben, durch die Gesamtzahl der geworfenen Bälle dividieren würde, könnte ich sehen, dass ich die durchschnittliche Wahrscheinlichkeit hätte, dass ein Bowler einen Schlagmann herausholt - es wird ungefähr 0,03 sein (hoffentlich) Ich habe noch nichts falsch gemacht?)

Leider ist dies vielleicht schon nicht genau das, wonach Sie suchen.

Angenommen, wir haben einen Bowler und zwei Schlagmänner: Don Bradman und ich. (Ich weiß sehr, sehr wenig über Cricket. Wenn ich also etwas weit weg mache, lass es mich wissen.) Die Spiele laufen ungefähr so ​​ab:

  • Don geht zu Fledermaus und ist auf der 99. Schüssel.
  • Ich gehe zur Fledermaus und bin sofort raus.
  • Don geht zu Fledermaus und ist auf der 99. Schüssel.
  • Ich gehe zur Fledermaus und bin sofort raus.

In diesem Fall gibt es vier Outs von 200 Bowls, sodass die marginale Wahrscheinlichkeit, dass ein Bowler einen Schlagmann rausholt, auf 4/200 = 2% geschätzt wird. Aber wirklich, die Wahrscheinlichkeit des Don, draußen zu sein, liegt eher bei 1%, während meine 100% beträgt. Wenn Sie also zufällig einen Schlagmann und einen Bowler auswählen, ist die Wahrscheinlichkeit, dass dieser Bowler diesen Schlagmann dieses Mal rausholt, eher wie (50% Chance, dass Sie Don ausgewählt haben) * (1% Chance, dass er rauskommt) + (50% Chance, dass Sie ausgewählt haben) ich) * (100% Chance, dass ich rauskomme) = 50,05%. Wenn Sie jedoch eine Tonhöhe zufällig auswählen, besteht eine Wahrscheinlichkeit von 2%, dass sie herauskommt. Sie müssen sich also genau überlegen, an welches dieser Stichprobenmodelle Sie denken.


bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

Eb[f(b,m)]b

Natürlich werden Ihre Daten nicht so schlecht aussehen, aber abhängig von der Ligastruktur oder was auch immer, könnte es einige Elemente dieses Problems geben.


fg(b)h(m)rf(b,m)=g(b)Th(m)r>1B. die Komplexisierung Ihres Modells von einer einzelnen "Qualitäts" -Bewertung zu einer Bewertung in mehreren Dimensionen: Vielleicht können bestimmte Bowler gegen bestimmte Arten von Schlagmännern besser abschneiden. (Dies wurde zB für NBA-Spiele gemacht .)

F

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
N×MFN×rGM×rH

FFF

Sie könnten ein Wahrscheinlichkeitsmodell erstellen, wie zum Beispiel:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
nijRijσGσH

nFij[0,1]GH

Dougal
quelle
1
@ Ravi Das war lang, wahrscheinlich nicht klar erklärt, und ich kenne Ihren Hintergrund mit solchen Problemen nicht. Sie können jedoch gerne Fragen zu unklaren Teilen stellen. Da Ihre Daten eins zu eins sind, können Sie auch beispielsweise Elo verwenden .
Dougal
Vielen Dank, dass Sie sich die Zeit genommen haben, diese sehr hochwertige Antwort zu schreiben. Zugegeben, ich kenne momentan nur grundlegende Statistiken, daher ist mir vieles neu. Es zeigt mir jedoch sehr deutlich, worauf ich mich einlassen muss, um dieses Problem richtig zu verstehen, und genau das wollte ich. Hoffentlich kann ich Ihre Antwort nach einigen Tagen (oder Jahren!) Des Studiums besser verstehen.
Ravi
Vielen Dank. Ich hatte eine Frage zu Elo. Da es ziemlich lange dauert, habe ich eine neue Frage [hier] geöffnet :( stats.stackexchange.com/questions/230518/… )
Ravi
0

Sie können nicht auf die richtige Wahrscheinlichkeit schließen, dass B ausfällt, da A der Bowler ist, wenn A und B sich auf dem Spielfeld nie getroffen haben, nur basierend auf ihren Durchschnittswerten mit anderen Spielern.

oW_
quelle
3
Obwohl Sie in Bezug auf Cricket möglicherweise Recht haben, deutet die Fähigkeit von Bewertungssystemen in anderen Geschicklichkeitsspielen wie Schach, die Ergebnisse von Spielen zwischen Personen vorherzusagen, die noch nie an einem Wettbewerb teilgenommen haben, auf etwas anderes hin.
whuber
2
@whuber Einverstanden - Ich denke, es wird für Cricket genauso zutreffen wie für fast jede andere Wettbewerbsinteraktion. Cricket nicht so anders.
Glen_b -Reinstate Monica