Gibt es Alternativen zur Simulation zur Bestimmung der Verteilung der Anzahl von Ereignissen aus zwei abhängigen inhomogenen Poisson-Prozessen?

8

Ein "State of the Art" -Modell für die Verteilung der in einem Fußballspiel erzielten Tore ist das von Dixon und Robinson (1998) "Ein Geburtsprozessmodell für Fußballspiele der Vereinigung", das zwei Schlüsselphänomene erklärt:

1) Am Ende eines Spiels werden mehr Tore erzielt als zu Beginn (vermutlich aufgrund der Müdigkeit beider Mannschaften).

2) Die Trefferquote hängt aus einer Vielzahl von Gründen von der aktuellen Ergebnislinie ab, z. B. wenn Teams mit einem Vorsprung selbstgefällig werden oder Teams lieber unentschieden spielen, als einen Verlust zu riskieren, indem sie den Sieg anstreben

Das Modell geht davon aus, dass die von den Heim- und Auswärtsteams in einem Spiel erzielten Tore inhomogenen Poisson-Prozessen folgen. Lassen bezeichnen die Zeit in einem Spiel vergangen ist , normalisiert fallen zwischen 0 und 1 , die x -length Vektor t H bezeichnen die Zeiten , zu denen die Heimmannschaft erzielten Tore und die y -length Vektor t A bezeichnen die Zeiten , zu denen Die Auswärtsmannschaft erzielte Tore. Die Wahrscheinlichkeit für das Spiel ist dannt01xtHytA

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

Dabei ist die Trefferquote für die Heimmannschaft zum Zeitpunkt t in Abhängigkeit von einer Kombination aus zeithomogenen Faktoren (z. B. Angriffsfähigkeit der Heimmannschaft gegenüber Verteidigungsfähigkeit der Auswärtsmannschaft, Heimvorteil) und zeitinhomogenen Faktoren (z. B. Punktelinie zum Zeitpunkt t) ). Ähnliches gilt für μ ( t ) .λ(t)ttμ(t)

Die beiden Prozesse sind abhängig, da sich die Punktelinie ändert, wenn ein Team Punkte erzielt, und die Bewertungsraten selbst von der Punktelinie abhängen.

Die Wahrscheinlichkeit kann leicht bewertet werden, indem die Integration in den Exponenten numerisch durchgeführt wird. Daher ist es einfach, die Parameter des Modells (Teamfähigkeiten, Heimvorteil, Zeiteffekt, Parameter der Score-Linie usw.) über die maximale Wahrscheinlichkeit zu berechnen.

In Bezug auf die Vorhersage sind offensichtliche Größen von Interesse:

  • : Heimmannschaft gewinntP(x>y)
  • : Auswärtsteam gewinntP(x<y)
  • : zeichnenP(x=y)
  • Wahrscheinlichkeit bestimmter Bewertungslinien, z. B. P(x=1,y=0)
  • Wahrscheinlichkeit der Gesamttore im Spiel, zB P((x+y)<2.5)

Um diese Größen (ungefähr) bei einer Reihe von Modellparametern zu berechnen, könnten wir Monte-Carlo-Methoden verwenden, um Übereinstimmungen gemäß diesen Prozessen zu generieren und dann die Häufigkeit jeder Endpunktzahl zu berechnen. Das Simulieren aus den Prozessen ist relativ einfach, indem Ziele aus einem einzigen umhüllenden homogenen Poisson-Prozess in Verbindung mit einer Ablehnungsstichprobe generiert und dann entsprechend an das Heim- oder Auswärtsteam verteilt werden.

Der Nachteil dieses Ansatzes ist offensichtlich die Rechenlast der Monte-Carlo-Simulation. Versuchen Sie, Vorhersagen in Echtzeit zu treffen, während Spiele gespielt werden, von denen möglicherweise viele gleichzeitig stattfinden, und dies gibt schnell Anlass zur Sorge.

Meine Frage ist daher, ob es alternative Ansätze gibt, die wir in Betracht ziehen können und die keine hohen Rechenkosten verursachen (selbst wenn sie auf einer Näherung beruhen, die die Genauigkeit für eine einfache Berechnung opfert).


Aus Gründen der Klarheit suche ich nicht nach (grundlegenden) Vorschlägen zur effizienten Implementierung der Monte-Carlo-Simulation, die ich bereits in Multithread-C geschrieben habe, die Quasi-Zufallszahlen verwendet, die mithilfe des Abrollens vorgeneriert wurden, und die stückweise Ausdünnung ausnutzt eine sehr hohe Akzeptanzrate erreichen. Wenn Sie der Meinung sind, dass noch Spielraum für eine dramatische Leistungssteigerung besteht, bin ich natürlich ganz Ohr, aber ich suche wirklich einen grundlegend anderen Ansatz!

M. Berk
quelle

Antworten:

1

Das ist ein interessantes Problem. Ich bin mir nicht sicher, ob Sie alles verstanden haben, was Sie meinen, aber haben Sie darüber nachgedacht, einige Ihrer Probleme als Hypothesentests neu zu formulieren? Mögen:

  • x>y
  • xy

und dann einen Likelihood-Ratio-Test durchzuführen? Der extrahierte p-Wert gibt dann Auskunft darüber, ob H0 bei einem bestimmten Signifikanzniveau abgelehnt wird.

Der Grund, warum ich dies erwähne, ist, dass die Durchführung eines Likelihood-Ratio-Tests mit der Durchführung einer 2-Minimierung identisch ist, die viel schneller als die MC-Integration sein kann. Das Integral in der Exp erfordert jedoch möglicherweise noch eine Integration.

HTH

Herr Renard
quelle
0

Ich spreche zuerst 2 Probleme mit der Frage an:

  1. Die sogenannten zeitinhomogenen Faktoren verhindern, dass der Prozess Poisson ist, da die Anzahl der Ziele in einem bestimmten Zeitintervall nicht unabhängig von der früheren Anzahl der Ziele ist. Mit anderen Worten ist die Übergangsrate zustandsabhängig. Sogar der verlinkte Artikel (S.7) nennt jeden Prozess einen Geburtsprozess und reduziert sich nur auf einen homogenen Poisson-Prozess, wenn die Intensität konstant ist.

  2. x!y!

Um dann die Frage der Verteilung der Score-Linien zu beantworten, möchte ich darauf hinweisen, dass die Score-Linie, obwohl im verlinkten Artikel nicht erwähnt, als ein Geburts-Todes-Prozess modelliert werden kann :

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
xypx,y(t)p1,0(t)x=1P(x+y<2.5)P(x>y)P(y<x)P(x=y)px>max,ypx,y>max

xy

λx,y(t)μx,y(t)

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
veraltet
quelle