Ich schlage vor, das Konzept eines homogenen Poisson-Prozesses als Ausgangspunkt zu nehmen . Dies ist ein Punktprozess auf der Linie (oft als "Zeit" -Linie gedacht und bezeichnet). Die Realisierungen sind Punktmengen. Mit ziemlicher Sicherheit enthält jede begrenzte Menge reeller Zahlen nur endlich viele Punkte.
Die grundlegenden Eigenschaften dieses Prozesses, die ich in der Analyse wiederholt verwenden werde, sind:
( Unabhängigkeit ) Die Ergebnisse in zwei beliebigen disjunkten Sätzen sind unabhängig.
( Homogenität ) Die erwartete Anzahl von Punkten in einem messbaren SatzEIN mit endlichem Maß | EIN| ist direkt proportional zu | EIN|. Die Konstante der Verhältnismäßigkeit,λist ungleich Null.
Wie wir sehen werden, fließt alles aus diesen Eigenschaften.
Wartezeiten
Lassen Sie uns die "Wartezeiten" dieses Prozesses untersuchen. Eine Startzeit gegebens und verstrichene Dauer t≥0, Lassen S(s,t) sei die Chance, dass keine Punkte dazwischen auftreten s und s+t: das heißt, innerhalb des Intervalls (s,s+t]. Betrachten Sie zwei benachbarte Intervalle, eines vonr zu r+s und ein anderer aus r+s zu r+s+t. Durch die Unabhängigkeit ist diese Chance, dass kein Punkt in ihrer Vereinigung ist, das Produkt der Chance, dass kein Punkt in der ersten und die Chance, dass kein Punkt in der zweiten ist:
S(r,s+t)=S(r,s)S(r+s,t).(1)
Durch die Homogenität bleiben diese Chancen gleich, wenn wir die Intervalle verschieben. Das heißt, für jedens, S(r,t)=S(r+s,t). Insbesondere dürfen wir immer nehmenr=−s erhalten
S(r,t)=S(0,t)=S(t)
für alle r, so dass wir die explizite Abhängigkeit von fallen lassen können rin der Notation. Einstecken in(1) gibt
S(s+t)=S(s)S(t).(2)
Homogenität macht es offensichtlich Smuss kontinuierlich sein (tatsächlich differenzierbar). Es ist bekannt, dass die einzigen Lösungen zu(2)sind exponentiell. Eine einfache Möglichkeit, dies zu sehen, besteht darin, den Logarithmus von zu berücksichtigenS ist linear und da S(0)=1folglich muss es eine Anzahl geben κ für welche
log(S(t))=κt.
Schon seit S muss mit der Zeit abnehmen, κ<0. Ergo sind alle Lösungen von der Form
S(t)=e−κt.
Es besteht die Möglichkeit, dass innerhalb eines bestimmten Längenintervalls keine Punkte auftreten t.
Exponentielle Summanden
Legen Sie ein Intervall fest. Aufgrund der Homogenität können wir annehmen, dass sie bei beginnt0 und endet (sagen wir) bei b. Mit ziemlicher Sicherheit gibt es in dem Intervall nur endlich viele Punkte des Prozesses(0,b]und erlauben uns, sie zu bestellen 0<t1<t2<⋯<tn. t1 ist eine Realisierung einer Zufallsvariablen T1 regiert durch S: das ist,
Pr(T1≤t)=1−Pr(T1>t)=1−S(t)=1−e−κt.
T2 ähnlicher Weise eine unabhängige Zufallsvariable, wobei auch von , woherT2−T1S
Pr(T2≤T1+t)=1−S(t)=1−e−κt,
und ebenso für das verbleibende . Dies zeigt, dass genau wie in der Frage beschrieben ist: Es ist die größte Anzahl von "Exponentialsummen", die in das Intervall passen . Es ist eine Realisierung der ZufallsvariablenTin(0,b]
N(0,b)=max{i|T1+T2+⋯+Ti≤b}.
Poisson-Verteilung
Sei eine ganze Zahl. Wie ist die Chance, , dass das Intervall genau Punkte enthält ? Ich werde die Antwort aus der ergodischen Eigenschaft des Poisson-Prozesses ableiten , die ich für intuitiv halte: weil der Prozess innerhalb des Einheitsintervalls derselbe ist (und unabhängig von) dem Prozess innerhalb eines Einheitsintervalls können wir Eigenschaften des Prozesses ableiten, indem wir für eine einzelne Realisierung variieren und die angezeigten Punktmuster untersuchen. Insbesondere muss gleich dem zeitlichen sein, dass die Anzahl der Punktek≥0pkk[0,1][0,1][t−1,t]t pkN(t)=N(t−1,t)im Intervall gleich . Wir können dies formal mit der Indikatorfunktion ausdrücken, die gleich wenn ihr Argument wahr ist, und ansonsten :[t−1,t]kI10
pk=limx→∞1x−1∫x1I(N(t)=k)dt.
Das Integral ist die Gesamtdauer zwischen und wenn das Intervall genau Punkte enthält , während der Nenner des Bruchteils natürlich die insgesamt verstrichene Zeit von bis .1x[t−1,t]k1x
Dies ist eine Auftragung von für eine Realisierung eines Poisson-Prozesses mit der Rate . Weiße horizontale Linien markieren die Werte auf der vertikalen Achse, die sich von bis . Die grauen vertikalen Linien zeigen die Zeiten, zu denen Punkte in dieser Realisierung auftreten. Die gepunkteten blauen vertikalen Linien zeigen dieselben Punkte, die um eine Einheit nach rechts verschoben sind. Die durchgezogene rote Kurve zeigt beginnend bei . (Es erstreckt sich unendlich weit nach rechts, aber es konnte nicht alles gezeichnet werden!)N(t)λ=2.5k=1,2,304N(t)t=1
N(1)=4 da in der ersten Zeiteinheit vier Punkte (graue Linien) erscheinen . Das Diagramm von steigt dann jedes Mal um eine Einheit an, wenn andere graue Linie angetroffen wird, die sich von links nach rechts bewegt, da dies der Zeitpunkt ist, an dem das Intervall diesen Punkt aufnimmt. Sie fällt jedes Mal um eine Einheit, wenn eine blaue Linie angetroffen wird, da dies dasselbe ist wie der Verlust des Wertes aus dem Intervall .[0,1]N(t)t[t−1,t]tt−1[t−1,t]
Der , der in jeder Höhe schätzt , die Wahrscheinlichkeit, dass ein Einheitsintervall genau Punkte enthält .kpkk
Angenommen, das Intervall enthält Punkte. Wenn wir es nach rechts schieben, verfolgen wir die neuen Punkte, die es aufnimmt, und die alten Punkte, die abfallen. Zwei einfache Beziehungen bestimmen alles:[t−1,t]k
Zwischen und (für ) beträgt die erwartete Anzahl neuer Punkte . (Das ist Homogenität.)tt+dtdt≥0λdt
Die erwartete Anzahl verlorener Punkte ist jedoch da sich Punkte zufällig innerhalb des Intervalls befinden. (Auch dies ist auf Homogenität zurückzuführen.)kdtk
Fast sicher wird zu jedem Zeitpunkt höchstens ein Punkt hinzugefügt oder geht verloren. (Wenn nicht, würde es eine positive Untergrenze für die Wahrscheinlichkeit geben, dass zwei oder mehr Punkte in willkürlich kleinen Intervallen auftreten , aber da die erwartete Anzahl von Punkten in solchen Intervallen nur was wächst mit kleinem verschwindend klein - dies ist unmöglich.) Dementsprechend gibt es nur zwei Übergänge, bei denen eine Wahrscheinlichkeit ungleich Null besteht: von Punkten zu Punkten und von Punkten zu Punkten. Ihre augenblicklichen Raten sind[t,t+dt]λdtdtkk+1kk−1
τ(k→k+1)=limdt→0+λdtdt=λ
und wenn ,k≥1
τ(k→k−1)=limdt→0+kdtdt=k.
Dies könnte kompliziert aussehen, da es ein System von Differentialgleichungen für die unendlich vielen Wahrscheinlichkeiten . Da der Prozess jedoch homogen ist, bleiben diese Wahrscheinlichkeiten unverändert.pk
Schauen Sie sich zuerst den Fall . Die erwartete Rate, mit der sich ändert (nämlich Null), ist die erwartete Rate der Übergänge von Zuständen mit abzüglich der erwarteten Rate der Übergänge zu Zuständen mit . Aufgrund der einfachen Beziehungen (1) und (2)k=0p01→0k=1 0→1k=1
(1)p1−(λ)p0=0.
Dies ermöglicht es uns, in Bezug auf :p1p0
p1=λp0.(3)
Betrachten Sie nun die allgemeine Situation . Es gibt vier Übergänge, die möglicherweise ändern , und alle müssen sich erwartungsgemäß ausgleichen : und verringern es, während und erhöhen . Unter erneuter Verwendung der einfachen Beziehungen (1) und (2) zur Berechnung der Momentanratenk>0pkk→k+1k→k−1k+1→kk−1→k
[(λ)pk−1−(k)pk]+[(k+1)pk+1−(λ)pk]=0.
Wir können induktiv annehmen, dass der erste Term in Klammern ausgeglichen wird (was wir gerade für den Fall ), wodurch der zweite Term in Klammern automatisch ausgeglichen wird und die Lösung leicht gegeben wirdk=0
pk+1=λk+1pk.(4)
Die Formeln und bestimmen alle in Bezug auf : Die Lösung ist(3)(4)pkp0
pk=p0λkk!.(5)
(Beweis: Diese Formel erfüllt die Anfangsbedingung sowie die Rekursion .)(3)(4)
Die Verbindung zwischen den Parametern Exponential und Poisson
Es gibt zwei Möglichkeiten, zu finden . p0Erstens können wir das ausnutzen, was wir zuvor über exponentielle Wartezeiten gelernt haben: ist die Wahrscheinlichkeit, dass eine exponentielle Variable des Parameters überschreitet . Das istp0κ 1
p0=e−κ.(6)
Das zweite ist die Tatsache, dass sich die Wahrscheinlichkeiten zu einer Einheit summieren, woher
1=∑k=0∞p0λkk!=p0∑k=0∞λkk!=p0eλ.
Deshalb
p0=e−λ(7)
ist der eindeutige Wert, der funktioniert. Folglich ist jetzt vollständig explizit:(5)
pk=e−λλkk!.
Dies ist die Poisson-Verteilung .
Das Gleichsetzen von und zeigt dies(6)(7)
κ=λ.
Dies bezieht den Parameter der exponentiellen Wartezeiten explizit auf den Parameter der Poisson-Verteilung.
Simulation zum besseren Verständnis
Die erste Abbildung zeigte keine ausreichend lange Zeitspanne, um den genau abzuschätzen . Betrachten Sie jedoch einen Teil einer anderen Erkenntnis von , die hundertmal länger ist:pkN(t)
(Die vertikalen Linien werden nicht mehr gezeichnet, weil sie so zahlreich sind.)
Hier sind die Zeitanteile für jedes . Darunter befinden sich die Proportionen für die Poisson -Verteilung:k(2.5)
0 1 2 3 4 5 6 7 8 9
y 0.0745 0.2068 0.2637 0.2215 0.1290 0.0660 0.0235 0.0128 0.0016 6e-04
fit 0.0821 0.2052 0.2565 0.2138 0.1336 0.0668 0.0278 0.0099 0.0031 9e-04
Die Übereinstimmung ist offensichtlich - wenn auch immer noch unvollkommen, da dies nur ein kurzer erster Abschnitt der Realisierung ist.
Hier ist der R
Code, mit dem die Figuren erstellt wurden. Experimentieren Sie mit lambda
und n
um ein Gefühl für diese Analyse zu bekommen.
lambda <- 2.5 # Poisson intensity
n <- 1000 # Number of points to realize
x <- cumsum(rexp(n, lambda))# Accumulate the waiting times
# Compute the proportion of times for each `k` and compare to the Poisson distribution.
f <- ecdf(x) # The ECDF does the work of computing N(t)
b <- max(x)
u <- seq(1, b, length.out=10*n)
y <- table(round(n*(f(u) - f(u-1)), 4))
y <- y / sum(y)
fit <- dpois(as.numeric(names(y)), lambda)
round(rbind(y, fit), 4)
# Plot N(t)
y.max <- max(as.numeric(names(y)))
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), 0,b, ylim=c(0, y.max*1.01),
n=max(10001, 10*n), xlab="t", ylab="", col="#00000080",
yaxp=c(0, y.max, y.max), bty="n", yaxt="n", yaxs="i")
rect(0, 0, b, y.max, col="#f4f4f4", border=NA)
abline(h=0:y.max, col="White")
if (n < 1000) {
abline(v=x, lty=1, col="Gray")
abline(v=x[x <= b-1]+1, lty=3, col="Blue")
}
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), add=TRUE,
n=max(10001, 10*n), lwd=2, col="#802020")
ecdf