Die Anzahl der Exponentialsummierungen in einem festen Intervall ist Poisson

7

Was ist der klügste Weg, um zu beweisen, dass die Anzahl unabhängiger Exponentialsummen in einem festen Intervall als Poisson-Zufallsvariable verteilt ist? Ich kann es auf eine Weise tun, aber ich würde gerne wissen, ob es eine andere Möglichkeit gibt, die mehr Stilpunkte bringt.

Lassen S1,S2,iidExponential(μ). Um ganz klar zu sein, die Dichten sind jeweilsfS(s)=μeμs. Jetzt fürt>0, definieren Kt={j:S1+Sj<t<S1++Sj+Sj+1}.

Ich kann dies tun, indem ich die Gelenkdichte der Exponentiale direkt integriere. Zum Beispiel,

P(Kt=1)=P(S1<t<S1+S2)=0tts1μeμs1 μeμs2 ds2 ds1=(μt)eμt.
Aber gibt es einen anderen Weg?

Bearbeiten: Dies ist ein bekanntes Ergebnis grundlegender Poisson-Prozesse. Diese Tatsache war Motivation für die Frage. Im Idealfall hängen Antworten also nicht von Ergebnissen von Poisson oder anderen stochastischen Prozessen ab.

Taylor
quelle

Antworten:

8

Ich schlage vor, das Konzept eines homogenen Poisson-Prozesses als Ausgangspunkt zu nehmen . Dies ist ein Punktprozess auf der Linie (oft als "Zeit" -Linie gedacht und bezeichnet). Die Realisierungen sind Punktmengen. Mit ziemlicher Sicherheit enthält jede begrenzte Menge reeller Zahlen nur endlich viele Punkte.

Die grundlegenden Eigenschaften dieses Prozesses, die ich in der Analyse wiederholt verwenden werde, sind:

  1. ( Unabhängigkeit ) Die Ergebnisse in zwei beliebigen disjunkten Sätzen sind unabhängig.

  2. ( Homogenität ) Die erwartete Anzahl von Punkten in einem messbaren SatzA mit endlichem Maß |A| ist direkt proportional zu |A|. Die Konstante der Verhältnismäßigkeit,λist ungleich Null.

Wie wir sehen werden, fließt alles aus diesen Eigenschaften.

Wartezeiten

Lassen Sie uns die "Wartezeiten" dieses Prozesses untersuchen. Eine Startzeit gegebens und verstrichene Dauer t0, Lassen S(s,t) sei die Chance, dass keine Punkte dazwischen auftreten s und s+t: das heißt, innerhalb des Intervalls (s,s+t]. Betrachten Sie zwei benachbarte Intervalle, eines vonr zu r+s und ein anderer aus r+s zu r+s+t. Durch die Unabhängigkeit ist diese Chance, dass kein Punkt in ihrer Vereinigung ist, das Produkt der Chance, dass kein Punkt in der ersten und die Chance, dass kein Punkt in der zweiten ist:

(1)S(r,s+t)=S(r,s)S(r+s,t).

Durch die Homogenität bleiben diese Chancen gleich, wenn wir die Intervalle verschieben. Das heißt, für jedens, S(r,t)=S(r+s,t). Insbesondere dürfen wir immer nehmenr=s erhalten

S(r,t)=S(0,t)=S(t)

für alle r, so dass wir die explizite Abhängigkeit von fallen lassen können rin der Notation. Einstecken in(1) gibt

(2)S(s+t)=S(s)S(t).

Homogenität macht es offensichtlich Smuss kontinuierlich sein (tatsächlich differenzierbar). Es ist bekannt, dass die einzigen Lösungen zu(2)sind exponentiell. Eine einfache Möglichkeit, dies zu sehen, besteht darin, den Logarithmus von zu berücksichtigenS ist linear und da S(0)=1folglich muss es eine Anzahl geben κ für welche

log(S(t))=κt.

Schon seit S muss mit der Zeit abnehmen, κ<0. Ergo sind alle Lösungen von der Form

S(t)=eκt.

Es besteht die Möglichkeit, dass innerhalb eines bestimmten Längenintervalls keine Punkte auftreten t.

Exponentielle Summanden

Legen Sie ein Intervall fest. Aufgrund der Homogenität können wir annehmen, dass sie bei beginnt0 und endet (sagen wir) bei b. Mit ziemlicher Sicherheit gibt es in dem Intervall nur endlich viele Punkte des Prozesses(0,b]und erlauben uns, sie zu bestellen 0<t1<t2<<tn. t1 ist eine Realisierung einer Zufallsvariablen T1 regiert durch S: das ist,

Pr(T1t)=1Pr(T1>t)=1S(t)=1eκt.

T2 ähnlicher Weise eine unabhängige Zufallsvariable, wobei auch von , woherT2T1S

Pr(T2T1+t)=1S(t)=1eκt,

und ebenso für das verbleibende . Dies zeigt, dass genau wie in der Frage beschrieben ist: Es ist die größte Anzahl von "Exponentialsummen", die in das Intervall passen . Es ist eine Realisierung der ZufallsvariablenTin(0,b]

N(0,b)=max{i|T1+T2++Tib}.

Poisson-Verteilung

Sei eine ganze Zahl. Wie ist die Chance, , dass das Intervall genau Punkte enthält ? Ich werde die Antwort aus der ergodischen Eigenschaft des Poisson-Prozesses ableiten , die ich für intuitiv halte: weil der Prozess innerhalb des Einheitsintervalls derselbe ist (und unabhängig von) dem Prozess innerhalb eines Einheitsintervalls können wir Eigenschaften des Prozesses ableiten, indem wir für eine einzelne Realisierung variieren und die angezeigten Punktmuster untersuchen. Insbesondere muss gleich dem zeitlichen sein, dass die Anzahl der Punktek0pkk[0,1][0,1][t1,t]t pkN(t)=N(t1,t)im Intervall gleich . Wir können dies formal mit der Indikatorfunktion ausdrücken, die gleich wenn ihr Argument wahr ist, und ansonsten :[t1,t]kI10

pk=limx1x11xI(N(t)=k)dt.

Das Integral ist die Gesamtdauer zwischen und wenn das Intervall genau Punkte enthält , während der Nenner des Bruchteils natürlich die insgesamt verstrichene Zeit von bis .1x[t1,t]k1x

Abbildung zeigt ein Diagramm von $ N (t) $

Dies ist eine Auftragung von für eine Realisierung eines Poisson-Prozesses mit der Rate . Weiße horizontale Linien markieren die Werte auf der vertikalen Achse, die sich von bis . Die grauen vertikalen Linien zeigen die Zeiten, zu denen Punkte in dieser Realisierung auftreten. Die gepunkteten blauen vertikalen Linien zeigen dieselben Punkte, die um eine Einheit nach rechts verschoben sind. Die durchgezogene rote Kurve zeigt beginnend bei . (Es erstreckt sich unendlich weit nach rechts, aber es konnte nicht alles gezeichnet werden!)N(t)λ=2.5k=1,2,304N(t)t=1

N(1)=4 da in der ersten Zeiteinheit vier Punkte (graue Linien) erscheinen . Das Diagramm von steigt dann jedes Mal um eine Einheit an, wenn andere graue Linie angetroffen wird, die sich von links nach rechts bewegt, da dies der Zeitpunkt ist, an dem das Intervall diesen Punkt aufnimmt. Sie fällt jedes Mal um eine Einheit, wenn eine blaue Linie angetroffen wird, da dies dasselbe ist wie der Verlust des Wertes aus dem Intervall .[0,1]N(t)t[t1,t]tt1[t1,t]

Der , der in jeder Höhe schätzt , die Wahrscheinlichkeit, dass ein Einheitsintervall genau Punkte enthält .kpkk

Angenommen, das Intervall enthält Punkte. Wenn wir es nach rechts schieben, verfolgen wir die neuen Punkte, die es aufnimmt, und die alten Punkte, die abfallen. Zwei einfache Beziehungen bestimmen alles:[t1,t]k

  1. Zwischen und (für ) beträgt die erwartete Anzahl neuer Punkte . (Das ist Homogenität.)tt+dtdt0λdt

  2. Die erwartete Anzahl verlorener Punkte ist jedoch da sich Punkte zufällig innerhalb des Intervalls befinden. (Auch dies ist auf Homogenität zurückzuführen.)kdtk

Fast sicher wird zu jedem Zeitpunkt höchstens ein Punkt hinzugefügt oder geht verloren. (Wenn nicht, würde es eine positive Untergrenze für die Wahrscheinlichkeit geben, dass zwei oder mehr Punkte in willkürlich kleinen Intervallen auftreten , aber da die erwartete Anzahl von Punkten in solchen Intervallen nur was wächst mit kleinem verschwindend klein - dies ist unmöglich.) Dementsprechend gibt es nur zwei Übergänge, bei denen eine Wahrscheinlichkeit ungleich Null besteht: von Punkten zu Punkten und von Punkten zu Punkten. Ihre augenblicklichen Raten sind[t,t+dt]λdtdtkk+1kk1

τ(kk+1)=limdt0+λdtdt=λ

und wenn ,k1

τ(kk1)=limdt0+kdtdt=k.

Dies könnte kompliziert aussehen, da es ein System von Differentialgleichungen für die unendlich vielen Wahrscheinlichkeiten . Da der Prozess jedoch homogen ist, bleiben diese Wahrscheinlichkeiten unverändert.pk

Schauen Sie sich zuerst den Fall . Die erwartete Rate, mit der sich ändert (nämlich Null), ist die erwartete Rate der Übergänge von Zuständen mit abzüglich der erwarteten Rate der Übergänge zu Zuständen mit . Aufgrund der einfachen Beziehungen (1) und (2)k=0p010k=1 01k=1

(1)p1(λ)p0=0.

Dies ermöglicht es uns, in Bezug auf :p1p0

(3)p1=λp0.

Betrachten Sie nun die allgemeine Situation . Es gibt vier Übergänge, die möglicherweise ändern , und alle müssen sich erwartungsgemäß ausgleichen : und verringern es, während und erhöhen . Unter erneuter Verwendung der einfachen Beziehungen (1) und (2) zur Berechnung der Momentanratenk>0pkkk+1kk1k+1kk1k

[(λ)pk1(k)pk]+[(k+1)pk+1(λ)pk]=0.

Wir können induktiv annehmen, dass der erste Term in Klammern ausgeglichen wird (was wir gerade für den Fall ), wodurch der zweite Term in Klammern automatisch ausgeglichen wird und die Lösung leicht gegeben wirdk=0

(4)pk+1=λk+1pk.

Die Formeln und bestimmen alle in Bezug auf : Die Lösung ist(3)(4)pkp0

(5)pk=p0λkk!.

(Beweis: Diese Formel erfüllt die Anfangsbedingung sowie die Rekursion .)(3)(4)

Die Verbindung zwischen den Parametern Exponential und Poisson

Es gibt zwei Möglichkeiten, zu finden . p0Erstens können wir das ausnutzen, was wir zuvor über exponentielle Wartezeiten gelernt haben: ist die Wahrscheinlichkeit, dass eine exponentielle Variable des Parameters überschreitet . Das istp0κ 1

(6)p0=eκ.

Das zweite ist die Tatsache, dass sich die Wahrscheinlichkeiten zu einer Einheit summieren, woher

1=k=0p0λkk!=p0k=0λkk!=p0eλ.

Deshalb

(7)p0=eλ

ist der eindeutige Wert, der funktioniert. Folglich ist jetzt vollständig explizit:(5)

pk=eλλkk!.

Dies ist die Poisson-Verteilung .

Das Gleichsetzen von und zeigt dies(6)(7)

κ=λ.

Dies bezieht den Parameter der exponentiellen Wartezeiten explizit auf den Parameter der Poisson-Verteilung.

Simulation zum besseren Verständnis

Die erste Abbildung zeigte keine ausreichend lange Zeitspanne, um den genau abzuschätzen . Betrachten Sie jedoch einen Teil einer anderen Erkenntnis von , die hundertmal länger ist:pkN(t)

Figur eines längeren Teils

(Die vertikalen Linien werden nicht mehr gezeichnet, weil sie so zahlreich sind.)

Hier sind die Zeitanteile für jedes . Darunter befinden sich die Proportionen für die Poisson -Verteilung:k(2.5)

         0      1      2      3      4      5      6      7      8     9
y   0.0745 0.2068 0.2637 0.2215 0.1290 0.0660 0.0235 0.0128 0.0016 6e-04
fit 0.0821 0.2052 0.2565 0.2138 0.1336 0.0668 0.0278 0.0099 0.0031 9e-04

Die Übereinstimmung ist offensichtlich - wenn auch immer noch unvollkommen, da dies nur ein kurzer erster Abschnitt der Realisierung ist.


Hier ist der RCode, mit dem die Figuren erstellt wurden. Experimentieren Sie mit lambdaund num ein Gefühl für diese Analyse zu bekommen.

lambda <- 2.5               # Poisson intensity
n <- 1000                   # Number of points to realize
x <- cumsum(rexp(n, lambda))# Accumulate the waiting times

# Compute the proportion of times for each `k` and compare to the Poisson distribution.
f <- ecdf(x)                # The ECDF does the work of computing N(t)
b <- max(x)
u <- seq(1, b, length.out=10*n)
y <- table(round(n*(f(u) - f(u-1)), 4))
y <- y / sum(y)
fit <- dpois(as.numeric(names(y)), lambda)
round(rbind(y, fit), 4)

# Plot N(t)
y.max <- max(as.numeric(names(y)))
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), 0,b, ylim=c(0, y.max*1.01),
      n=max(10001, 10*n), xlab="t", ylab="", col="#00000080",
      yaxp=c(0, y.max, y.max), bty="n", yaxt="n", yaxs="i")
rect(0, 0, b, y.max, col="#f4f4f4", border=NA)
abline(h=0:y.max, col="White")
if (n < 1000) {
  abline(v=x, lty=1, col="Gray")
  abline(v=x[x <= b-1]+1, lty=3, col="Blue")
}
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), add=TRUE,
      n=max(10001, 10*n), lwd=2, col="#802020")
whuber
quelle
Sie schieben also nicht , sondern erhöhen es jedes Mal um , oder? Ich werde die Antwort akzeptieren, aber ich könnte später einige Fragen haben. t1
Taylor
Sie könnten beides tun, aber ich "schiebe" es tatsächlich in dem Sinne, dass es einen realen Wert von oder höher hat. Dies erscheint in der theoretischen Behandlung (ich integriere über , anstatt darüber zu summieren) und im Code ( die empirische kumulative Verteilungsfunktion berücksichtigt alle realen Werte ihrer Argumente, nicht nur integrale Werte). 1tecdf
whuber
Es gibt einen Kommentar in Klammern zu Beginn des Poisson-Prozesses, der so etwas wie "unabhängig von" sagt, was mich abschreckte
Taylor,
Es ist wahr, dass die Anzahl der Punkte in zwei überlappenden Intervallen nicht unabhängig ist. Dieser Mangel an Unabhängigkeit wirkt sich jedoch nicht auf eine erwartungsbasierte Analyse aus.
whuber
Wo kann ich mehr über diesen Schiebefenster-Ansatz zur Untersuchung stochastischer Prozesse erfahren?
Taylor