Wechseln Sie von der Modellierung eines Prozesses mit einer Poisson-Verteilung zur Verwendung einer negativen Binomialverteilung?

$\newcommand{\P}{\mathbb{P}}$ Wir haben einen zufälligen Prozess, der in einem festgelegten Zeitraum mehrmals auftreten kann oder auch nicht . Wir haben einen Datenfeed von einem bereits existierenden Modell dieses Prozesses, der die Wahrscheinlichkeit für eine Anzahl von Ereignissen in der Periode liefert . Dieses bestehende Modell ist alt und wir müssen die Feed-Daten auf Schätzfehler überprüfen. Das alte Modell, das den Datenfeed erzeugt (der die Wahrscheinlichkeit des Auftretens von Ereignissen in der verbleibenden Zeit liefert ), ist ungefähr Poisson-verteilt. $T$ $0 \leq t < T$ $n$ $t$

So prüfen für Anomalien / Fehler, lassen wir die Zeit sein , zu bleiben und die Gesamtzahl der Ereignisse werden in der verbleibenden Zeit auftreten . Das alte Modell impliziert die Schätzungen . Unter der Annahme wir also: Um unsere Ereignisrate aus der Ausgabe des alten Modells (Beobachtungen ) abzuleiten , verwenden wir einen Zustandsraumansatz und modellieren die Zustandsbeziehung wie : $t$ $X_t$ $t$ $\P(X_t \leq c)$ $X_t\sim \operatorname{Poisson}(\lambda_{t})$

P (X_{t} \leq c) = e^{- λ} \sum_{k = 0}^{c} \frac{λ_{t}^{k}}{k!} .

$\P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,.$

λ_{t}

$\lambda_t$

y_{t}

$y_{t}$

y_{t} = λ_{t} + ε_{t} (ε_{t} \sim N (0, H_{t})) .

$y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,.$ Wir filtern die Beobachtungen aus dem alten Modell, einen Zustandsraum [konstante Geschwindigkeit Zerfall] Modell für die Entwicklung des des gefilterten Zustand zu erhalten und Flagge eines Anomalie / Fehler in der geschätzten Ereignisfrequenz von die die Feed-Daten, wenn .

λ_{t}

$\lambda_t$

E (λ_{t} | Y_{t})

$E(\lambda_t|Y_t)$

E (λ_{t} | Y_{t}) < y_{t}

$E(\lambda_t|Y_t) < y_t$

Dieser Ansatz funktioniert hervorragend , wenn es darum geht, Fehler in der geschätzten Ereignisanzahl über den gesamten Zeitraum , aber nicht so gut, wenn wir dasselbe für einen anderen Zeitraum tun möchten. where . Um dies zu umgehen, haben wir uns entschlossen, auf die negative Binomialverteilung umzuschalten, sodass wir nun annehmen und haben: wobei der Parameter jetzt durch und $T$ $0 \leq t < \sigma$ $\sigma < \frac{2}{3} T$ $X_t\sim NB(r, p)$

P (X_{t} \leq c) = p^{r} \sum_{k = 0}^{c} (1 - p)^{k} (\binom{k + r - 1}{r - 1}),

$\P(X_{t} \leq c) = p^{r}\sum_{k = 0}^c (1 - p)^{k}\binom{k + r -1}{r - 1},$

λ

$\lambda$

r

$r$

p

$p$ . Dies sollte einfach zu implementieren sein, aber ich habe einige Schwierigkeiten mit der Interpretation und daher habe ich einige Fragen, bei denen ich Sie bitten würde, zu helfen:

1. Können wir in der negativen Binomialverteilung nur ? Wenn nein, warum nicht? $p = \lambda$

2. Angenommen, wir können wobei eine Funktion ist. Wie können wir richtig setzen (müssen wir Verwendung früherer Datensätze anpassen)? $p = f(\lambda)$ $f$ $r$ $r$

3. Ist abhängig von der Anzahl der Ereignisse, die wir während eines bestimmten Prozesses erwarten? $r$

Anhang zum Extrahieren von Schätzungen für (und ): $r$ $p$

Ich bin mir bewusst, dass wir den Maximum-Likelihood-Schätzer für und übernehmen könnten, wenn wir dieses Problem tatsächlich umkehren und die Ereignisanzahl für jeden Prozess hätten . Natürlich gibt es den Maximum Likelihood Estimator nur für Stichproben, bei denen die Stichprobenvarianz größer als der Stichprobenmittelwert ist, aber wenn dies der Fall wäre, könnten wir die Likelihood-Funktion für unabhängige, identisch verteilte Beobachtungen as: woraus wir die log-Wahrscheinlichkeitsfunktion schreiben können als: $r$ $p$ $N$ $k_1, k_2, \ldots, k_{N}$

L (r, p) = \prod_{ich = 1}^{N} P (k_{ich}; r, p),

$L(r, p) = \prod_{i = 1}^{N}\P(k_i; r, p),$

l (r, p) = \sum_{ich = 1}^{N} \ln (Γ (k_{ich} + r)) - \sum_{ich = 1}^{N} \ln (k_{ich}!) - N \ln (Γ (r)) + \sum_{ich = 1}^{N} k_{ich} \ln (p) + N r \ln (1 - p) .

$l(r, p) = \sum_{i = 1}^{N} \ln(\Gamma(k_i + r)) - \sum_{i = 1}^{N} \ln(k_{i}!) - N\ln(\Gamma(r)) + \sum_{i = 1}^{N} k_i \ln(p) + N r\ln(1 - p).$ Um das Maximum zu finden, nehmen wir die partiellen Ableitungen in Bezug auf und und setzen sie gleich Null: Setting und Setting wir finden:

r

$r$

p

$p$

\begin{aligned} \partial_{r} l (r, p) & = \sum_{ich = 1}^{N} ψ (k_{ich} + r) - N ψ (r) + N \ln (1 - p), \\ \partial_{p} l (r, p) & = \sum_{ich = 1}^{N} k_{ich} \frac{1}{p} - N r \frac{1}{1 - p} . \end{aligned}

$\begin{align*} \partial_{r} l(r, p) &= \sum_{i = 1}^{N} \psi(k_i + r) - N\psi(r) + N\ln(1 - p), \\ \partial_{p} l(r, p) &= \sum_{i = 1}^{N} k_i\frac{1}{p} - N r \frac{1}{1 - p} \enspace . \end{align*}$

\partial_{r} l (r, p) = \partial_{p} l (r, p) = 0

$\partial_{r} l(r, p) = \partial_{p} l(r, p) = 0$

p = \sum_{i = 1}^{N} \frac{k_{i}}{(N r + \sum_{i = 1}^{N} k_{i})},

$p = \displaystyle\sum_{i = 1}^{N} \displaystyle\frac{k_i} {(N r + \sum_{i = 1}^{N} k_i)},$

\partial_{r} l (r, p) = \sum_{ich = 1}^{N} ψ (k_{ich} + r) - N ψ (r) + N \ln (\frac{r}{r + \sum_{ich = 1}^{N} \frac{k_{ich}}{N}}) = 0.

$\partial_{r} l(r, p) = \sum_{i = 1}^{N} \psi(k_i + r) - N \psi(r) + N\ln\left(\frac{r}{r + \sum_{i = 1}^{N} \frac{k_i}{N}}\right) = 0.$ Diese Gleichung kann nicht in geschlossener Form mit Newton oder sogar EM für r gelöst werden. Dies ist jedoch in dieser Situation nicht der Fall. Obwohl wir die Vergangenheitsdaten verwenden könnten , um ein statisches und dies für unseren Prozess nicht wirklich von Nutzen, aber wir müssen diese Parameter zeitlich anpassen, wie wir es bei Poisson getan haben.

r

$r$

p

$p$

negative-binomial kalman-filter poisson-process state-space-models Mond Ritter
quelle

Warum verbinden Sie Ihre Daten nicht einfach mit einem Poisson- oder Negativ-Binomial-Regressionsmodell?

StatsStudent

Ich fühle mich nicht sollte es hat verwendet werden , um. In Anbetracht dessen, dass Poisson der Grenzfall für das negative Binom ist, sollte es eine Möglichkeit geben, dieses Problem auf eine ähnliche Weise zu parametrisieren, wie ich es für Poisson getan habe. Darüber hinaus tritt dieser Prozess gleichzeitig für Tausende von Differenzprozessen auf und nicht einer hat die gleiche "Ereignisrate", was bedeutet, dass eine Regressionsanalyse für diese Parameter bei jeder neuen Beobachtung für alle Live-Prozesse durchgeführt werden müsste. Das ist nicht machbar. Vielen Dank, dass Sie sich die Zeit genommen haben, meine Frage und meinen Kommentar zu lesen. Es wird sehr geschätzt ...

MoonKnight

(X_{t} | λ_{t}, r_{t}, g_{t}) \sim P o i s (λ_{t} g_{t})

$(X_t|\lambda_t,r_t,g_t)\sim Pois (\lambda_tg_t)$

(g_{t} | r_{t}) \sim G a m m a (r_{t}, r_{t})

$(g_t|r_t)\sim Gamma (r_t,r_t)$

E (g_{t}) = 1

$E (g_t)=1$

v a r (g_{t}) = r_{t}^{- 1}

$var(g_t)=r_t^{-1}$

g_{t}

$g_t$

Das ist eine große Hilfe, aber sind Sie in der Lage, dies etwas genauer zu erläutern und einige explizite Details anzugeben? Vielen Dank für Ihre Zeit ...

MoonKnight

Was ist mit dem Binomial anstelle des negativen Binomial? Das könnte einfacher sein. Anscombe FJ. Die Transformation von Poisson-, Binomial- und Negativ-Binomial-Daten. Biometrika. 1948; 35: 246 & ndash; 54.

Carl

Wechseln Sie von der Modellierung eines Prozesses mit einer Poisson-Verteilung zur Verwendung einer negativen Binomialverteilung?

Antworten: