Wir haben einen zufälligen Prozess, der in einem festgelegten Zeitraum mehrmals auftreten kann oder auch nicht . Wir haben einen Datenfeed von einem bereits existierenden Modell dieses Prozesses, der die Wahrscheinlichkeit für eine Anzahl von Ereignissen in der Periode liefert . Dieses bestehende Modell ist alt und wir müssen die Feed-Daten auf Schätzfehler überprüfen. Das alte Modell, das den Datenfeed erzeugt (der die Wahrscheinlichkeit des Auftretens von Ereignissen in der verbleibenden Zeit liefert ), ist ungefähr Poisson-verteilt.n t
So prüfen für Anomalien / Fehler, lassen wir die Zeit sein , zu bleiben und X t die Gesamtzahl der Ereignisse werden in der verbleibenden Zeit auftreten t . Das alte Modell impliziert die Schätzungen P ( X t ≤ c ) . Unter der Annahme wir also: Um unsere Ereignisrate aus der Ausgabe des alten Modells (Beobachtungen ) abzuleiten , verwenden wir einen Zustandsraumansatz und modellieren die Zustandsbeziehung wie : P ( X t ≤ c ) = e - λ c Σ k = 0 λ k t& lgr; t y t y t = & lgr; t + & egr; t
Dieser Ansatz funktioniert hervorragend , wenn es darum geht, Fehler in der geschätzten Ereignisanzahl über den gesamten Zeitraum , aber nicht so gut, wenn wir dasselbe für einen anderen Zeitraum tun möchten. where . Um dies zu umgehen, haben wir uns entschlossen, auf die negative Binomialverteilung umzuschalten, sodass wir nun annehmen und haben: \ P (X_ {t} \ leq c) = p ^ {r} \ sum_ {k = 0} ^ c (1 - p) ^ {k} \ binom {k + r -1} {r - 1}, wobei der Parameter \ lambda jetzt durch r und p ersetzt wird0 ≤ t < σ σ < 2Xt~NB(r,p)P(Xt≤c)=pr c Σ k=0(1-p)k ( k+r-1λrp
1. Können wir in der negativen Binomialverteilung nur ? Wenn nein, warum nicht?
2. Angenommen, wir können wobei eine Funktion ist. Wie können wir richtig setzen (müssen wir Verwendung früherer Datensätze anpassen)? f r r
3. Ist abhängig von der Anzahl der Ereignisse, die wir während eines bestimmten Prozesses erwarten?
Anhang zum Extrahieren von Schätzungen für (und ):p
Ich bin mir bewusst, dass wir den Maximum-Likelihood-Schätzer für und übernehmen könnten, wenn wir dieses Problem tatsächlich umkehren und die Ereignisanzahl für jeden Prozess hätten . Natürlich gibt es den Maximum Likelihood Estimator nur für Stichproben, bei denen die Stichprobenvarianz größer als der Stichprobenmittelwert ist, aber wenn dies der Fall wäre, könnten wir die Likelihood-Funktion für unabhängige, identisch verteilte Beobachtungen as: woraus wir die log-Wahrscheinlichkeitsfunktion schreiben können als:
Antworten:
Die negative Binomialverteilung ist dem Binomialwahrscheinlichkeitsmodell sehr ähnlich. Sie ist anwendbar, wenn die folgenden Annahmen (Bedingungen) zutreffen. 1) Jedes Experiment wird unter denselben Bedingungen durchgeführt, bis eine feste Anzahl von Erfolgen (z. B. C) erreicht ist. 2) Das Ergebnis jedes Experiments kann in eine der beiden Kategorien eingeteilt werden Erfolg oder Misserfolg 3) Die Erfolgswahrscheinlichkeit P ist für jedes Experiment gleich. 40Jedes Experiment ist unabhängig von allen anderen. Die erste Bedingung ist der einzige entscheidende Unterscheidungsfaktor zwischen Binom und negativem Binom
quelle
Die Poisson-Verteilung kann unter bestimmten Bedingungen eine vernünftige Annäherung an das Binom sein. 1) Die Erfolgswahrscheinlichkeit für jeden Versuch ist sehr gering. P -> 0 2) np = m (say) is finete Die von Statistikern am häufigsten verwendete Regel lautet, dass die Poisson eine gute Annäherung an das Binomial ist, wenn n gleich oder größer als 20 und p gleich oder kleiner als 5 ist %
quelle