Ich lese das Bayesian Online Changepoint Detection Paper von Adams und MacKay ( Link ).
Die Autoren schreiben zunächst die marginale Vorhersageverteilung: wobei
- ist die Beobachtung zum Zeitpunkt ;
- bezeichnet die Menge der Beobachtung bis zum Zeitpunkt ;
- ist die aktuelle Lauflänge (Zeit seit dem letzten Änderungspunkt kann 0 sein); und
- ist die Menge der Beobachtungen, die dem Lauf .
Gl. 1 ist formal korrekt (siehe die Antwort von @JuhoKokkala unten), aber ich verstehe, dass Sie, wenn Sie tatsächlich eine Vorhersage über machen möchten , diese wie folgt erweitern müssen:
Meine Argumentation ist, dass es zum (zukünftigen) Zeitpunkt durchaus einen Änderungspunkt geben könnte , aber das hintere nur bis abdeckt .
Der Punkt ist, die Autoren in der Arbeit machen uns von Gl. 1 wie sie ist (siehe Gleichungen 3 und 11 im Papier) und nicht 1b. Sie ignorieren also scheinbar die Möglichkeit eines Änderungspunkts zum Zeitpunkt wenn sie aus den zum Zeitpunkt t verfügbaren Daten vorhersagen . Zu Beginn von Abschnitt 2 heißt es en passant
Wir nehmen an, dass wir die Vorhersageverteilung [für ] abhängig von einer gegebenen Lauflänge .
Hier liegt vielleicht der Trick. Im Allgemeinen sollte diese prädiktive Verteilung jedoch ungefähr so aussehen wie Gl. 1b; was sie nicht tun (Gl. 11).
Ich bin mir also nicht sicher, ob ich verstehe, was los ist. Vielleicht ist mit der Notation etwas Lustiges los.
Referenz
- Adams, RP & MacKay, DJ (2007). Bayesianische Online-Änderungspunkterkennung. arXiv-Vorabdruck arXiv: 0710.3742.
quelle
Antworten:
Sowohl (1) als auch (1b) sind korrekt. Das OP hat Recht, dass (in diesem Modell) bei möglicherweise ein Änderungspunkt vorhanden ist und davon abhängt, ob es einen Änderungspunkt gibt. Dies impliziert keine Probleme mit (1), da die möglichen Werte von vollständig von "abgedeckt" werden . bedeutet die bedingte Verteilung von bedingt durch . Diese bedingte Verteilung wird über "alles andere" einschließlich , abhängig von . So wie man beispielsweise schreiben könntet+1 xt+1 rt+1 P(xt+1∣rt,x1:t) P(xt+1|rt,x1:t) xt+1 (rt,x1:t) rt+1 (rt,x1:t) P(xt+1000|xt) Dies würde alle möglichen Konfigurationen von Änderungspunkten sowie Werte von s berücksichtigen, die zwischen und .xi t t+1000
Im Rest leite ich zuerst (1) und dann (1b) basierend auf (1) ab.
Herleitung von (1)
Für alle Zufallsvariablen gilt: solange diskret ist (andernfalls muss die Summe durch ein Integral ersetzt werden). Anwenden auf :A,B,C
Ableitung von (1b)
Betrachten wir die Zerlegung von über mögliche Werte von :P(xt+1∣rt,x(r)t) rt+1
Da angenommen wird, dass * ob ein Änderungspunkt bei (zwischen und ) auftritt, nicht von der Geschichte von abhängt , haben wir . Da bestimmt, ob zum selben Lauf wie , haben wir außerdem . Wenn wir diese beiden Vereinfachungen in die obige Faktorisierung einsetzen, erhalten wirt+1 xt xt+1 x P(rt+1∣rt,x(r)t)=P(rt+1∣rt) rt+1 xt+1 xt P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t)
* Bemerkung zu den bedingten Unabhängigkeitsannahmen des Modells
Basierend auf dem schnellen Durchsuchen des Papiers möchte ich persönlich, dass die Eigenschaften der bedingten Unabhängigkeit irgendwo expliziter angegeben werden, aber ich nehme an, dass die Absicht ist, dass Markovian ist und die : s, die verschiedenen Läufen zugeordnet sind, unabhängig sind (angesichts der Läufe).r x
quelle