Bayesianische Online-Änderungspunkterkennung (marginale prädiktive Verteilung)

9

Ich lese das Bayesian Online Changepoint Detection Paper von Adams und MacKay ( Link ).

Die Autoren schreiben zunächst die marginale Vorhersageverteilung: wobei

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • xt ist die Beobachtung zum Zeitpunkt ;t
  • x1:t bezeichnet die Menge der Beobachtung bis zum Zeitpunkt ;t
  • rtN ist die aktuelle Lauflänge (Zeit seit dem letzten Änderungspunkt kann 0 sein); und
  • xt(r) ist die Menge der Beobachtungen, die dem Lauf .rt

Gl. 1 ist formal korrekt (siehe die Antwort von @JuhoKokkala unten), aber ich verstehe, dass Sie, wenn Sie tatsächlich eine Vorhersage über machen möchten , diese wie folgt erweitern müssen:xt+1

P(xt+1|x1:t)=rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b)

Meine Argumentation ist, dass es zum (zukünftigen) Zeitpunkt durchaus einen Änderungspunkt geben könnte , aber das hintere nur bis abdeckt .t+1P(rt|x1:t)t

Der Punkt ist, die Autoren in der Arbeit machen uns von Gl. 1 wie sie ist (siehe Gleichungen 3 und 11 im Papier) und nicht 1b. Sie ignorieren also scheinbar die Möglichkeit eines Änderungspunkts zum Zeitpunkt t+1 wenn sie xt+1 aus den zum Zeitpunkt t verfügbaren Daten vorhersagen t. Zu Beginn von Abschnitt 2 heißt es en passant

Wir nehmen an, dass wir die Vorhersageverteilung [für xt+1 ] abhängig von einer gegebenen Lauflänge rt .

Hier liegt vielleicht der Trick. Im Allgemeinen sollte diese prädiktive Verteilung jedoch ungefähr so ​​aussehen wie Gl. 1b; was sie nicht tun (Gl. 11).

Ich bin mir also nicht sicher, ob ich verstehe, was los ist. Vielleicht ist mit der Notation etwas Lustiges los.


Referenz

  • Adams, RP & MacKay, DJ (2007). Bayesianische Online-Änderungspunkterkennung. arXiv-Vorabdruck arXiv: 0710.3742.
Lacerbi
quelle
Eine mögliche Erklärung ist, dass die Lauflänge am Ende des Zeitschritts , der nach dem Änderungspunkt zum Zeitpunkt . Damit ist Gl. 1 macht Sinn. Tatsächlich besteht eine Initialisierung des Algorithmus darin, was voraussetzt, dass es unmittelbar vor dem Start bei einen Änderungspunkt gibt . Fig. 1 ist jedoch insofern falsch (oder zumindest irreführend), als wenn es einen Änderungspunkt zwischen und und zwischen und wie in Fig. 1a dargestellt, dann undrtttP(r0=0)=1t=1t=4t=5t=10t=11r4r10sollte gemäß dieser Notation 0 sein und nicht und gemäß Fig. 1b. r5r11
Lacerbi
1
In Gl. 3 als mittlerer Faktor im Summanden in der letzten Zeile ist während ich dachte, enthält . Ich vermute, dass und die Plätze da Sinn machen würde. In Gl. In 11 scheint die rechte Seite von abzuhängen, das überhaupt nicht auf der linken Seite erscheint. Entweder stimmt etwas nicht oder ich verstehe die Notation überhaupt nicht. P(xtrt1,xt(r))xt(r)xttt1P(xtrt,xt1(r))xt(r)
Juho Kokkala
@ JuhoKokkala: Ich bin froh, dass ich nicht der einzige mit diesem Gefühl bin ...
Lacerbi
1
@lacerbi, ich habe noch eine Frage zu diesem Artikel und denke, Sie können sie möglicherweise beantworten, da Sie mit der Arbeit vertraut zu sein scheinen: stats.stackexchange.com/questions/419988 .
GWG

Antworten:

5

Sowohl (1) als auch (1b) sind korrekt. Das OP hat Recht, dass (in diesem Modell) bei möglicherweise ein Änderungspunkt vorhanden ist und davon abhängt, ob es einen Änderungspunkt gibt. Dies impliziert keine Probleme mit (1), da die möglichen Werte von vollständig von "abgedeckt" werden . bedeutet die bedingte Verteilung von bedingt durch . Diese bedingte Verteilung wird über "alles andere" einschließlich , abhängig von . So wie man beispielsweise schreiben könntet+1xt+1rt+1P(xt+1rt,x1:t)P(xt+1|rt,x1:t)xt+1(rt,x1:t)rt+1(rt,x1:t)P(xt+1000|xt)Dies würde alle möglichen Konfigurationen von Änderungspunkten sowie Werte von s berücksichtigen, die zwischen und .xitt+1000

Im Rest leite ich zuerst (1) und dann (1b) basierend auf (1) ab.

Herleitung von (1)

Für alle Zufallsvariablen gilt: solange diskret ist (andernfalls muss die Summe durch ein Integral ersetzt werden). Anwenden auf :A,B,C

P(AB)=cP(AB,C=c)P(C=cB),
Cxt+1,x1:t,rt

P(xt+1x1:t)=rtP(xt+1rt,x1:t)P(rtx1:t),
die unabhängig von den Abhängigkeiten zwischen , , gilt, keine Modellannahmen haben verwendet wurde. In dem vorliegenden Modell wird angenommen, dass gegebenem * bedingt unabhängig von den Werten von aus den Läufen vor . Dies impliziert . Wenn wir dies in die vorherige Gleichung einsetzen, erhalten wirrtx1:txt+1xt+1rt,xt(r)xxt(r)P(xt+1rt,x1:t)=P(xt+1rt,xt(r))

P(xt+1x1:t)=rtP(xt+1rt,xt(r))P(rtx1:t),(1)
die (1) in OP ist.

Ableitung von (1b)

Betrachten wir die Zerlegung von über mögliche Werte von : P(xt+1rt,xt(r))rt+1

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,rt,xt(r))P(rt+1rt,xt(r)).

Da angenommen wird, dass * ob ein Änderungspunkt bei (zwischen und ) auftritt, nicht von der Geschichte von abhängt , haben wir . Da bestimmt, ob zum selben Lauf wie , haben wir außerdem . Wenn wir diese beiden Vereinfachungen in die obige Faktorisierung einsetzen, erhalten wir t+1xtxt+1xP(rt+1rt,xt(r))=P(rt+1rt)rt+1xt+1xtP(xt+1rt+1,rt,xt(r))=P(xt+1rt+1,xt(r))

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,xt(r))P(rt+1rt).
Wenn wir dies in (1) einsetzen, erhalten wir die OPs (1b) ist.
P(xt+1x1:t)=rt(rt+1P(xt+1rt+1,xt(r))P(rt+1rt))P(rtx1:t),(1b)

* Bemerkung zu den bedingten Unabhängigkeitsannahmen des Modells

Basierend auf dem schnellen Durchsuchen des Papiers möchte ich persönlich, dass die Eigenschaften der bedingten Unabhängigkeit irgendwo expliziter angegeben werden, aber ich nehme an, dass die Absicht ist, dass Markovian ist und die : s, die verschiedenen Läufen zugeordnet sind, unabhängig sind (angesichts der Läufe).rx

Juho Kokkala
quelle
1
(+1) Danke. Ja, natürlich verstehe ich, dass Gl. 1 ist formal korrekt, wenn man eine implizite Marginalisierung über annimmt . Das Problem ist, dass die Autoren später Vorhersagen treffen (Gleichung 11 in der Arbeit und implizit in Gleichung 3) und sie scheinbar nicht über marginalisieren, wenn sie sie nehmen. rt+1rt+1
Lacerbi
1
Oh. Es scheint dann, dass ich die Frage falsch verstanden habe - sollte ich diese löschen? Vielleicht möchten Sie die Frage klären, derzeit klingt es so, als ob (1) irgendwie falsch ist (anstatt vielleicht nicht nützlich)
Juho Kokkala
Bitte bewahren Sie diese wertvolle Antwort auf. Mein Fehler, dass ich in meinem ursprünglichen Beitrag nicht klar genug war. Ich habe versucht, meine Frage dank Ihrer Kommentare zu klären, und zwar auf eine Weise, die diese Antwort immer noch aussagekräftig macht.
Lacerbi