Warum wird die Wahrscheinlichkeit im Kalman-Filter anhand von Filterergebnissen anstelle glatterer Ergebnisse berechnet?

11

Ich benutze den Kalman-Filter ganz normal. Das System wird durch die Zustandsgleichung und die Beobachtungsgleichung . $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Lehrbücher lehren, dass wir nach dem Anwenden des Kalman-Filters und dem Abrufen der "One-Step-Ahead-Prognosen" (oder "gefilterte Schätzung") diese verwenden sollten, um die Wahrscheinlichkeitsfunktion zu berechnen: $\hat{x}_{t|t-1}$

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

Meine Frage ist: Warum wird die Wahrscheinlichkeitsfunktion unter Verwendung der "gefilterten Schätzung" und nicht der "geglätteten Schätzung" berechnet ? Ist eine bessere Schätzung des Zustandsvektors? $\hat{x}_{t|t-1}$ $\hat{x}_{t|T}$ $\hat{x}_{t|T}$

likelihood kalman-filter Gustavo Amarante
quelle

Ich habe den Titel bearbeitet, um informativer zu sein.

Juho Kokkala

5

Um Ihre Frage zu beantworten: Sie können die Glättungsdichte verwenden. Aber das musst du nicht. Jarle Tuftos Antwort hat die Zersetzung, die Sie verwenden. Aber es gibt noch andere.

Verwenden der Kalman-Rekursionen

Hier bewerten Sie die Wahrscheinlichkeit als

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{ich = 2}^{n} f (y_{ich} | y_{1}, \dots, y_{ich - - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

Mittelwerte und Abweichungen definieren Wahrscheinlichkeitsverteilungen im Allgemeinen jedoch nicht immer vollständig. Das Folgende ist die Zerlegung, die Sie verwenden, um von der Filterung der Verteilungen zu den bedingten Wahrscheinlichkeiten $f(x_{i-1}|y_1,\ldots,y_{i-1})$ :: $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & f (y_{ich} | y_{1}, \dots, y_{ich - - 1}) = \iint f (y_{ich} | x_{ich}) f (x_{ich} | x_{ich - - 1}) f (x_{ich - - 1} | y_{1}, \dots, y_{ich - - 1}) d x_{ich} d x_{ich - - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

Hier ist die Zustandsübergangsdichte ... Teil des Modells, und ist wieder die Beobachtungsdichte ... Teil des Modells. In Ihrer Frage schreiben Sie diese als und $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$ beziehungsweise. Das ist gleich.

Wenn Sie die Zustandsvorhersageverteilung mit einem Schritt voraus erhalten, wird berechnet . Wenn Sie erneut integrieren, erhalten Sie (1) vollständig. Sie schreiben diese Dichte vollständig in Ihre Frage ein, und es ist dasselbe. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

Hier verwenden Sie nur Zerlegungen von Wahrscheinlichkeitsverteilungen und Annahmen über das Modell. Diese Wahrscheinlichkeitsberechnung ist eine genaue Berechnung. Es gibt keinen Ermessensspielraum, mit dem Sie dies besser oder schlechter machen können.

Verwenden des EM-Algorithmus

Meines Wissens gibt es keine andere Möglichkeit, die Wahrscheinlichkeit direkt in einem solchen Zustandsraummodell zu bewerten. Sie können jedoch weiterhin eine Maximum-Likelihood-Schätzung durchführen, indem Sie eine andere Funktion bewerten: Sie können den EM-Algorithmus verwenden. Im Erwartungsschritt (E-Schritt) würden Sie berechnen Hier

\int f (x_{1}, \dots, x_{n} | y_{1}, \dots y_{n}) Log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n}) d x_{1 :: n} = {E.}_{s m Ö Ö t h} [Log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})]] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ ist die Wahrscheinlichkeit "vollständiger Daten", und Sie nehmen die Erwartung des Protokolls davon in Bezug auf die Verbindungsglättungsdichte. Was häufig passiert, ist, dass Sie, weil Sie das Protokoll dieser vollständigen Datenwahrscheinlichkeit erstellen, die Begriffe in Summen aufteilen und aufgrund der Linearität des Erwartungsoperators Erwartungen in Bezug auf die Randglättungsverteilungen (diejenigen) nehmen Sie erwähnen in Ihrer Frage).

Andere Dinge

Ich habe an einigen Stellen gelesen, dass die EM ein "stabilerer" Weg ist, um die Wahrscheinlichkeit zu maximieren, aber ich habe nie wirklich gesehen, dass dieser Punkt gut argumentiert wurde, noch habe ich dieses Wort "stabil" überhaupt definiert gesehen, aber ich habe es auch Ich habe das nicht weiter untersucht. Keiner dieser Algorithmen umgeht die lokale / globale Maxima-Prüfung. Ich persönlich neige dazu, den Kalman aus Gewohnheit öfter zu benutzen.

Es ist wahr, dass geglättete Schätzungen des Zustands normalerweise eine geringere Varianz aufweisen als das Filtern. Ich denke, Sie haben Recht, eine gewisse Intuition darüber zu haben, aber Sie verwenden die Zustände nicht wirklich. Die Wahrscheinlichkeit, die Sie maximieren möchten, hängt nicht von den Zuständen ab.

Taylor
quelle

Wie unterschiedlich sind KF und EM? Am Ende tun sie dasselbe auf vage ähnliche Weise.

Mitch

1

@Mitch das ist wahrscheinlich etwas, das mehr als einen Kommentar verdient. Dies hängt davon ab, welchen Allzweckoptimierer Sie mit dem KF verwenden und welche Art von EM Sie verwenden. Ich werde nicht zu sicher sein, ohne es zu untersuchen.

Taylor

7

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{ich = 2}^{n} f (y_{ich} | y_{1}, \dots, y_{ich - - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

\begin{aligned} E. (y_{ich} | y_{1}, \dots, y_{ich - - 1}) & = E. (H. x_{t} + EIN z_{t} + w_{t} | y_{1}, \dots, y_{ich - - 1}) \\ = H. E. (x_{t} | y_{1}, \dots, y_{ich - - 1}) + EIN z_{t} + E. w_{t} \\ = H. {\hat{x}}_{t | t - - 1} + EIN z_{t}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$ und

\begin{aligned} V. ein r (y_{ich} | y_{1}, \dots, y_{ich - - 1}) & = V. ein r (H. x_{t} + EIN z_{t} + w_{t} | y_{1}, \dots, y_{ich - - 1}) \\ = H. V. ein r (x_{t} | y_{1}, \dots, y_{ich - - 1}) {H.}^{'} + V. ein r w_{t} \\ = H. {P.}_{t | t - - 1} {H.}^{'} + R. . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$ Dies gibt Ihnen die genaue Wahrscheinlichkeit, ohne geglättete Schätzungen zu berechnen.

Während Sie natürlich die geglätteten Schätzungen verwenden könnten, die in der Tat bessere Schätzungen der unbekannten Zustände sind, würde dies Ihnen nicht die Wahrscheinlichkeitsfunktion geben. In der Tat würden Sie den beobachteten Wert von verwenden $y_i$ den eigenen erwarteten Wert zu schätzen, so dass es wahrscheinlich ist, dass dies zu einer gewissen Verzerrung der resultierenden Schätzungen führen würde.

Jarle Tufto
quelle

0

Ich denke, eine bessere Antwort auf die Frage, warum die Glättungsverteilung (normalerweise) nicht verwendet wird, ist die Effizienz. Grundsätzlich ist es unkompliziert, die (Glättungs-) Grenzwahrscheinlichkeit in einem ausgelassenen Sinne wie folgt zu berechnen. Beobachtung j löschen, Kalman mit den verbleibenden Daten glatter laufen lassen. Bewerten Sie dann die Wahrscheinlichkeit des unsichtbaren y (j). Wiederholen Sie dies für alle j. Fassen Sie die Log-Wahrscheinlichkeiten zusammen. Schnellere Versionen davon funktionieren mit (randomisierten) Blöcken von herausgehaltenen Samples (wie k-fach CV). Beachten Sie, dass dieses Schema eine allgemeinere Implementierung des Kalman-Filters / Glätters erfordert, der bei Bedarf willkürlich Messungsaktualisierungen überspringen kann. Der Rückwärts- / Glättungsdurchlauf greift nicht auf die Messungen zu (ohnehin RTS-Algorithmus) und bleibt gleich.

Wenn die Zeitreihe "lang genug" ist, ist dies wahrscheinlich wenig nützlich, da die Filterwahrscheinlichkeit ihren anfänglichen Übergang "abbrennt". Wenn der Datensatz jedoch kurz ist, kann sich die teurere Glättungswahrscheinlichkeit lohnen. Ein Glatter mit fester Verzögerung könnte eine Zwischenlösung sein.

Dreipolz
quelle

Warum wird die Wahrscheinlichkeit im Kalman-Filter anhand von Filterergebnissen anstelle glatterer Ergebnisse berechnet?

Antworten:

Verwenden der Kalman-Rekursionen

Verwenden des EM-Algorithmus

Andere Dinge