Versteckte Zustandsmodelle vs. staatenlose Modelle für die Zeitreihenregression

8

Dies ist eine recht allgemeine Frage: Angenommen, ich möchte ein Modell erstellen, um die nächste Beobachtung basierend auf den vorherigen Beobachtungen vorherzusagen ( kann ein Parameter zur experimentellen Optimierung sein). Wir haben also im Grunde ein Schiebefenster mit Eingabemerkmalen, um die nächste Beobachtung vorherzusagen.N.NN

Ich kann einen Hidden-Markov-Modell-Ansatz verwenden, dh Baum-Welch, um ein Modell zu schätzen, dann Viterbi, um einen aktuellen Zustand basierend auf den letzten Beobachtungen vorherzusagen, dann den wahrscheinlichsten nächsten Zustand basierend auf dem aktuellen Zustand vorherzusagen und dann den nächsten vorherzusagen Beobachtung unter Verwendung des wahrscheinlichsten nächsten Zustands und der HMM-Parameter (oder Varianten wie das Finden der prädiktiven Verteilung der nächsten Beobachtung).N

Oder ich kann einen viel einfacheren Ansatz verwenden, indem ich ein zustandsloses Modell verwende (das als Eingabe die vorherigen Beobachtungen erhalten kann), z. B. SVM, lineare Regression, Splines, Regressionsbäume, nächste Nachbarn usw. Solche Modelle basieren auf der Minimierung einiger Vorhersagefehler über den Trainingssatz und sind daher konzeptionell viel einfacher als ein auf verborgenen Zuständen basierendes Modell.N

Kann jemand seine / ihre Erfahrungen im Umgang mit einer solchen Modellierungsentscheidung teilen? Was würde für das HMM sprechen und was für einen Regressionsansatz? Intuitiv sollte man das einfachere Modell wählen, um eine Überanpassung zu vermeiden. Dies spricht für einen zustandslosen Ansatz ... Wir müssen auch berücksichtigen, dass beide Ansätze die gleichen Eingabedaten für das Training erhalten (ich denke, dies impliziert, dass, wenn wir kein zusätzliches Domänenwissen in die Modellierung eines Hidden-State-Modells einbeziehen, z Wenn Sie bestimmte Zustände und Übergangswahrscheinlichkeiten festlegen, gibt es keinen Grund, warum ein Modell mit versteckten Zuständen eine bessere Leistung erzielen sollte. Am Ende kann man natürlich mit beiden Ansätzen spielen und sehen, was bei einem Validierungssatz besser abschneidet, aber einige Heuristiken, die auf praktischen Erfahrungen basieren, könnten auch hilfreich sein ...

Hinweis: Für mich ist es wichtig, nur bestimmte Ereignisse vorherzusagen. Ich bevorzuge ein Modell, das wenige "interessante / seltene" Ereignisse gut vorhersagt, anstatt ein Modell, das "durchschnittliche / häufige" Ereignisse vorhersagt, aber die interessanten nicht so gut. Vielleicht hat dies Auswirkungen auf die Wahl der Modellierung. Vielen Dank.

Mannaggia
quelle
Können Sie klarstellen, warum Sie glauben, dass Regressionsmodelle notwendigerweise zustandslos sind ? Dynamische lineare Regressionsmodelle (in denen frühere Werte des Prädiktanden auf der rechten Seite der Modellgleichung enthalten sind) scheinen sehr zustandskonditioniert zu sein . Aber vielleicht fehlt mir etwas.
Alexis
Vielen Dank für das Lesen der Frage. Ich würde sagen, es ist ein bisschen eine Frage der Semantik. Ich gebe auch ein Beispiel für Regressionsmodelle, die die n-vergangenen Beobachtungswerte auf der rechten Seite des Modells enthalten. Ein solches Modell ist natürlich dynamisch. Ich bezog mich jedoch eher auf das Konzept einer verborgenen / latenten Variablen, für die normalerweise EM-Techniken verwendet werden, um das Modell zu finden, im Vergleich zu Modellen, für die wir keine solchen verborgenen Zustände haben (dh die Zustände sind beobachtbar, sie sind die Beobachtungen). Kann man aus praktischer und pragmatischer Sicht sagen, was wann besser funktioniert?
Mannaggia
Ich habe die Tatsache übersehen, dass Sie vergangene Werte der Vorhersage als Eingaben bezeichnen. Sind solche Modelle das Äquivalent eines Hidden-State-Modells (im Prinzip würden sie nur mehr als N Beobachtungen enthalten und die Gleichung für die vergangenen Vorhersagen ersetzen)? Die Frage ist mehr, ob wir den Zustand beobachten und modellieren oder ob wir den Zustand unter der Annahme des Modells ableiten. Ich interessiere mich jedoch mehr für den praktischen Aspekt, nicht für den mathematischen. Dh ist es möglich zu sagen, unter welchen Bedingungen der eine oder andere Ansatz besser funktioniert? (Ich denke, kein Satz kann eine Antwort auf diese Frage geben)
Mannaggia
1
Vielleicht ist diese frühere Frage die Hälfte der hier gestellten Frage.
Meadowlark Bradsher

Antworten:

1

Kurz gesagt, ich denke, sie arbeiten in einem anderen Lernparadigma.

Das State-Space-Modell (Hidden-State-Modell) und ein anderes von Ihnen erwähntes zustandsloses Modell werden die zugrunde liegende Beziehung Ihrer Zeitreihen in verschiedenen Lernparadigmen entdecken: (1) Maximum-Likelihood-Schätzung, (2) Bayes-Inferenz, (3) empirisch Risikominimierung.

Im Zustandsraummodell

Sei als versteckter Zustand, als Observable, ( , es gibt keine Kontrolle)y t t > 0xtytt>0

Sie nehmen die folgende Beziehung für das Modell an:

P(x0) als Prior

t 1P(xt|xt1) für als Änderung Ihres Zustands (in HMM ist es eine Übergangsmatrix)t1

t 1 x tP(yt|xt) für als Beobachtung (in HMM können es Normalverteilungen sein, die von abhängig sind ).t1xt

und hängt nur von .x tytxt

Wenn Sie Baum-Welch zum Schätzen der Parameter verwenden, suchen Sie tatsächlich nach einer Maximum-Likelihood-Schätzung des HMM. Wenn Sie den Kalman-Filter verwenden, lösen Sie einen Sonderfall des Bayes'schen Filterproblems (bei dem es sich tatsächlich um eine Anwendung des Bayes'schen Theorems im Aktualisierungsschritt handelt):

Vorhersageschritt:

P(xt|y1:t1)=P(xt|xt1)P(xt1|y1:t1)dxt1

Aktualisierungsschritt:

P(xt|y1:t)=P(yt|xt)P(xt|y1:t1)P(yt|xt)P(xt|y1:t1)dxt

Da wir im Kalman-Filter annehmen, dass die Rauschstatistik Gaußsch ist und die Beziehung von und linear ist. Daher können Sie und einfach als (Mittelwert + Varianz ist für die Normalverteilung ausreichend) schreiben und der Algorithmus arbeitet als Matrixformeln .P(xt|xt1)P(yt|xt)P(xt|y1:t1)P(xt|y1:t)xt

Auf der anderen Seite, für andere von Ihnen erwähnte zustandslose Modelle, wie SVM, Splines, Regressionsbäume, nächste Nachbarn. Sie versuchen, die zugrunde liegende Beziehung von durch empirische Risikominimierung zu ermitteln.({y0,y1,...,yt1},yt)

Für die Maximum-Likelihood-Schätzung müssen Sie zuerst die zugrunde liegende Wahrscheinlichkeitsverteilung parametrisieren (wie bei HMM haben Sie die Übergangsmatrix, die beobachtbaren sind für einige ).j(μj,σj)j

Für die Anwendung des Bayes-Theorems muss a priori zuerst in dem Sinne "korrigiert" werden, dass . Wenn , führt jede Folgerung zu da .P ( A ) 0 P ( A ) = 0 0 P ( A | B ) = P ( B | A ) P ( A )P(A)P(A)0P(A)=00P(A|B)=P(B|A)P(A)P(B)

Für die empirische Risikominimierung ist eine universelle Konsistenz für jede zugrunde liegende Wahrscheinlichkeitsverteilung garantiert, wenn die VC-Dimension der Lernregel nicht zu schnell wächst, wenn die Anzahl der verfügbaren Datenn

wonghang
quelle