Dies ist eine recht allgemeine Frage: Angenommen, ich möchte ein Modell erstellen, um die nächste Beobachtung basierend auf den vorherigen Beobachtungen vorherzusagen ( kann ein Parameter zur experimentellen Optimierung sein). Wir haben also im Grunde ein Schiebefenster mit Eingabemerkmalen, um die nächste Beobachtung vorherzusagen.N.
Ich kann einen Hidden-Markov-Modell-Ansatz verwenden, dh Baum-Welch, um ein Modell zu schätzen, dann Viterbi, um einen aktuellen Zustand basierend auf den letzten Beobachtungen vorherzusagen, dann den wahrscheinlichsten nächsten Zustand basierend auf dem aktuellen Zustand vorherzusagen und dann den nächsten vorherzusagen Beobachtung unter Verwendung des wahrscheinlichsten nächsten Zustands und der HMM-Parameter (oder Varianten wie das Finden der prädiktiven Verteilung der nächsten Beobachtung).
Oder ich kann einen viel einfacheren Ansatz verwenden, indem ich ein zustandsloses Modell verwende (das als Eingabe die vorherigen Beobachtungen erhalten kann), z. B. SVM, lineare Regression, Splines, Regressionsbäume, nächste Nachbarn usw. Solche Modelle basieren auf der Minimierung einiger Vorhersagefehler über den Trainingssatz und sind daher konzeptionell viel einfacher als ein auf verborgenen Zuständen basierendes Modell.
Kann jemand seine / ihre Erfahrungen im Umgang mit einer solchen Modellierungsentscheidung teilen? Was würde für das HMM sprechen und was für einen Regressionsansatz? Intuitiv sollte man das einfachere Modell wählen, um eine Überanpassung zu vermeiden. Dies spricht für einen zustandslosen Ansatz ... Wir müssen auch berücksichtigen, dass beide Ansätze die gleichen Eingabedaten für das Training erhalten (ich denke, dies impliziert, dass, wenn wir kein zusätzliches Domänenwissen in die Modellierung eines Hidden-State-Modells einbeziehen, z Wenn Sie bestimmte Zustände und Übergangswahrscheinlichkeiten festlegen, gibt es keinen Grund, warum ein Modell mit versteckten Zuständen eine bessere Leistung erzielen sollte. Am Ende kann man natürlich mit beiden Ansätzen spielen und sehen, was bei einem Validierungssatz besser abschneidet, aber einige Heuristiken, die auf praktischen Erfahrungen basieren, könnten auch hilfreich sein ...
Hinweis: Für mich ist es wichtig, nur bestimmte Ereignisse vorherzusagen. Ich bevorzuge ein Modell, das wenige "interessante / seltene" Ereignisse gut vorhersagt, anstatt ein Modell, das "durchschnittliche / häufige" Ereignisse vorhersagt, aber die interessanten nicht so gut. Vielleicht hat dies Auswirkungen auf die Wahl der Modellierung. Vielen Dank.
Antworten:
Kurz gesagt, ich denke, sie arbeiten in einem anderen Lernparadigma.
Das State-Space-Modell (Hidden-State-Modell) und ein anderes von Ihnen erwähntes zustandsloses Modell werden die zugrunde liegende Beziehung Ihrer Zeitreihen in verschiedenen Lernparadigmen entdecken: (1) Maximum-Likelihood-Schätzung, (2) Bayes-Inferenz, (3) empirisch Risikominimierung.
Im Zustandsraummodell
Sei als versteckter Zustand, als Observable, ( , es gibt keine Kontrolle)y t t > 0xt yt t > 0
Sie nehmen die folgende Beziehung für das Modell an:
t ≥ 1P.( xt| xt - 1) für als Änderung Ihres Zustands (in HMM ist es eine Übergangsmatrix)t ≥ 1
t ≥ 1 x tP.( yt| xt) für als Beobachtung (in HMM können es Normalverteilungen sein, die von abhängig sind ).t ≥ 1 xt
und hängt nur von .x tyt xt
Wenn Sie Baum-Welch zum Schätzen der Parameter verwenden, suchen Sie tatsächlich nach einer Maximum-Likelihood-Schätzung des HMM. Wenn Sie den Kalman-Filter verwenden, lösen Sie einen Sonderfall des Bayes'schen Filterproblems (bei dem es sich tatsächlich um eine Anwendung des Bayes'schen Theorems im Aktualisierungsschritt handelt):
Vorhersageschritt:
Aktualisierungsschritt:
Da wir im Kalman-Filter annehmen, dass die Rauschstatistik Gaußsch ist und die Beziehung von und linear ist. Daher können Sie und einfach als (Mittelwert + Varianz ist für die Normalverteilung ausreichend) schreiben und der Algorithmus arbeitet als Matrixformeln .P.( xt| xt - 1) P.( yt| xt) P.( xt| y1 : t - 1) P.( xt| y1 : t) xt
Auf der anderen Seite, für andere von Ihnen erwähnte zustandslose Modelle, wie SVM, Splines, Regressionsbäume, nächste Nachbarn. Sie versuchen, die zugrunde liegende Beziehung von durch empirische Risikominimierung zu ermitteln.( { y0, y1, . . . , yt - 1} , yt)
Für die Maximum-Likelihood-Schätzung müssen Sie zuerst die zugrunde liegende Wahrscheinlichkeitsverteilung parametrisieren (wie bei HMM haben Sie die Übergangsmatrix, die beobachtbaren sind für einige ).j( μj, σj) j
Für die Anwendung des Bayes-Theorems muss a priori zuerst in dem Sinne "korrigiert" werden, dass . Wenn , führt jede Folgerung zu da .P ( A ) ≤ 0 P ( A ) = 0 0 P ( A | B ) = P ( B | A ) P ( A )P.( A ) P.( A ) ≠ 0 P.( A ) = 0 0 P.( A | B ) = P.( B | A ) P.( A )P.( B )
Für die empirische Risikominimierung ist eine universelle Konsistenz für jede zugrunde liegende Wahrscheinlichkeitsverteilung garantiert, wenn die VC-Dimension der Lernregel nicht zu schnell wächst, wenn die Anzahl der verfügbaren Datenn→∞
quelle