Wie kommen Wissenschaftler auf die richtigen Parameter und Topologien des Hidden Markov-Modells?

10

Ich verstehe, wie ein Hidden-Markov-Modell in genomischen Sequenzen verwendet wird, beispielsweise beim Auffinden eines Gens. Aber ich verstehe nicht, wie ich ein bestimmtes Markov-Modell entwickeln soll. Ich meine, wie viele Staaten sollte das Modell haben? Wie viele mögliche Übergänge? Sollte das Modell eine Schleife haben?

Wie würden sie wissen, dass ihr Modell optimal ist?

Stellen sie sich vor, sagen wir 10 verschiedene Modelle, vergleichen diese 10 Modelle und veröffentlichen das beste?

Hallo Welt
quelle

Antworten:

6

Ich kenne drei Hauptansätze:

  1. A priori. Möglicherweise wissen Sie, dass vier Basenpaare zur Auswahl stehen, sodass das HMM vier Zustände haben kann. Oder Sie wissen vielleicht, dass Englisch 44 Phoneme hat und somit 44 Zustände für die verborgene Phonemschicht in einem Spracherkennungsmodell.

  2. Einschätzung. Die Anzahl der Zustände kann oft im Voraus geschätzt werden, möglicherweise durch einfaches Clustering der beobachteten Merkmale des HMM. Wenn die HMM-Übergangsmatrix dreieckig ist (was bei der Fehlervorhersage häufig der Fall ist), bestimmt die Anzahl der Zustände die Form der Verteilung der Gesamtzeit vom Startzustand bis zum Endzustand.

  3. Optimierung. Wie Sie vorschlagen, werden entweder viele Modelle erstellt und passen und das beste Modell ausgewählt. Man könnte auch die Methodik anpassen, mit der das HMM erlernt wird, damit das Modell nach Bedarf Zustände hinzufügen oder verwerfen kann.

Matthew Graves
quelle
1

Ein weiterer Ansatz besteht darin, Modelle mit einer zählbar unendlichen Anzahl von Zuständen zu untersuchen. Die Antwort auf "wie viele" würde sich dann durch Mittelung über die Sampler ergeben.

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

Vermutungen
quelle