Ein markovianischer Entscheidungsprozess hat in der Tat mit dem Übergang von einem Staat in einen anderen zu tun und wird hauptsächlich für die Planung und Entscheidungsfindung verwendet .
Die Theorie
Nur die Theorie schnell zu wiederholen, ist ein MDP:
MDP = ⟨ S, A , T, R , γ⟩
SEINTPr(s′|s,a)Rγ
Um es nutzen zu können, müssen Sie Folgendes vordefiniert haben:
- Zustände : Diese können sich zum Beispiel auf Grid Maps in der Robotik beziehen , oder zum Beispiel auf Tür offen und Tür geschlossen .
- Aktionen : Ein fester Satz von Aktionen, z. B. für einen Roboter nach Norden, Süden, Osten usw. oder zum Öffnen und Schließen einer Tür.
- Übergangswahrscheinlichkeiten : Die Wahrscheinlichkeit, bei einer bestimmten Aktion von einem Zustand in einen anderen überzugehen. Zum Beispiel, was die Wahrscheinlichkeit einer offenen Tür , wenn die Aktion ist offen . In einer perfekten Welt könnte die spätere Version 1.0 sein, aber wenn es sich um einen Roboter handelt, könnte es fehlgeschlagen sein, den Türknauf richtig zu handhaben. Ein anderes Beispiel im Fall eines sich bewegenden Roboters wäre die Aktion nach Norden , die ihn in den meisten Fällen in die Gitterzelle nördlich davon bringen würde, sich aber in einigen Fällen zu weit bewegen und beispielsweise die nächste Zelle erreichen könnte.
- Belohnungen : Diese dienen als Planungshilfe. Im Fall des Gitterbeispiels möchten wir vielleicht zu einer bestimmten Zelle gehen, und die Belohnung wird höher sein, wenn wir näher kommen. Im Fall des Türbeispiels kann eine offene Tür eine hohe Belohnung bieten.
Sobald der MDP definiert ist, kann eine Richtlinie durch Durchführen einer Wert- oder Richtlinieniteration gelernt werden, die die erwartete Belohnung für jeden Status berechnet. Die Richtlinie gibt dann pro Bundesstaat die beste Aktion (unter Berücksichtigung des MDP-Modells) an.
Zusammenfassend ist ein MDP hilfreich, wenn Sie eine effiziente Abfolge von Aktionen planen möchten, bei der Ihre Aktionen nicht immer zu 100% wirksam sein können.
Deine Fragen
Kann man damit Dinge vorhersagen?
Ich würde es Planung nennen und nicht etwa Regression vorhersagen .
Wenn ja, welche Arten von Dingen?
Siehe Beispiele .
Kann es Muster unter unendlichen Datenmengen finden?
|S|
Was kann dieser Algorithmus für mich tun?
Siehe Beispiele .
Anwendungsbeispiele für MDPs
- White, DJ (1993) erwähnt eine große Liste von Anwendungen:
- Ernte: Wie viel Mitglieder einer Population müssen für die Zucht übrig bleiben?
- Landwirtschaft: Wie viel gepflanzt werden soll, hängt vom Wetter und dem Bodenzustand ab.
- Wasserressourcen: Achten Sie bei Stauseen auf den korrekten Wasserstand.
- Inspektion, Wartung und Reparatur: Zeitpunkt des Austauschs / der Inspektion nach Alter, Zustand usw.
- Einkauf und Produktion: Wie viel soll je nach Bedarf produziert werden?
- Warteschlangen: Wartezeiten verkürzen.
- ...
- Finanzen: Entscheiden, wie viel in Aktien investiert werden soll.
- Robotik:
Und es gibt noch einige andere Modelle. Ein noch interessanteres Modell ist der partiell beobachtbare Markovsche Entscheidungsprozess, bei dem Zustände nicht vollständig sichtbar sind und stattdessen Beobachtungen verwendet werden, um eine Vorstellung vom aktuellen Zustand zu erhalten, was jedoch nicht in den Rahmen dieser Frage fällt.
zusätzliche Information
Ein stochastischer Prozess ist Markovian (oder hat die Markov-Eigenschaft), wenn die bedingte Wahrscheinlichkeitsverteilung zukünftiger Zustände nur vom aktuellen Zustand und nicht von vorherigen Zuständen abhängt (dh nicht von einer Liste vorheriger Zustände).
states
,actions
,transition probabilities
undrewards
definiert als Markow bezeichnet werden würde?