Ist die optimale Politik immer stochastisch, wenn die Umgebung auch stochastisch ist?

Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist? Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der...