Unterschied zwischen Bayes'schen Netzwerken und Markov-Prozess?

28

Was ist der Unterschied zwischen einem Bayes'schen Netzwerk und einem Markov-Prozess?

Ich glaubte, die Prinzipien von beiden verstanden zu haben, aber jetzt, wo ich die beiden vergleichen muss, fühle ich mich verloren. Sie bedeuten mir fast dasselbe. Sicher sind sie nicht.

Links zu anderen Ressourcen sind ebenfalls willkommen.

bayesian references modeling markov-process bayesian-network Rockstar
quelle

Ich erinnere mich, dass mir auf dieser Site jemand gesagt hat, dass Bayes'sche Netzwerke nicht unbedingt Bayes'schen Rückschluss erfordern. Ihre Namen stammen aus der Bayes-Regel.

Tim

21

Ein probabilistisches graphisches Modell (PGM) ist ein Graphformalismus zur kompakten Modellierung gemeinsamer Wahrscheinlichkeitsverteilungen und (In-) Abhängigkeitsrelationen über eine Reihe von Zufallsvariablen. Ein PGM wird als Bayes'sches Netzwerk bezeichnet, wenn der zugrunde liegende Graph gerichtet ist, und als Markov-Netzwerk / Markov-Zufallsfeldwenn das zugrunde liegende Diagramm ungerichtet ist. Im Allgemeinen verwenden Sie erstere, um den probabilistischen Einfluss zwischen Variablen mit eindeutiger Richtwirkung zu modellieren, andernfalls verwenden Sie letztere. In beiden PGM-Versionen stellen die fehlenden Kanten in den zugehörigen Diagrammen bedingte Unabhängigkeit in den codierten Verteilungen dar, obwohl sich deren genaue Semantik unterscheidet. Das "Markov" in "Markov-Netzwerk" bezieht sich auf einen allgemeinen Begriff der bedingten Unabhängigkeit, der von PGMs codiert wird, wobei der Begriff einer Menge von Zufallsvariablen $x_A$ unabhängig von anderen $x_C$ wenn eine Menge von "wichtigen" Variablen $x_B$ (der technische Name) gegeben ist ist eine Markov-Decke ), dh $p(x_A|x_B, x_C) = p(x_A|x_B)$ .

Ein Markov-Prozess ist ein beliebiger stochastischer Prozess $\{X_{t}\}$ , der die Markov-Eigenschaft erfüllt . Hier liegt der Schwerpunkt auf einer Sammlung von (Skalare) Zufallsvariablen $X_1, X_2, X_3, ...$ wird typischerweise als zeitindiziert angesehen, was eine bestimmte Art von bedingter Unabhängigkeit erfüllt, dh "die Zukunft ist unabhängig von der Vergangenheit angesichts der Gegenwart", grob gesagt $p(x_{t+1}|x_t, x_{t-1}, ..., x_1) = p(x_{t+1}|x_t)$ . Dies ist ein Sonderfall des von PGMs definierten Markov-Begriffs: Nimm einfach die Menge $A=\{t+1\}, B=\{t\}$ und nimm $C$ als eine beliebige Teilmenge von $\{t-1, t-2, ..., 1\}$ und invoke der vorherigen Anweisung $p(x_A|x_B, x_C) = p(x_A|x_B)$ . Daraus sehen wir, dass die Markov-Decke einer Variablen $X_{t+1}$ ihre Vorgängerin $X_t$ .

Daher können Sie einen Markov-Prozess mit einem Bayes'schen Netzwerk als eine durch die Zeit indizierte lineare Kette darstellen (der Einfachheit halber betrachten wir hier nur den Fall einer diskreten Zeit / eines diskreten Zustands; Bild aus Bishops PRML-Buch): Diese Art von Bayes'schem Netzwerk ist bekannt als dynamisches Bayes'sches Netzwerk . Da es sich um ein Bayes'sches Netzwerk handelt (daher um ein PGM), können Standard-PGM-Algorithmen für probabilistische Inferenz (wie der Summenproduktalgorithmus, für den die Chapman-Kolmogorov-Gleichungen einen Sonderfall darstellen) und Parameterschätzung (z. B. maximale Wahrscheinlichkeit, die siedet) angewendet werden bis zum einfachen Zählen) über die Kette. Beispielanwendungen hierfür sind das HMM- und das n-Gramm-Sprachmodell.

Oft sieht man eine Diagrammdarstellung einer Markov-Kette wie diese

$p(X_t|X_{t-1})$ $X_t$ $(X_t^{(1)},...X_t^{(D)})$ $p(X_t^{(1)},...X_t^{(D)}|X_{t-1}^{(1)},...X_{t-1}^{(D)})$

$X_t$ $t \to \infty$ $p(x_{t+1}|x_t, x_{t-1}, ..., x_1) = p(x_{t+1}|x_t)$

Yibo Yang
quelle

17

Zunächst ein paar Worte zu Markov-Prozessen. Es gibt vier verschiedene Arten dieser Bestie, abhängig vom Zustandsraum (diskret / kontinuierlich) und der Zeitvariablen (diskret / kontinuierlich). Die Grundidee eines jeden Markov-Prozesses ist, dass "angesichts der Gegenwart die Zukunft unabhängig von der Vergangenheit ist".

Der einfachste Markov-Prozess ist der diskrete und endliche Raum und die zeitdiskrete Markov-Kette. Sie können es als eine Reihe von Knoten mit gerichteten Kanten zwischen diesen visualisieren. Der Graph kann Zyklen und sogar Schleifen aufweisen. Auf jede Kante können Sie eine Zahl zwischen 0 und 1 so schreiben, dass sich für jeden Knoten die Zahlen der Kanten, die von diesem Knoten ausgehen, zu 1 addieren.

Stellen Sie sich nun einen folgenden Vorgang vor: Sie beginnen in einem bestimmten Zustand A. Jede Sekunde wählen Sie zufällig eine ausgehende Kante aus dem Zustand, in dem Sie sich gerade befinden, mit der Wahrscheinlichkeit, dass diese Kante der Zahl auf dieser Kante entspricht. Auf diese Weise erzeugen Sie zufällig eine Folge von Zuständen.

Eine sehr coole Visualisierung eines solchen Prozesses finden Sie hier: http://setosa.io/blog/2014/07/26/markov-chains/

Die Nachricht zum Mitnehmen ist, dass eine grafische Darstellung eines diskreten zeitdiskreten Markov-Prozesses ein allgemeiner Graph ist, der eine Verteilung auf Sequenzen von Knoten des Graphen darstellt (bei gegebenem Startknoten oder einer Startverteilung auf Knoten).

Andererseits ist ein Bayes'sches Netzwerk eine DAG ( Directed Acyclic Graph ), die eine Faktorisierung einer gemeinsamen Wahrscheinlichkeitsverteilung darstellt. Normalerweise versucht diese Darstellung, die bedingte Unabhängigkeit zwischen einigen Variablen zu berücksichtigen, um das Diagramm zu vereinfachen und die Anzahl der zur Schätzung der gemeinsamen Wahrscheinlichkeitsverteilung erforderlichen Parameter zu verringern.

sjm.majewski
quelle

3

Während ich nach einer Antwort auf dieselbe Frage suchte, stieß ich auf diese Antworten. Aber keiner von ihnen klärt das Thema. Als ich einige gute Erklärungen fand, wollte ich sie mit Leuten teilen, die so dachten wie ich.

In Buch "Probabilistisches Denken in intelligenten Systemen: Netzwerke plausibler Folgerungen", geschrieben von Judea Pearl, Kapitel 3: Markov- und Bayes'sche Netzwerke: Zwei grafische Darstellungen von probabilistischem Wissen, S.116:

Die Hauptschwäche von Markov-Netzwerken ist ihre Unfähigkeit, induzierte und nicht-transitive Abhängigkeiten darzustellen. Zwei unabhängige Variablen werden direkt durch eine Kante verbunden, nur weil eine andere Variable von beiden abhängt. Infolgedessen werden viele nützliche Abhängigkeiten im Netzwerk nicht dargestellt. Um diesen Mangel zu überwinden, verwenden Bayes'sche Netzwerke die reichhaltigere Sprache gerichteter Graphen, wobei die Pfeilrichtungen es ermöglichen, echte Abhängigkeiten von unechten Abhängigkeiten zu unterscheiden, die durch hypothetische Beobachtungen hervorgerufen werden.

Vezir
quelle

1

Ein Markov-Prozess ist ein stochastischer Prozess mit der Markovian-Eigenschaft (wenn der Index der Zeitpunkt ist, ist die Markovian-Eigenschaft eine besondere bedingte Unabhängigkeit, die besagt, dass gegebene Gegenwart, Vergangenheit und Zukunft unabhängig sind.)

Ein Bayes'sches Netzwerk ist ein gerichtetes grafisches Modell. (Ein Markov-Zufallsfeld ist ein ungerichtetes grafisches Modell.) Ein grafisches Modell erfasst die bedingte Unabhängigkeit, die sich von der Markovian-Eigenschaft unterscheiden kann.

Ich bin mit grafischen Modellen nicht vertraut, aber ich denke, ein grafisches Modell kann als stochastischer Prozess angesehen werden.

Tim
quelle

1

-Die allgemeine Idee eines Markov-Prozesses ist, dass "angesichts der Gegenwart die Zukunft unabhängig von der Vergangenheit ist".

-Die allgemeine Idee einer Bayes'schen Methode ist, dass "vorausgesetzt, die Zukunft ist unabhängig von der Vergangenheit", ihre Parameter, sofern sie durch Beobachtungen indiziert werden, einem Markov-Prozess folgen

PLUS

msgstr "" "Alle folgenden Punkte werden gleich sein, wenn ich meine Überzeugungen aktualisiere

Sie geben mir neue Informationen A, dann geben Sie mir neue Informationen B,
Sie geben mir neue Informationen B, dann neue Informationen A
du gibst mir A und B zusammen "

Seine Parameter werden also wirklich ein Markov-Prozess sein, der nach Zeit und nicht nach Beobachtungen indiziert ist

nicolas
quelle

Unterschied zwischen Bayes'schen Netzwerken und Markov-Prozess?

Antworten: