Während ich im Physikunterricht tatsächlich einige Programmierungen mit Boltzmann-Maschinen durchgeführt habe, bin ich mit deren theoretischer Charakterisierung nicht vertraut. Im Gegensatz dazu kenne ich eine bescheidene Menge über die Theorie der grafischen Modelle (über die ersten Kapitel von Lauritzens Buch Graphical Models ).
Frage: Gibt es eine sinnvolle Beziehung zwischen grafischen Modellen und der Boltzmann-Maschine? Ist die Boltzmann-Maschine eine Art grafisches Modell?
Offensichtlich ist die Boltzmann-Maschine eine Art neuronales Netzwerk. Ich habe gehört, dass einige neuronale Netze mathematisch mit grafischen Modellen verwandt sind und andere nicht.
Verwandte Fragen zu CrossValidated, die meine Frage nicht beantworten:
Dies ähnelt einer früheren Frage, die zuvor gestellt wurde: Wie ist die Beziehung zwischen hierarchischen Modellen, neuronalen Netzen, grafischen Modellen, Bayes'schen Netzen? ist aber spezifischer.
Darüber hinaus verdeutlicht die akzeptierte Antwort auf diese Frage meine Verwirrung nicht - selbst wenn die Knoten in der grafischen Standarddarstellung eines neuronalen Netzwerks keine Zufallsvariablen darstellen, bedeutet dies nicht unbedingt, dass keine solche Darstellung existiert. Insbesondere denke ich darüber nach, wie die Knoten in der typischen grafischen Darstellung von Markov-Ketten die Menge möglicher Zustände und nicht die Zufallsvariablen , aber man könnte auch einen Graphen erstellen, der die bedingten Abhängigkeitsbeziehungen zwischenX i, was zeigt, dass jede Markov-Kette tatsächlich ein Markov-Zufallsfeld ist. Die Antwort besagt auch, dass neuronale Netze (vermutlich einschließlich Boltzmann-Maschinen) "diskriminierend" sind, aber nicht näher darauf eingehen, um zu erklären, was diese Behauptung bedeutet, und auch nicht die offensichtliche Folgefrage "Sind grafische Modelle nicht diskriminierend?" angesprochen. Ebenso enthält die akzeptierte Antwort Links zu Kevin Murphys Website (ich habe tatsächlich einige seiner Doktorarbeiten gelesen, als ich etwas über Bayes'sche Netze erfuhr), aber diese Website behandelt nur Bayes'sche Netze und erwähnt überhaupt keine neuronalen Netze - daher wird nicht beleuchtet, wie sie sind sind anders.
Diese andere Frage ist meiner wahrscheinlich am ähnlichsten: Mathematische Modellierung neuronaler Netze als grafische Modelle Allerdings wurde keine der Antworten akzeptiert und gibt ebenfalls nur Referenzen an, erklärt aber nicht die Referenzen (z . B. diese Antwort ). Während ich eines Tages hoffentlich in der Lage sein werde, die Referenzen zu verstehen, bin ich jetzt auf einem grundlegenden Wissensstand und würde mich über eine Antwort freuen, die so einfach wie möglich ist. Auch der Kurs in Toronto, auf den in der Top-Antwort ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) verwiesen wird, spricht dies an, jedoch nicht sehr detailliert. Darüber hinaus sind die Notizen für die eine Vorlesung, die meine Frage beantworten könnte, nicht öffentlich zugänglich.
25. März Vorlesung 13b: Glaubensnetze 7:43. Beachten Sie bei dieser Folie die Boltzmann-Maschinen. Auch dort haben wir versteckte und sichtbare Einheiten, und alles ist probabilistisch. BMs und SBNs haben mehr gemeinsam als Unterschiede. 9:16. Heutzutage werden "grafische Modelle" manchmal als eine spezielle Kategorie neuronaler Netze angesehen, aber in der hier beschriebenen Geschichte wurden sie als sehr unterschiedliche Arten von Systemen angesehen.
Dies bestätigt / bestätigt nur die akzeptierte Antwort, dass Boltzmann-Maschinen tatsächlich ein Sonderfall des grafischen Modells sind. Insbesondere wird diese Frage auf den Seiten 127-127 von Koller, Friedman, Probabilistic Graphical Models: Principles and Techniques , in Box 4.C.
Wie das Ising-Modell, ursprünglich ein Konzept aus der statistischen Mechanikliteratur, als grafisches Modell formuliert werden kann, wird in Beispiel 3.1, Abschnitt 3.3, auf den Seiten 41-43 von Wainwright, Jordan, Graphical Models, Exponential, ausführlich beschrieben Familien und Variationsinferenz .
Anscheinend war das Ising-Modell maßgeblich an der Gründung des Feldes der grafischen Modelle in den späten 1970er und frühen 1980er Jahren beteiligt, zumindest basierend auf den Aussagen von Steffen Lauritzen sowohl im Vorwort als auch in der Einleitung zu seinem Buch Graphical Models . Diese Interpretation scheint auch in Abschnitt 4.8 des oben zitierten Buches von Koller und Friedman unterstützt zu werden.
Die Entwicklung von Boltzmann-Maschinen nach dem Ising-Modell könnte ein eigenständiges Ereignis gewesen sein, das ebenfalls auf demselben Abschnitt von Koller und Friedman basiert, der behauptet, dass "Boltzmann-Maschinen zuerst von Hinton und Sejnowski (1983) vorgeschlagen wurden", was zu sein scheint trat nach den ersten Arbeiten zur Entwicklung von Markov-Zufallsfeldern als Verallgemeinerungen des Ising-Modells auf, obwohl die Arbeiten hinter diesem Papier viel früher als 1983 hätten beginnen können.
Meine Verwirrung in Bezug auf diese Beziehung, als ich diese Frage vor mehr als einem Jahr schrieb, resultierte aus der Tatsache, dass ich in der Physikliteratur zum ersten Mal sowohl auf das Ising-Modell als auch auf das Boltzmann-Maschinenmodell für Neuronen gestoßen bin. Wie Koller und Friedman erwähnen, ist die Literatur innerhalb der statistischen Physik über das Ising-Modell und verwandte Begriffe wirklich umfangreich.
Nach meiner Erfahrung ist es auch ziemlich insular, in dem Sinne, dass während Statistiker und Informatiker, die grafische Modelle studieren, erwähnen werden, wie das Feld mit der statistischen Mechanik zusammenhängt, keine Referenz, die ich jemals aus der statistischen Physikliteratur gefunden habe, die Verbindungen zu anderen Feldern oder erwähnt versucht es auszunutzen. (Daher habe ich Zweifel und bin verwirrt über die Vorstellung, dass es solche Verbindungen zu anderen Bereichen geben könnte.)
Ein Beispiel für die Perspektive des Physikers sowohl auf das Ising-Modell als auch auf die Boltzmann-Maschine finden Sie im Lehrbuch des Kurses, in dem ich zum ersten Mal davon erfahren habe. Es werden auch mittlere Feldmethoden erwähnt, wenn ich mich richtig erinnere, etwas, das auch in dem oben zitierten Artikel von Jordan und Wainwright diskutiert wurde.
quelle