Mathematische Modellierung neuronaler Netze als grafische Modelle

11

Ich habe Mühe, die mathematische Verbindung zwischen einem neuronalen Netzwerk und einem grafischen Modell herzustellen.

In grafischen Modellen ist die Idee einfach: Die Wahrscheinlichkeitsverteilung wird gemäß den Cliquen in der Grafik faktorisiert, wobei die Potentiale normalerweise aus der Exponentialfamilie stammen.

Gibt es eine äquivalente Begründung für ein neuronales Netzwerk? Kann man die Wahrscheinlichkeitsverteilung über die Einheiten (Variablen) in einer Restricted Boltzmann-Maschine oder einem CNN als Funktion ihrer Energie oder das Produkt der Energien zwischen Einheiten ausdrücken?

Wird die Wahrscheinlichkeitsverteilung auch von einem RBM- oder Deep-Believe-Netzwerk (z. B. mit CNNs) der Exponentialfamilie modelliert?

Ich hoffe, einen Text zu finden, der die Verbindung zwischen diesen modernen Arten neuronaler Netze und Statistiken auf die gleiche Weise formalisiert, wie es Jordan & Wainwright für grafische Modelle mit ihren grafischen Modellen, Exponentialfamilien und Variationsinferenzen getan hat . Alle Hinweise wären toll.

Amelio Vazquez-Reina
quelle
1
IM (Hasser) O das Kernproblem hier ist, dass neuronale Netze nicht wirklich Netze sind; Sie haben praktisch eine feste Topologie und haben daher eine geringe Chance, Informationen darin zu speichern.
Hast du diesen letzten Beitrag gesehen ?
Jerad
@ Jerad Danke, ich hatte diesen Beitrag nicht gelesen. Meine Frage ist nicht so sehr, wie man diese Modelle kombiniert (z. B. wenn Yann sagt "using deep nets as factors in an MRF"), sondern vielmehr, wie man ein tiefes Netz als Wahrscheinlichkeitsfaktordiagramm betrachtet. Wenn Yann LeCun sagt "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", bin ich daran interessiert, diesen Zusammenhang mathematisch zu sehen.
Amelio Vazquez-Reina
@mbq, wir haben einige Formen der Speicherung von Informationen über Komponenten verborgener Schichten gesehen, z. B. https://distill.pub/2017/feature-visualization/( Wie neuronale Netze ihr Verständnis von Bildern aufbauen ), indem ein komplexes Bild Komponentenobjekte enthält, die durch Knoten versteckter Schichten dargestellt werden. Die Gewichte können die "Topologie" auf nicht diskrete Weise "verändern". Obwohl ich es nicht gesehen habe, könnten einige Methoden Schrumpfungsfaktoren enthalten, um Kanten zu entfernen und daher die ursprüngliche Topologie zu ändern
Vass

Antworten:

6

Eine weitere gute Einführung zu diesem Thema ist der CSC321- Kurs an der University of Toronto und der Neuralnets-2012-001- Kurs über Coursera, die beide von Geoffrey Hinton unterrichtet werden.

Aus dem Video über Glaubensnetze:

Grafische Modelle

Frühe grafische Modelle verwendeten Experten, um die Graphstruktur und die bedingten Wahrscheinlichkeiten zu definieren. Die Grafiken waren nur spärlich miteinander verbunden, und der Schwerpunkt lag auf der Durchführung korrekter Schlussfolgerungen und nicht auf dem Lernen (das Wissen stammte von den Experten).

Neuronale Netze

Für neuronale Netze stand das Lernen im Mittelpunkt. Das Wissen fest zu verdrahten war nicht cool (OK, vielleicht ein bisschen). Das Lernen kam vom Lernen der Trainingsdaten, nicht von Experten. Neuronale Netze zielten nicht auf die Interpretierbarkeit einer spärlichen Konnektivität ab, um die Inferenz zu vereinfachen. Trotzdem gibt es neuronale Netzwerkversionen von Glaubensnetzen.


Mein Verständnis ist, dass Glaubensnetze normalerweise zu dicht miteinander verbunden sind und ihre Cliquen zu groß sind, um interpretiert werden zu können. Glaubensnetze verwenden die Sigmoid-Funktion, um Eingaben zu integrieren, während kontinuierliche grafische Modelle normalerweise die Gauß-Funktion verwenden. Das Sigmoid erleichtert das Trainieren des Netzwerks, ist jedoch hinsichtlich der Wahrscheinlichkeit schwieriger zu interpretieren. Ich glaube, beide gehören zur exponentiellen Familie.

Ich bin kein Experte in diesem Bereich, aber die Vorlesungsunterlagen und Videos sind eine großartige Ressource.

ostrokach
quelle
1
Willkommen auf der Website. Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Daher sind wir aufgrund von Linkrot vorsichtig bei Nur-Link-Antworten. Können Sie ein vollständiges Zitat und eine Zusammenfassung der Informationen unter dem Link veröffentlichen, falls sie tot sein sollten?
Gung - Reinstate Monica
Das ist wirklich schön. Vielen Dank für das Hinzufügen dieser Informationen und willkommen im Lebenslauf.
Gung - Reinstate Monica
Ich muss darauf hinweisen, dass die Informationen in der ersten Hälfte Ihrer Antwort nicht ganz genau sind, was meiner Meinung nach durch die Verwendung von "frühen grafischen Modellen" impliziert wird (sollte "sehr sehr früh" sein). Seit sehr langer Zeit werden grafische Modelle verwendet, um alle Aspekte ihrer Architektur auf die gleiche Weise zu lernen wie neuronale Netze. Aber Ihr späterer Vorschlag, dass Sigmoide in Faktorgraphen den Platz von Gaußschen einnehmen sollen, ist interessant!
GuSuku
4

Radford Neal hat in diesem Bereich gute Arbeit geleistet, die Sie interessieren könnte, einschließlich einiger direkter Arbeiten zur Gleichsetzung von Bayes'schen grafischen Modellen mit neuronalen Netzen. (Seine Dissertation befasste sich offenbar mit diesem speziellen Thema.)

Ich bin mit dieser Arbeit nicht vertraut genug, um eine intelligente Zusammenfassung zu liefern, aber ich wollte Ihnen den Zeiger geben, falls Sie ihn hilfreich finden.

lmjohns3
quelle
Soweit ich aus Arbeiten von Neal, Mackay usw. verstehe , verwenden sie die Bayes'sche Optimierung, wobei die zu optimierenden Parameter die neuronalen Gewichte und Verzerrungen sind, was sogar zeigen wird, dass die L2-Normalisierung neuronaler Netze als Gaußsche vor der angesehen werden kann Gewichte. Dieses Programm wurde fortgesetzt, um die Anzahl der verborgenen Schichten, Neuronen in jeder Schicht usw. unter den Optimierungsvariablen aufzunehmen.
GuSuku
Dies unterscheidet sich jedoch von den Anforderungen des OP, da das Entwerfen der Architektur des neuronalen Netzwerks zum Ausprobieren im nächsten Durchgang nur ein Sonderfall des experimentellen Entwurfs unter Verwendung von Bayes'schen Modellen als Hyper-Design-Engine ist. Ich denke, was das OP verlangte, war eine Abbildung zwischen dem neuronalen Netzwerk und der Bayes'schen Modellierung auf der "gleichen Ebene".
GuSuku
4

Dies mag ein alter Thread sein, aber immer noch eine relevante Frage.

Das bekannteste Beispiel für die Verbindungen zwischen neuronalen Netzen (NN) und probabilistischen grafischen Modellen (PGM) ist das zwischen Boltzmann-Maschinen (und ihren Variationen wie Restricted BM, Deep BM usw.) und ungerichteten PGMs von Markov Random Field.

In ähnlicher Weise sind Glaubensnetzwerke (und ihre Variationen wie Deep BN usw.) eine Art gerichteter PGMs von Bayes'schen Graphen

Weitere Informationen finden Sie unter:

  1. Yann Lecun, " Ein Tutorial zum energiebasierten Lernen " (2006)
  2. Yoshua Bengio, Ian Goodfellow und Aaron Courville, "Deep Learning", Kapitel 16 und 20 (Buch in Vorbereitung, zum Zeitpunkt des Schreibens dieses Dokuments)
GuSuku
quelle