Gutes Tutorial für eingeschränkte Boltzmann-Maschinen (RBM)

10

Ich studiere die Restricted Boltzmann Machine (RBM) und habe einige Probleme beim Verständnis der Log-Likelihood-Berechnungen in Bezug auf die Parameter des RBM. Obwohl viele Forschungsarbeiten zu RBM veröffentlicht wurden, gibt es keine detaillierten Schritte der Derivate. Nachdem ich online gesucht hatte, konnte ich sie in diesem Dokument finden:

  • Fischer, A. & Igel, C. (2012). Eine Einführung in eingeschränkte Boltzmann-Maschinen. In L. Alvarez et al. (Hrsg.): CIARP, LNCS 7441, S. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )

Die Details dieses Dokuments sind mir jedoch zu weit fortgeschritten. Kann mich jemand auf ein gutes Tutorial / eine Reihe von Vorlesungsskripten über RBM hinweisen?


Bearbeiten: @David, der verwirrende Abschnitt wird unten gezeigt (Gleichung 29 auf Seite 26):

lnL(θ|v)wij=hp(h|v)E(v,h)wij+v,hp(v,h)E(v,h)wij=hp(h|v)hivjvp(v)hp(h|v)hivj(29)=p(Hi=1|v)vjvp(v)p(Hi=1|v)vj.
Upul
quelle
Können Sie genauer sagen, welche Schritte Sie verwirren?
David J. Harris
1
Eine gute Lektüre ist Kapitel 5 des Lernens tiefer Architekturen für KI ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )
dksahuji
@dksahuji danke für INFO, auch prof: Bengio schreibt einen DL und der erste Entwurf ist verfügbar unter iro.umontreal.ca/~bengioy/dlbook
Upul
Dieses Tutorial enthält Erklärungen zur Mathematik von RBM ( Ein Tutorial zu eingeschränkten Boltzmann-Maschinen ).
Jiang Xiang

Antworten:

7

Ich weiß, dass es etwas spät ist, aber vielleicht hilft es. Um den ersten Term Ihrer Gleichung zu erhalten, gehen Sie folgendermaßen vor: Wir haben diese bedingte Unabhängigkeit zwischen dem angenommen Es gibt versteckte Einheiten angesichts der sichtbaren Einheiten. Somit können wir die bedingte gemeinsame Wahrscheinlichkeitsverteilung für die verborgenen Zustände faktorisieren.

hp(h|v)hivj=vjh1...hi...hnp(h1,...,hi,...hn|v)hi=vjhih_ip(hi,h_i|v)hi
1hi10
=vjhih_ip(hi|v)hip(h_i|v)=vjhip(hi|v)hih_ip(h_i|v)
Der letzte Term ist gleich , da wir über alle Zustände summieren. Was also übrig bleibt, ist der erste Begriff. Da nur die Zustände und annimmt, erhalten wir: 1hi10
=vjp(Hi=1|v)
peschn
quelle
7
  1. Auf der Deeplearning-Site gibt es ein anständiges Tutorial zu RBMs .

  2. Dieser Blog-Beitrag ( Einführung in eingeschränkte Boltzmann-Maschinen ) ist in einer einfacheren Sprache verfasst und erklärt die Grundlagen von RBMS sehr gut:

  3. Die vielleicht beste Referenz ist Geoff Hintons Kurs über neuronale Netze auf Coursea:

    Ich bin mir nicht sicher, ob Sie nach dem Ende der Klasse auf die Klasse und die Videos zugreifen können.

sjm.majewski
quelle
2
Es gibt immer noch Leute, die sich für die Coursera-Klasse anmelden und im Forum posten. Sie können weiterhin alle Vorlesungen anzeigen und auf alle Tests und Programmieraufgaben (unter den Tests) zugreifen. Diese Informationen werden wahrscheinlich bis zum erneuten Angebot des Kurses verfügbar sein. Ich empfehle, sich für den Kurs anzumelden, um das Material anzuzeigen oder herunterzuladen.
Douglas Zare
1

Das linke orangefarbene Feld gibt Ihnen den erwarteten Wert des Energiegradienten über alle verborgenen Konfigurationen an, vorausgesetzt, ein sichtbarer Vektor ist auf die sichtbaren Einheiten geklemmt (die Erwartung über die Daten, da ein Beispiel aus Ihrem Trainingssatz verwendet wird). Der Ausdruck selbst ist das Produkt von (1) der Wahrscheinlichkeit, eine bestimmte verborgene Einheit i on zu sehen, vorausgesetzt, dass ein Vektor v an den sichtbaren Einheiten festgeklemmt ist, und (2) dem Zustand einer bestimmten sichtbaren Einheit j.

Das rechte orangefarbene Feld ist dasselbe wie das linke, außer dass Sie für jede mögliche sichtbare Konfiguration das tun, was sich im linken orangefarbenen Feld befindet, anstatt nur dasjenige, das an den sichtbaren Einheiten festgeklemmt ist (die Erwartung über das Modell, da nichts festgeklemmt ist auf den sichtbaren Einheiten).

Avalon
quelle
1

Kapitel 5 von Hugo Larochelles Kurs über maschinelles Lernen ( Video ) ist die beste Einführung, die ich bisher gefunden habe.

Die Ableitung der Verlustfunktion wird in diesen Vorlesungen nicht abgeleitet, aber es ist nicht schwer, dies zu tun (ich kann bei Bedarf einen Scan meiner Berechnungen veröffentlichen, aber es ist wirklich nicht so schwer). Ich bin immer noch auf der Suche nach einem guten Lehrbuch zu diesem Thema, aber hauptsächlich gibt es nur Artikel. Es gibt einen guten Überblick über die Artikel in Kapitel 20 von Bengios Deep Learning Book.

jakab922
quelle