Ich studiere die Restricted Boltzmann Machine (RBM) und habe einige Probleme beim Verständnis der Log-Likelihood-Berechnungen in Bezug auf die Parameter des RBM. Obwohl viele Forschungsarbeiten zu RBM veröffentlicht wurden, gibt es keine detaillierten Schritte der Derivate. Nachdem ich online gesucht hatte, konnte ich sie in diesem Dokument finden:
- Fischer, A. & Igel, C. (2012). Eine Einführung in eingeschränkte Boltzmann-Maschinen. In L. Alvarez et al. (Hrsg.): CIARP, LNCS 7441, S. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )
Die Details dieses Dokuments sind mir jedoch zu weit fortgeschritten. Kann mich jemand auf ein gutes Tutorial / eine Reihe von Vorlesungsskripten über RBM hinweisen?
Bearbeiten: @David, der verwirrende Abschnitt wird unten gezeigt (Gleichung 29 auf Seite 26):
references
rbm
Upul
quelle
quelle
Antworten:
Ich weiß, dass es etwas spät ist, aber vielleicht hilft es. Um den ersten Term Ihrer Gleichung zu erhalten, gehen Sie folgendermaßen vor: Wir haben diese bedingte Unabhängigkeit zwischen dem angenommen Es gibt versteckte Einheiten angesichts der sichtbaren Einheiten. Somit können wir die bedingte gemeinsame Wahrscheinlichkeitsverteilung für die verborgenen Zustände faktorisieren.
quelle
Auf der Deeplearning-Site gibt es ein anständiges Tutorial zu RBMs .
Dieser Blog-Beitrag ( Einführung in eingeschränkte Boltzmann-Maschinen ) ist in einer einfacheren Sprache verfasst und erklärt die Grundlagen von RBMS sehr gut:
Die vielleicht beste Referenz ist Geoff Hintons Kurs über neuronale Netze auf Coursea:
Ich bin mir nicht sicher, ob Sie nach dem Ende der Klasse auf die Klasse und die Videos zugreifen können.
quelle
Das linke orangefarbene Feld gibt Ihnen den erwarteten Wert des Energiegradienten über alle verborgenen Konfigurationen an, vorausgesetzt, ein sichtbarer Vektor ist auf die sichtbaren Einheiten geklemmt (die Erwartung über die Daten, da ein Beispiel aus Ihrem Trainingssatz verwendet wird). Der Ausdruck selbst ist das Produkt von (1) der Wahrscheinlichkeit, eine bestimmte verborgene Einheit i on zu sehen, vorausgesetzt, dass ein Vektor v an den sichtbaren Einheiten festgeklemmt ist, und (2) dem Zustand einer bestimmten sichtbaren Einheit j.
Das rechte orangefarbene Feld ist dasselbe wie das linke, außer dass Sie für jede mögliche sichtbare Konfiguration das tun, was sich im linken orangefarbenen Feld befindet, anstatt nur dasjenige, das an den sichtbaren Einheiten festgeklemmt ist (die Erwartung über das Modell, da nichts festgeklemmt ist auf den sichtbaren Einheiten).
quelle
Kapitel 5 von Hugo Larochelles Kurs über maschinelles Lernen ( Video ) ist die beste Einführung, die ich bisher gefunden habe.
Die Ableitung der Verlustfunktion wird in diesen Vorlesungen nicht abgeleitet, aber es ist nicht schwer, dies zu tun (ich kann bei Bedarf einen Scan meiner Berechnungen veröffentlichen, aber es ist wirklich nicht so schwer). Ich bin immer noch auf der Suche nach einem guten Lehrbuch zu diesem Thema, aber hauptsächlich gibt es nur Artikel. Es gibt einen guten Überblick über die Artikel in Kapitel 20 von Bengios Deep Learning Book.
quelle