Was ist Energieminimierung beim maschinellen Lernen?

Ich las über die Optimierung für ein schlecht gestelltes Problem in der Bildverarbeitung und fand die folgende Erklärung zur Optimierung in Wikipedia. Was ich nicht verstehe ist, warum nennen sie diese Optimierung in Computer Vision " Energieminimierung "?

Ein Optimierungsproblem kann folgendermaßen dargestellt werden:

Gegeben: eine Funktion von einer Menge zu den reellen Zahlen $f: A \to R$ $A$

Gesucht: ein Element in so dass für alle in ("Minimierung") oder für alle in (" Maximierung "). $x_0$ $A$ $f(x_0) ≤ f(x)$ $x$ $A$ $f(x_0) ≥ f(x)$ $x$ $A$

Eine solche Formulierung wird Optimierungsproblem oder mathematisches Programmierproblem genannt (ein Begriff, der nicht direkt mit der Computerprogrammierung zusammenhängt, aber beispielsweise in der linearen Programmierung noch verwendet wird - siehe Verlauf unten). In diesem allgemeinen Rahmen können viele reale und theoretische Probleme modelliert werden. Probleme, die unter Verwendung dieser Technik in den Bereichen Physik und Computer Vision formuliert werden, können sich auf die Technik als Energieminimierung beziehen, wobei der Wert der Funktion die Energie des zu modellierenden Systems darstellt. $f$

machine-learning optimization computer-vision iamprem
quelle

Antworten:

Energiebasierte Modelle bilden einen einheitlichen Rahmen für die Darstellung vieler Algorithmen für maschinelles Lernen. Sie interpretieren Inferenz als Minimierung einer Energiefunktion und Lernen als Minimierung einer Verlustfunktion.

Die Energiefunktion ist eine Funktion der Konfiguration latenter Variablen und der Konfiguration der Eingänge, die in einem Beispiel bereitgestellt werden. Inferenz bedeutet typischerweise das Finden einer Niedrigenergiekonfiguration oder das Abtasten aus der möglichen Konfiguration, so dass die Wahrscheinlichkeit, eine gegebene Konfiguration zu wählen, eine Gibbs-Verteilung ist.

Die Verlustfunktion ist eine Funktion der Modellparameter, die anhand vieler Beispiele angegeben werden. Bei einem überwachten Lernproblem ist Ihr Verlust beispielsweise der Gesamtfehler an den Zielen. Es wird manchmal als "funktional" bezeichnet, weil es eine Funktion der (parametrisierten) Funktion ist, die das Modell bildet.

Hauptartikel:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato und FJ Huang, „Ein Tutorial zum energiebasierten Lernen“ in Predicting Structured Data, MIT Press, 2006.

Siehe auch:

LeCun, Y. & Huang, FJ (2005). Verlustfunktionen für das diskriminative Training energiebasierter Modelle. In Proceedings des 10. Internationalen Workshops zu künstlicher Intelligenz und Statistik (AIStats'05). Abgerufen von http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

M. Ranzato, Y.-L. Boureau, S. Chopra & Y. LeCun (2007). Ein einheitlicher energiebasierter Rahmen für unbeaufsichtigtes Lernen. Proc. Konferenz zu KI und Statistik (AI-Stats). Abgerufen von http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

Neil G
quelle

Können Sie erläutern, was "Sie interpretieren Inferenz als Minimierung einer Energiefunktion und Lernen als Minimierung einer Verlustfunktion" bedeutet? Wie unterscheidet sich eine Energiefunktion von einer Verlustfunktion?

Cliff AB

Könnten Sie bitte Ihre Antwort

ausarbeiten

@CliffAB Hoffentlich ist das klarer?

Neil G

@NeilG: um ehrlich zu sein bin ich noch etwas verwirrt. Für mich klingt es so, als ob die "Energiefunktion" im Wesentlichen mit der Wahrscheinlichkeitsfunktion in der Statistik identisch ist. Ist das eine vernünftige Interpretation oder fehle ich etwas Feinsinnigeres?

Cliff AB

@CliffAB: Die Energiefunktion kann die logarithmische Wahrscheinlichkeit sein. In diesem Fall ist die gesamte potenzierte Energie eins. Dies ist jedoch noch nicht einmal erforderlich: Nicht-probabilistische energiebasierte Modelle sorgen sich nicht um diese Normalisierung, wodurch sie effizienter gelernt werden können als probabilistische Modelle. Dies liegt daran, dass keine teuren Integrale über den Konfigurationsbereich ausgewertet werden müssen.

Neil G

$x_t$

E = Σ x_{t}^{2}

$E = \Sigma x_t^2$

S S E = Σ (y - \hat{y})^{2}

$SSE= \Sigma (y-\hat{y})^2$

\hat{y}

$\hat{y}$

Stan
quelle

Ich denke, Sie verwechseln den Verlust mit der Energie

Neil G

Ich verwende die Standarddefinition von Energie aus der Signalverarbeitung . Computerwissenschaft / maschinelles Lernen neigen dazu, Begriffe neu zu definieren, denke ich. Ich komme aus Statistiken und Signalverarbeitung Hintergrund

Stan

Ihre erste Formel ist eine Energiefunktion. Die zweite Formel ist die Verlustfunktion, da sie nicht von der Konfiguration abhängt.

Neil G

@Neil Ich bin sicher, dass Sie die in den von Ihnen zitierten Artikeln definierte Terminologie korrekt verwenden. Es ist nur eine andere Terminologie von dem, was ich gewohnt bin , wo SSE ist Energie

stan