Eine Funktion mit maschinellem Lernen erforschen und interpolieren?

7

Welche allgemeinen Methoden des maschinellen Lernens gibt es, die versuchen, eine glatte multivariate Funktion zu "lernen" oder zu interpolieren, und die tatsächlich die Punkte auswählen können, an denen die Funktion während des Lernprozesses bewertet wird (Exploration)?

Die Idee wäre, dass jede Funktionsbewertung mehr oder weniger kostspielig ist und der Algorithmus lernt, die Regionen des Raums zu erkunden, in denen der Wissensgewinn am größten ist (im Vergleich zu den Kosten für die Bewertung der Funktion). Die Funktion kann in den interessantesten Fällen nicht analytisch sein (z. B. mit Knicken).

Mein Hintergrund ist Physik, und ich bin mir sicher, dass es solche Methoden gibt, aber trotz einiger Suche konnte ich nichts finden, was direkt relevant ist, möglicherweise weil ich nicht die richtigen Begriffe kenne, nach denen ich suchen soll. Ich weiß nur, dass "Verstärkungslernen" im weiteren Sinne der Bereich der KI ist, der sich mit Erforschung und Belohnungen befasst. Vielleicht stellen die Methoden, nach denen ich frage, einen besonderen Fall dar.

Zur Verdeutlichung hier ein Beispiel: Möglicherweise möchten Sie das Phasendiagramm einer Substanz erhalten, dh die Dichte als Funktion des Drucks p und der Temperatur T. Wir haben es also mit einer (meistens) glatten Funktion zweier Variablen zu tun (p, T). Die Auswertung an einem bestimmten Punkt (p, T) erfordert eine teure Monte-Carlo-Simulation (viel CPU-Zeit; wie viel davon abhängt, wo Sie sich im p, T-Raum befinden). Der ideale Algorithmus würde mit Bedacht Punkte (p, T) auswählen, an denen die Dichte bewertet werden soll, und versuchen, zu Regionen zu gelangen, in denen die Funktion die hervorstechendsten Merkmale aufweist (z. B. Phasenübergangslinien, dh Nichtanalytiken). Wenn Sie anschließend den Algorithmus an einem anderen Punkt (p, T) nach der Dichte fragen, bietet er die bestmögliche Interpolation / Extrapolation, die er angesichts aller Informationen, die er während seiner Erkundungsphase erhalten hat, erzielen kann.

Florian Marquardt
quelle
Wenn sich herausstellt, dass diese Frage nicht sehr häufig beantwortet wurde, wäre dies auch eine sehr nützliche Information für mich. Ich kann mir definitiv viele mögliche Anwendungen vorstellen (in der Physik und in der Computerwissenschaft im Allgemeinen). Angesichts aller Anstrengungen bei „intelligenten Agenten“, die eine unbekannte Umgebung erkunden, könnte man hoffen, dass Menschen Situationen analysiert haben, in denen diese Umgebung eine unbekannte glatte Funktion ist (sozusagen eine hügelige Landschaft).
Florian Marquardt
Ich habe gerade ein typisches Anwendungsbeispiel hinzugefügt, um dies zu verdeutlichen.
Florian Marquardt
Die von Ihnen beschriebenen fyi-Phasenübergänge sind in ihren (möglicherweise "engen") "Zentren" sehr diskontinuierlich / chaotisch / fraktal, so dass die Vorstellung, dass dies insgesamt eine "glatte Funktion" ist, möglicherweise ziemlich ungenau / irreführend ist.
VZN
@vzn: Während die mikroskopische Dynamik in einem üblichen Vielteilchensystem tatsächlich chaotisch ist (was für die Thermalisierung wichtig ist), sind die resultierenden durchschnittlichen thermodynamischen Eigenschaften glatte Funktionen von Parametern, außer wenn sie in der Phase springen (oder andere Nichtanalytiken aufweisen) Übergangslinien. Beispielsweise gibt es auf der Flüssig-Gas-Phasenübergangslinie in der (p, T) -Ebene einen Dichtesprung.
Florian Marquardt

Antworten:

3

Ich würde mich mit dem Bereich des "optimalen experimentellen Designs" bei Bayes'schen inversen Problemen befassen, insbesondere mit der jüngsten Arbeit von Alen Alexandrian.

http://arxiv.org/abs/1410.5899

http://www4.ncsu.edu/~aalexan3/research.html

Im Wesentlichen hat man ein inneres inverses Problem zur Approximation der Funktion basierend auf Punktmessungen abgeleiteter Größen, das innerhalb eines äußeren Optimierungsproblems zur Auswahl der Punkte basierend auf der Minimierung einer Kombination aus Fehler und Varianz gehostet wird.

Darüber hinaus müssen Sie kein vollständiges Verfahren zum Lösen von innen nach außen durchführen. Sie können vielmehr die KKT-Bedingungen für das innere Problem als Einschränkung für das äußere Problem verwenden und ein "Meta" -KKT-System für das kombinierte Problem formulieren.

Es ist in der Sprache von PDE-beschränkten inversen Problemen formuliert, würde aber auch für einfachere Situationen wie Ihr Problem gelten (die "PDE" wird zur Identitätsmatrix.)

Nick Alger
quelle
Vielen Dank! Nach dem, was ich gelesen habe, befasst sich der größte Teil des optimalen experimentellen Designs mit stochastischen Daten, daher müsste ich immer noch verstehen, wie sich dies auf eine deterministische glatte Funktion spezialisiert.
Florian Marquardt
Es ist üblich, solche Bayes'schen Techniken zu verwenden, selbst wenn die wahre Antwort deterministisch ist, indem die eigene Unsicherheit über die Antwort als stochastisches Element betrachtet wird. Ob Sie diese Wahrscheinlichkeit gerne verwenden oder nicht, hängt davon ab, ob Sie Bayesianer oder Frequentist sind. Es ist ein sehr umstrittener Punkt unter Statistikern ... Wenn Sie dies nicht stört, würde ich ein Gaußsches Zufallsfeld mit dem inversen Laplace als Kovarianz wie zuvor vorschlagen, um Funktionen, die glatt sind, eine höhere Wahrscheinlichkeit zu geben. Dhπvor(f)exp(- -fΔ- -1f).
Nick Alger
2

Aktives Lernen ist ein Begriff, der in der Literatur zum maschinellen Lernen für die Situation verwendet wird, in der der Lernalgorithmus den Wert der Funktion an bestimmten Punkten interaktiv abfragen darf. Ich weiß nicht, ob es in der Literatur Algorithmen zum aktiven Lernen von reibungslosen multivariaten Funktionen gibt, aber es klingt so, als ob Sie das wollen. Sie könnten ein wenig Zeit mit Google Scholar verbringen, um Arbeit in diesem Bereich zu suchen.

Sie können sich auch das optimale experimentelle Design ansehen .

DW
quelle
1
Vielen Dank! Beim Durchgehen der Wikipedia-Seite fand ich die Active Learning-Website von Burr Settles und die dazugehörige Literaturübersicht . Aus einer ersten Lesung habe ich herausgefunden, dass die typischen Beispiele eine diskrete Funktion haben (Bezeichnungen zur Klassifizierung). Ich muss also noch etwas über reibungslose Funktionen herausfinden, obwohl dies vielleicht nur eine einfache Variante dessen ist, was sie sagen (für den Experten einfach zu übersetzen, für mich momentan nicht so einfach).
Florian Marquardt
-2

Zu diesem Zweck können genetische Algorithmen verwendet werden. In einigen Fällen ist die Bewertung der Fitnessfunktion etwas "teuer". Ein Teil der Schwierigkeit besteht darin, eine Art Messung von "interessanten Regionen" zu codieren, und diese Metrik müsste irgendwie Messungen über mehrere Funktionsbewertungen quantifizieren, dh eine einzelne Funktionsbewertung reicht nicht aus, um "einen Trend zu bemerken". dh:

Der Algorithmus lernt, die Regionen des Raums zu erkunden, in denen der Wissensgewinn am größten ist

und später nennen Sie es "die wichtigsten Merkmale finden" . Diese Aussage ist problematisch, da es im Allgemeinen schwierig ist, mathematisch zu quantifizieren, "wo der Wissensgewinn am größten ist" oder "hervorstechende Merkmale". Eine Möglichkeit, es zu formalisieren / quantifizieren, besteht darin, "Hochentropie vs. Niedrigentropie" zu betrachten, für die es einen großen theoretischen Bestand gibt.

Ihr Problem ist auch in Bezug auf überwachtes und unbeaufsichtigtes Lernen etwas aufgeteilt, so dass dies ein Bereich ist, in dem Sie Ihr Problem weiter analysieren können.

Ein aktueller Hauptfall für die erfolgreiche Anwendung von ML in der Physik war die Higgs-Herausforderung für maschinelles Lernen , bei der viele der von Ihnen erwähnten Ideen berücksichtigt wurden. In diesem Fall wird das Verhalten der Partikelspur vom ML-Algorithmus vorhergesagt und es werden automatisch Informationen zu Rauschen und Signal in den Daten erstellt. Gewinnalgorithmen verwendeten im Allgemeinen Entscheidungsbäume, wie in der Veröffentlichung beschrieben.

vzn
quelle
1
Vielen Dank, aber es ist mir unklar, wie das, wonach ich frage, in Form eines genetischen Algorithmus (auch im Prinzip) formuliert werden kann. Vielleicht können Sie das näher erläutern?
Florian Marquardt
Ich weiß nicht, welcher Teil unklar ist. Es ist alles implizit in der grundlegenden Theorie des genetischen Algorithmus enthalten, wie in den Antworten / Links skizziert (versuchen Sie, einigen zu folgen). kann weiter / ausführlich im Computer Science Chat ausarbeiten . (
Übrigens