Was ist eine Verteilung über Funktionen?

15

Ich lese ein Lehrbuch über den Gaußschen Prozess für maschinelles Lernen von CE Rasmussen und CKI Williams und habe Probleme zu verstehen, was Verteilung über Funktionen bedeutet. In dem Lehrbuch wird ein Beispiel gegeben, dass man sich eine Funktion als einen sehr langen Vektor vorstellen sollte (in der Tat sollte sie unendlich lang sein?). Ich stelle mir also eine Verteilung über Funktionen als eine Wahrscheinlichkeitsverteilung vor, die "über" solchen Vektorwerten gezeichnet ist. Wäre es dann wahrscheinlich, dass eine Funktion diesen bestimmten Wert annimmt? Oder ist es wahrscheinlich, dass eine Funktion einen Wert annimmt, der in einem bestimmten Bereich liegt? Oder ist die Verteilung über Funktionen eine Wahrscheinlichkeit, die einer ganzen Funktion zugeordnet ist?

Zitate aus dem Lehrbuch:

Kapitel 1: Einführung, Seite 2

Ein Gaußscher Prozess ist eine Verallgemeinerung der Gaußschen Wahrscheinlichkeitsverteilung. Während eine Wahrscheinlichkeitsverteilung Zufallsvariablen beschreibt, die Skalare oder Vektoren sind (für multivariate Verteilungen), regelt ein stochastischer Prozess die Eigenschaften von Funktionen. Abgesehen von der mathematischen Raffinesse kann man sich eine Funktion locker als einen sehr langen Vektor vorstellen, wobei jeder Eintrag im Vektor den Funktionswert f (x) an einem bestimmten Eingang x angibt. Es stellt sich heraus, dass diese Idee zwar ein wenig naiv ist, aber überraschend nah dran ist, was wir brauchen. In der Tat hat die Frage, wie wir rechnerisch mit diesen unendlich dimensionalen Objekten umgehen, die angenehmste Auflösung, die man sich vorstellen kann: Wenn Sie nur nach den Eigenschaften der Funktion bei einer endlichen Anzahl von Punkten fragen,

Kapitel 2: Regression, Seite 7

Es gibt verschiedene Möglichkeiten, Regressionsmodelle nach dem Gaußschen Prozess (GP) zu interpretieren. Man kann sich einen Gaußschen Prozess als die Definition einer Verteilung über Funktionen vorstellen und die Folgerung direkt im Raum der Funktionen, der Funktionsraumsicht.


Aus der Ausgangsfrage:

Ich habe dieses konzeptionelle Bild gemacht, um dies für mich selbst zu visualisieren. Ich bin mir nicht sicher, ob eine solche Erklärung, die ich für mich selbst abgegeben habe, richtig ist.

Bildbeschreibung hier eingeben


Nach dem Update:

Nach der Antwort von Gijs habe ich das Bild so aktualisiert, dass es konzeptionell ungefähr so ​​aussieht:

Bildbeschreibung hier eingeben

camillejr
quelle
3
Check this out für intuitive Erklärung jgoertler.com/visual-exploration-gaussian-processes
bicepjai

Antworten:

11

Das Konzept ist etwas abstrakter als eine übliche Distribution. Das Problem ist , dass wir mit dem Konzept einer Verteilung über verwendet werden R , typischerweise als eine Linie dargestellt ist , und dann an eine Oberfläche erweitern R2 , und so weiter, um Verteilungen über Rn . Der Funktionsraum kann jedoch nicht als Quadrat, Linie oder Vektor dargestellt werden. Es ist kein Verbrechen, es so zu sehen, wie Sie es tun, aber die Theorie, die in Rn funktioniert und mit Entfernung, Nachbarschaften und dergleichen zu tun hat (dies ist als Topologie des Raums bekannt), ist in R n nicht dieselbe Raum der Funktionen. Wenn Sie es also als Quadrat zeichnen, erhalten Sie möglicherweise eine falsche Vorstellung von diesem Raum.

Sie können sich den Funktionsraum einfach als eine große Sammlung von Funktionen vorstellen, vielleicht als eine Tasche voller Dinge, wenn Sie so wollen. Die Verteilung hier gibt Ihnen dann die Wahrscheinlichkeiten, eine Teilmenge dieser Dinge zu zeichnen. Die Verteilung lautet: Die Wahrscheinlichkeit, dass sich Ihre nächste Ziehung (einer Funktion) in dieser Teilmenge befindet, beträgt beispielsweise 10%. Im Fall eines Gaußschen Prozesses für Funktionen in zwei Dimensionen könnten Sie fragen, ob Sie eine x-Koordinate und ein Intervall von angebeny-Werte, dies ist ein kleines vertikales Liniensegment. Wie groß ist die Wahrscheinlichkeit, dass eine (zufällige) Funktion diese kleine Linie durchläuft? Das wird eine positive Wahrscheinlichkeit sein. Der Gaußsche Prozess gibt also eine Verteilung (der Wahrscheinlichkeit) über einen Funktionsraum vor. In diesem Beispiel ist die Teilmenge des Funktionsraums die Teilmenge, die das Liniensegment durchläuft.

Eine andere verwirrende Namenskonvention ist, dass eine Verteilung üblicherweise durch eine Dichtefunktion spezifiziert wird , wie beispielsweise die Glockenform mit der Normalverteilung. Dort gibt der Bereich unter der Verteilungsfunktion Auskunft darüber, wie wahrscheinlich ein Intervall ist. Dies funktioniert jedoch nicht bei allen Distributionen, und insbesondere bei Funktionen (nicht R wie bei den normalen Distributionen) funktioniert dies überhaupt nicht. Das bedeutet, dass Sie diese Verteilung (wie vom Gaußschen Prozess angegeben) nicht als Dichtefunktion schreiben können.

Gijs
quelle
1
Zum besseren Verständnis handelt es sich nicht um eine Verteilung über die Werte einer Funktion, sondern um eine Verteilung über eine Sammlung von Funktionen, oder? Ich habe noch eine Frage: Sie haben gesagt, dass dies eine Wahrscheinlichkeit ist, dass eine Zufallsfunktion ein bestimmtes Intervall durchläuft. In einem Beispiel für GPR handelt es sich also um eine Zufallsfunktion, die jedoch aus einer bestimmten "Familie" von Funktionen von stammt der Kovarianzkern?
Camillejr
2
Ja, es ist eine Verteilung über eine Sammlung von Funktionen. Das Beispiel für das Durchlaufen eines Intervalls gilt, wenn Sie einen Gaußschen Prozess haben. Der Kovarianzkern spezifiziert tatsächlich einen Gaußschen Prozess. Wenn Sie also einen Kovarianzkern kennen, können Sie die Wahrscheinlichkeit berechnen, dass eine Zufallsfunktion ein bestimmtes Intervall durchläuft.
Gijs
14

Ihre Frage wurde bereits auf der Mathematics SE-Website gestellt und wunderschön beantwortet:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Es hört sich so an, als ob Sie mit den Konzepten von Gaußschen Maßen für unendlich dimensionale Räume , linearen Funktionalen, Pushforward-Maßen usw. nicht vertraut sind. Daher werde ich versuchen, sie so einfach wie möglich zu halten.

L2([0,1])I=[0,1]RRnL2

Es gibt jedoch auch einen einfachen "Trick", der auf dem Kolmogorov-Erweiterungstheorem basiert. Dies ist im Grunde die Art und Weise, wie stochastische Prozesse in den meisten Wahrscheinlichkeitsverläufen eingeführt werden, die nicht stark messtheoretisch sind. Jetzt werde ich sehr wellenförmig und nicht streng sein und mich auf den Fall von Gaußschen Prozessen beschränken. Wenn Sie eine allgemeinere Definition wünschen, können Sie die obige Antwort lesen oder den Wikipedia-Link nachschlagen. Der auf Ihren speziellen Anwendungsfall angewandte Kolmogorov-Erweiterungssatz besagt mehr oder weniger Folgendes:

  • Sn={t1,,tn}Ixn=(x(t1),,x(tn))
  • Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • XL2Snn

Der eigentliche Satz ist allgemeiner, aber ich denke, das ist, wonach Sie gesucht haben.

DeltaIV
quelle