Ich glaube, ich weiß, worauf der Sprecher hinauswollte. Persönlich stimme ich ihr / ihm nicht ganz zu, und es gibt viele Leute, die das nicht tun. Aber um fair zu sein, es gibt auch viele, die das tun :) Beachten Sie zunächst, dass das Angeben der Kovarianzfunktion (Kernel) das Angeben einer vorherigen Verteilung über Funktionen impliziert. Allein durch die Änderung des Kernels ändern sich die Realisierungen des Gaußschen Prozesses drastisch von den sehr glatten, unendlich differenzierbaren Funktionen, die vom Squared Exponential-Kernel generiert werden
auf den „stacheligen“, nicht - differenzierbaren Funktionen entsprechend einer exponentiellen kernel (oder Matern Kernel mit )ν=1/2
Eine andere Möglichkeit, dies zu sehen, besteht darin, den Vorhersagemittelwert (den Mittelwert der Vorhersagen des Gaußschen Prozesses, der durch Konditionieren des GP auf die Trainingspunkte erhalten wird) in einen Testpunkt x zu schreiben, im einfachsten Fall einer Funktion mit dem Mittelwert Null:x∗
y∗=k∗T(K+σ2I)−1y
Dabei ist der Kovarianzvektor zwischen dem Testpunkt x ∗ und den Trainingspunkten x 1 , … , x n , K ist die Kovarianzmatrix der Trainingspunkte, σ ist der Noise Term (setzen Sie in Ihrer Vorlesung einfach σ = 0) betroffene rauschfreie Vorhersagen, dh Gaußsche Prozessinterpolation) und y = ( y 1 , … , y n )k∗x∗x1,…,xnKσσ=0y=(y1,…,yn)ist der Vektor der Beobachtungen im Trainingsset. Wie Sie sehen, ist der prädiktive Mittelwert ungleich Null, auch wenn der Mittelwert des GP-Prior Null ist. Abhängig vom Kernel und der Anzahl der Trainingspunkte kann dies ein sehr flexibles Modell sein, das extrem lernfähig ist komplexe Muster.
Im Allgemeinen ist es der Kernel, der die Generalisierungseigenschaften des GP definiert. Einige Kernel haben die universelle Approximationseigenschaft , dh sie sind im Prinzip in der Lage, bei ausreichenden Trainingspunkten jede kontinuierliche Funktion auf einer kompakten Teilmenge an eine vorgegebene maximale Toleranz anzunähern.
Warum sollten Sie sich dann überhaupt für die mittlere Funktion interessieren? Erstens macht eine einfache Mittelwertfunktion (eine lineare oder orthogonale Polynomfunktion) das Modell viel deutlicher, und dieser Vorteil ist für ein so flexibles (also kompliziertes) Modell wie das GP nicht zu unterschätzen. Zweitens saugt in gewisser Weise der Mittelwert Null (oder, was es wert ist, auch der konstante Mittelwert) der GP an einer Vorhersage, die weit von den Trainingsdaten entfernt ist. Viele stationäre Kerne (mit Ausnahme der periodischen Kerne) sind so, dass für dist ( x i , x ∗ ) → ∞ giltk(xi−x∗)→0dist(xi,x∗)→∞. Diese Konvergenz auf 0 kann überraschend schnell erfolgen, insbesondere beim Squared Exponential-Kernel, und insbesondere dann, wenn eine kurze Korrelationslänge erforderlich ist, um das Trainingsset gut anzupassen. Daher sagt ein GP mit der Mittelwertfunktion Null immer voraus, sobald Sie sich vom Trainingssatz entfernen.y∗≈0
Dies kann in Ihrer Anwendung sinnvoll sein. Schließlich ist es häufig eine schlechte Idee, ein datengesteuertes Modell zu verwenden, um Vorhersagen außerhalb der Datenpunkte durchzuführen, die zum Trainieren des Modells verwendet werden. Sehen hier für viele interessante und unterhaltsame Beispiele, warum dies eine schlechte Idee sein kann. In dieser Hinsicht ist der GP mit dem Mittelwert Null, der vom Trainingssatz immer gegen 0 konvergiert, sicherer als ein Modell (wie zum Beispiel ein multivariates orthogonales Polynommodell mit hohem Grad), das gerne wahnsinnig große Vorhersagen abschießt, sobald Sie kommen von den Trainingsdaten weg.
x∗
Wir können nicht im Namen der Person sprechen, die den Vortrag gehalten hat. Vielleicht hatte der Sprecher eine andere Idee, als er diese Aussage machte. Wenn Sie jedoch versuchen, Posterior-Vorhersagen aus einem Hausarzt zu erstellen, verfügt eine konstante Mittelwertfunktion über eine geschlossene Lösung, die genau berechnet werden kann. Bei einer allgemeineren Mittelwertfunktion müssen Sie jedoch auf ungefähre Methoden zurückgreifen, z. B. Simulation.
Zusätzlich steuert die Kovarianzfunktion, wie schnell (und wo) Abweichungen von der Mittelwertfunktion auftreten. Daher ist es häufig so, dass eine flexiblere / steifere Kovarianzfunktion "gut genug" ist, um sich einer verzierteren Mittelwertfunktion anzunähern - was wiederum gewährt Zugriff auf die Convenience-Eigenschaften einer konstanten Mittelwertfunktion.
quelle
Ich gebe Ihnen eine Erklärung, die der Sprecher wahrscheinlich nicht gemeint hat. Bei manchen Anwendungen sind die Mittel immer langweilig. Nehmen wir zum Beispiel an, wir prognostizieren Verkäufe mit einem autoregressiven Modellyt= c + γyt - 1+ et . Der langfristige Mittelwert ist offensichtlichE[ yt] ≡ μ = c1 - γ . Ist es interessant?
Das hängt von Ihrem Ziel ab. Wenn Sie nach der Geschäftsbewertung sind, werden Sie darauf hingewiesen, dass Sie eine Erhöhung vornehmen müssenc oder abnehmen γ den Wert des Geschäfts zu erhöhen, weil der Wert gegeben ist durch:
Wenn Sie an der Liquidität interessiert sind, dh wenn Sie über genügend Bargeld verfügen, um die Ausgaben in den nächsten Monaten zu decken, ist der Mittelwert nahezu irrelevant. Sie sehen sich die Cash-Prognose für den nächsten Monat an:
quelle
Nun, ein sehr guter Grund ist, dass die mittlere Funktion möglicherweise nicht im Raum der Funktionen lebt, die Sie modellieren möchten. jeder Eingabepunkt,xich , kann einen entsprechenden posterioren Mittelwert haben, μ ( xich) . Diese hinteren Mittelwerte sind jedoch die Erwartung, bevor Sie andere Daten sehen. Es gibt also viele Fälle, in denen keine Situation, in der die zukünftigen Daten beobachtet werden, diese mittlere Funktion hervorruft.
Einfaches Beispiel: Stellen Sie sich vor, Sie passen eine Sinusfunktion mit unbekanntem Versatz, aber bekannter Periode und Amplitude an. Der vorherige Mittelwert ist für alle Nullx aber eine konstante Linie nicht leben innerhalb von Sinusfunktionen wir beschrieben. Die Kovarianzfunktion liefert uns diese zusätzlichen Strukturinformationen.
quelle
Einfach ausgedrückt dominiert die Mittelwertfunktion die Kovarianzfunktion für Eingaben, die weit von Beobachtungen entfernt sind.
Auf diese Weise können Sie Ihre Vorkenntnisse in die Makrodynamik Ihres Systems einfließen lassen.
quelle