Gaußsches Prozessvorhersageintervall

7

Wie kann das Vorhersageintervall eines Gaußschen Prozesses bewertet werden? Ich weiß nicht, wie ich dieses Intervall schätzen soll, obwohl ich ein 95% -Konfidenzintervall für die mittlere Linie finden kann.

Wis
quelle
1
Das Ziel eines Vorhersageintervalls ist der Wert einer bestimmten Zufallsvariablen. Welche Zufallsvariable haben Sie im Sinn?
whuber
Die Variable ist y hat für ein neues x, das nicht in den Deisgn-Punkten enthalten ist
Wis
Meinen Sie wie in stats.stackexchange.com/questions/33433/… (wo @gung eine detaillierte Antwort geliefert hat)? Oder vielleicht die allgemeinere Einstellung, wie sie von Rob Hyndman unter stats.stackexchange.com/a/9144 angesprochen wurde ?
whuber
1
@ raK1 Natürlich liegt es an Ihnen, denn es ist Ihre Frage, aber ich denke, DeltalV verdient das Kopfgeld für eine fantastische Antwort. Wenn Sie damit einverstanden sind, muss es vor morgen akzeptiert werden, wenn das Kopfgeld aufgebraucht ist. Nur ein Kopf hoch :) Prost!
EHH

Antworten:

12

Ich werde Ihre Frage im Rahmen von Bayes beantworten. Wenn Sie speziell eine frequentistische Lösung benötigen, können Sie eine erhalten, indem Sie meine Antwort leicht ändern. Ich denke jedoch, dass dies die tatsächliche Unsicherheit unterschätzen wird: Sie würden einen vollständig frequentistischen Ansatz benötigen, aber ich weiß nicht, wie ich das in diesem speziellen Fall tun soll .

Um das Bayesian GPR-Framework (Gaussian Process Regression) kurz zusammenzufassen, nehmen Sie das Modell an

y=f(x|θ)+ϵ

wobei , dh Die latenten Variablen oder Funktionswerte werden als Gaußscher Prozess unter der Bedingung der Hyperparameter , und ist das übliche iid-Gaußsche Rauschen.f(x|θ)GP(μ(x|θ),k(x,x|θ)) θϵN(0,σ2)


Eigentlich ist ein Hyperparameter, also gehört er wirklich zu , aber ich wollte unterstreichen, dass GPR normalerweise eine triviale Kovarianzstruktur für das Rauschen annimmt.σ2θ


Die posteriore prädiktive Verteilung von an einem neuen Punkt , bedingt durch Daten und auf Hyperparametern ist . Nehmen wir nun an, dass die mittlere Funktion des Gaußschen Prozesses Null ist: Der allgemeine Fall kann ebenfalls behandelt werden, aber versuchen wir, die Dinge einfach zu halten. Dann bekommen wir mit der üblichen GPR-Maschinerieyx{(x1,y1,),(xd,yd)}=(x,y)θp(y|θ,y)

p(f|θ,y)=N(kT(K+σ2I)1y,k(x,x)kT(K+σ2I)1k)

wo

K=(k(x1,x1;θ)k(x1,xd;θ)k(x1,xd;θ)k(xd,xd;θ))

k=(k(x,x1;θ)k(x,xd;θ))

dh abhängig von beobachteten Daten und Hyperparametern ist die Verteilung der latenten Variablen an einem neuen Punkt immer noch Gaußsch, wobei der Mittelwert und die Standardabweichung oben gezeigt sind.

Wir sind jedoch an der Verteilung einer neuen Beobachtung interessiert , nicht einer neuen latenten Variablen. Dies ist einfach, da in unserem Modell das Rauschen additiv ist, unabhängig von allen anderen Variablen und normalerweise mit dem Mittelwert Null und der Varianz verteilt ist. Daher müssen wir nur die Rauschvarianz addieren:yσ2

p(y|θ,y)=N(kT(K+σ2I)1y,k(x,x)kT(K+σ2I)1k+σ2)

Beachten Sie, dass ich eine einzelne neue Beobachtung Betracht , sodass die Verteilung nur ein univariater Gaußscher Wert ist und die Varianz tatsächlich eine Varianz und keine a ist Varianz-Kovarianz-Matrix.yp(y|θ,y)

Um diesen Ausdruck tatsächlich verwenden zu können, benötigen Sie Werte für die Hyperparameter, die nicht bekannt sind. Hieraus gibt es zwei Möglichkeiten:

  1. (die häufigste Lösung) Die Hyperparameter werden durch MLE oder MAP geschätzt, und der obige Ausdruck wird verwendet. Dieser Ansatz vernachlässigt die Unsicherheit bei der Schätzung der Hyperparameter vollständig und scheint daher nicht sehr sicher zu sein.
  2. In einem vollständig Bayes'schen Ansatz interessieren Sie sich nicht wirklich für , sondern für die prädiktive Verteilung von bei , die durch erhalten wird nach Integration der Hyperparameter:p(y|θ,y)yyp(y|θ,y)

    p(y|y)=p(y,θ|y)dθ=p(y|θ,y)p(θ|y)dθ

Hier gibt es zwei Probleme: Bei einer vorherigen Verteilung für die Hyperparameter ist die posteriore Verteilung , die im Integral erscheint, gegeben nicht bekannt, muss aber unter Verwendung des Bayes-Theorems abgeleitet werden, was für die meisten Hyperprioren bedeutet, dass ein MCMC ausgeführt werden muss. Daher haben wir keinen expliziten Ausdruck für , sondern nur Beispiele aus der MCMC. Und selbst wenn wir einen Ausdruck für , wäre es unmöglich , das Integral in geschlossener Form in zu bewerten meiste Fälle. Die Lösung ist eine hierarchische Bayes-Simulation: für jede Probep(θ)p(θ|y)p(θ|y)p(θ|y)p(y|y)θ^i aus mit dem MCMC erhalten Sie eine Stichprobe aus . Verwenden Sie diese Stichproben , um ein HPD-Intervall für zu schätzen , und schon sind Sie da.p(θ|y)yip(y|θ^i,y)myiy

Aus intuitiver Sicht werden bei der zweiten Lösung Stichproben aus einer Verteilung gezogen, bei der die Hyperparameter "nicht festgelegt" sind, aber entsprechend ihrer posterioren Verteilung zufällig variieren dürfen . Somit berücksichtigt das im zweiten Fall erhaltene Vorhersageintervall die Unsicherheit aufgrund unseres Mangels an Wissen über die Hyperparameter.p(θ|y)

DeltaIV
quelle
Tut mir leid, aber bitte können Sie in der Antwort kurz erläutern, wie die Vorhersageformel erhalten wird, wie Sie es in den Kommentaren zur anderen Antwort getan haben. Dadurch wird die Antwort in sich geschlossen und für jeden nützlich, der sie in Zukunft sucht. Tolle Diskussion über Hyperparameter-Probleme übrigens! Danke :)
EHH
@EHH kein Problem, ich habe das Bit hinzugefügt, auf das Sie sich bezogen haben.
DeltaIV
1
@DeltalV Super, das hat mir wirklich geholfen, einige Dinge zu klären, über die ich mich gewundert habe! Vielen Dank!
EHH
@ Mathews24 das ist eine andere Frage und die Lebenslaufrichtlinie ist eine Frage pro Beitrag. Durchsuchen Sie die Website, um festzustellen, ob eine solche Frage bereits gestellt wurde. Andernfalls können Sie selbst eine neue Frage stellen.
DeltaIV
@ DeltaIV Sie geben an, "wir sind an der Verteilung einer neuen Beobachtung interessiert ". Ich nehme an, es ist kontextabhängig, aber gibt es allgemeine Regeln, wenn man sich für versus interessiert ? Was ist die physikalische Interpretation für ? Wenn beispielsweise Messungen aus einer Diagnose mit einem Fehler , würde uns die Modellierung von tatsächlich das Modell für das zugrunde liegende physikalische Phänomen geben? Warum würden wir in diesem Fall bevorzugen ? yyffyσfy
Mathews24
2

Wenn Sie sich auf die Bayes'sche Regression mit Gaußscher Wahrscheinlichkeit beziehen, ist die hintere Verteilung eines Gaußschen Prozesses Gauß'sch: wobei die und die Datenwerte sind und und mit Bayes'scher Inferenz berechnet werden: wobei der Kernelvektor zwischen und und mit

p(f(x)Xn,Yn)=N(μn(x),σn2(x)),
XnYnμnσn2
μn(x)=kn(x)Cn1Yn and σn2(x)=k(x,x)kn(x)Cn1kn(x),
kn(x)=[k(xt,x)]xtXnxXnCn=Kn+η2Iη2 die Standardabweichung des Beobachtungsrauschens und der Kernelmatrix (siehe das zweite Kapitel von Rasmussen und Williams 'Buch ).Kn=[k(xt,xt)]xt,xtXn

Daher ist ein ~ 95% -Konfidenzintervall für einfach .xμn(x)±2σn(x)

Emile
quelle
1
Es hört sich so an, als würden Sie annehmen, dass (a) das OP ein Bayes'sches Vorhersageintervall wünscht und (b) bereit ist, vor dem Prozess ein normales Konjugat zu übernehmen.
whuber
1
Tatsächlich. Ich nehme diese Annahme in meine Antwort auf.
Emile
Wie kann U σ2n (x) finden? Kennst du die Gleichung dafür? Vielen Dank
Wis
2
Diese Antwort ist absolut falsch. Das OP sagte, dass sie wissen, wie man die Konfidenzintervalle erhält, aber die Vorhersageintervalle erhalten möchten, bei denen es sich um die 95% -Wahrscheinlichkeitsintervalle für zukünftige Beobachtungen handelt . Ich empfehle @ raK1, dies als akzeptierte Antwort zu entfernen. with noise
EHH
1
@DeltaIV Ich glaube, dass die zukünftige Messvarianz, die die Summe aus Funktion und Rauschvarianz ist, die Antwort ist, nach der das OP gesucht hat (ich dachte, es könnte dies sein, hatte aber keine Referenz dafür gefunden und hoffte daher auf jemanden, der sich sicher war zu beantworten), also sollten Sie dies vielleicht als Antwort auf die Frage schreiben. In Bezug auf Ihren anderen Punkt stimme ich voll und ganz zu, dass die Annahme, dass Hyperparameter bekannt sind, die Unsicherheit unterschätzt. Pragmatisch gesehen wird dies jedoch bei der praktischen Anwendung von Hausärzten getan, sodass ich in diesem Zusammenhang geantwortet habe.
EHH