Interpretation des Bayes'schen 95% -Vorhersageintervalls

9

Angenommen, das folgende bivariate Regressionsmodell: wobei iid für .u i N ( 0 , σ 2 = 9 ) i = 1 , , n

yi=βxi+ui,
uiN(0,σ2=9)i=1,,n

Angenommen , ein noninformative Stand , dann kann gezeigt werden , dass die posterior pdf für ist wobeiβ p ( β | y ) = ( 18 π ) - 1p(β)constantβ β =(Σ N i = 1 yixi)/(Σ n i = 1 x 2 i ).

p(β|y)=(18π)12(i=1nxi2)12exp[118i=1nxi2(ββ^)2],
β^=(i=1nyixi)/(i=1nxi2).

Betrachten Sie nun den Wert von mit einem gegebenen zukünftigen Wert von , : wobei ist iid , dann können wir zeigen, dass ist eine normale Dichte mit Erwartung und Varianz Somit ist die posterior Wahrscheinlichkeitsdichtefunktion für , abhängig , ist x x n + 1 y n + 1 = β x n + 1 + u n + 1 , u n + 1 N ( 0 , σ 2 = 9 ) p ( y n + 1 | x n + 1 , y ) = β p ( y n + 1 | x nyxxn+1

yn+1=βxn+1+un+1,
un+1N(0,σ2=9)
p(yn+1|xn+1,y)=βp(yn+1|xn+1,β,y)p(β|y)dβ
E[yn+1|xn+1,y]=β^xn+1,var[yn+1|xn+1,y]=9[xn+12+i=1nxi2]i=1nxi2.
yn+1xn+1
p(yn+1|xn+1,y)=(18π[xn+12+i=1nxi2]i=1nxi2)12×exp{i=1nxi218(xn+12+i=1nxi2)(yn+1β^xn+1)2}

Die Frage lautet nun: Geben Sie ein 95% -Vorhersageintervall für yn+1 und interpretieren Sie es sorgfältig. In welchen Aspekten des Datengenerierungsprozesses berücksichtigt das Intervall unsere Unsicherheit nicht?


Ich bin mir nicht ganz sicher, wie ich die Frage beantworten soll, aber hier ist mein Versuch:

Im Wesentlichen müssen wir also und so finden, dassabP(a<yn+1<b)=abp(yn+1|xn+1,y)dyn+1=95%

Jetzt wissen wir, dass wobei und , daher: yn+1|xn+1,yN(m,v2)m=E[yn+1|xn+1,y]v2=var[yn+1|xn+1,y]

yn+1mvN(0,1)
P(1.96<yn+1mv<1.96)=95%
P(1.96v+m<yn+1<1.96v+m)=95%

Da wir nun auf konditionieren und den Ausdruck für und , sehen wir, dass sowohl als auch bekannte Werte sind. Wir können also und . Das heißt, wir können viele andere Möglichkeiten von und auswählen, die eine Wahrscheinlichkeit von . Aber wie hängt dies mit der Beantwortung des Teils der Frage zusammen, in dem gefragt wird, welche Aspekte des Datenerzeugungsprozesses dieses Intervall nicht berücksichtigt? v m v m a = - 1,96 v + m b = 1,96 v + m a b 95 %xn+1vmvma=1.96v+mb=1.96v+mab95%

TeTs
quelle
1
Bitte fügen Sie das Tag Selbststudium hinzu, wenn dies Hausaufgaben oder ein Versuch eines Lehrbuchproblems sind.
Nick Cox
2
@ Nick Cox Danke, dass du mich informiert hast, ich habe das Selbststudien-Tag hinzugefügt.
TeTs
Könnte es sein, dass das Intervall uns kein Verständnis für die Form des Datengenerierungsprozesses gibt? Das heißt, wir kennen die Mittelwert / Varianz-Kombination nicht nur aus dem Intervall?
Komische Frage. Gibt es vor der Übung einen Kontext? Warum sagen Sie ein bivariates Regressionsmodell?
Stéphane Laurent

Antworten:

2

Das Intervall berücksichtigt alle Unsicherheiten des Problems. In Ihrer Beschreibung des Problems sind die einzigen Dinge, die Sie nicht wissen, und . Das von Ihnen abgeleitete Vorhersageintervall berücksichtigt die Unsicherheit in beiden Fällen. Es besteht also keine Unsicherheit mehr für das Intervall, "nicht zu berücksichtigen".uβu

Tom Minka
quelle
Es besteht weiterhin Unsicherheit darüber, ob das Modell korrekt ist oder nicht.
Xi'an
1
Das Modell wurde als Annahme angegeben. Daher besteht keine Unsicherheit darüber.
Tom Minka
Ich nehme an, was gemeint ist, ist, dass die Vorhersageverteilung die gesamte Unsicherheit des Problems darstellt und das Intervall nur einen Aspekt dieser Verteilung zusammenfasst. Es ist jedoch nicht klar, dass als Intervall etwas ausgelassen wird.
Conjugateprior