Lineares Regressionsvorhersageintervall

24

Wenn die beste lineare Approximation (unter Verwendung der kleinsten Quadrate) meiner Datenpunkte die Linie , wie kann ich den Approximationsfehler berechnen? Wenn ich die Standardabweichung der Differenzen zwischen Beobachtungen und Vorhersagen , kann ich später sagen, dass ein realer (aber nicht beobachteter) Wert zum Intervall ( ) mit einer Wahrscheinlichkeit von ~ 68% unter der Annahme einer Normalverteilung?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - & sgr ;, y p + & sgr; ] y p = m x 0 + by=mx+beich=reeinl(xich)-(mxich+b)yr=reeinl(x0)[yp-σ,yp+σ]yp=mx0+b

Zu klären:

Ich habe Beobachtungen bezüglich einer Funktion indem ich sie an einigen Punkten ausgewertet habe . Ich passe diese Beobachtungen an eine Linie . Für , das ich nicht beobachtet habe, möchte ich wissen, wie groß sein kann. Mit der obigen Methode ist es richtig zu sagen, dass mit prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) , f ( x 0 ) [ l ( x 0 ) - σ , l ( x 0 ) + σ ]f(x)xichl(x)=mx+bx0f(x0)-l(x0)f(x0)[l(x0)-σ,l(x0)+σ]

BMX
quelle
1
Ich denke, Sie fragen nach Vorhersageintervallen. Beachten Sie jedoch, dass Sie " " anstelle von " " verwenden. Ist das ein Tippfehler? Wir sagen s nicht voraus . y ixiyix
gung - Reinstate Monica
@gung: Ich verwende zu bezeichnen , beispielsweise Zeit, und den Wert einer Variablen zu dieser Zeit, also bedeutet , dass ich eine Beobachtung zum Zeitpunkt . Ich möchte wissen, wie weit die Anpassungsfunktionsvorhersagen von den realen Werten von y entfernt sein können. Ist das sinnvoll? Die Funktion gibt den "richtigen" Wert von bei , und meine Datenpunkte bestehen aus . y y = f ( x ) y x R e ein l ( x i ) y x i ( x i , r e a l ( x i ) )xyy=f(x)yxreeinl(xich)yxich(xich,reeinl(xich))
BMX
1
Das scheint völlig in Ordnung zu sein. Die Teile, auf die ich mich konzentriere, sind z. B. " ei=real(xi)(mxi+b) ". Normalerweise betrachten wir die Fehler / Residuen in einem Reg-Modell als " ei=yi(mxi+b) ". . Die SD der Residuen hat eine Rolle spielen Prognoseintervalle bei der Berechnung. Es ist das " xich ", das für mich seltsam ist; Ich frage mich, ob es ein Tippfehler ist oder Sie nach etwas fragen, das ich nicht erkenne.
gung - Reinstate Monica
Ich glaube ich sehe; Ich habe deine Bearbeitung verpasst. Dies deutet darauf hin, dass das System perfekt deterministisch ist und wenn Sie Zugriff auf die eigentliche zugrunde liegende Funktion hätten, könnten Sie y_i immer yichperfekt ohne Fehler vorhersagen . So denken wir normalerweise nicht über Reg-Modelle.
gung - Reinstate Monica
4
BMX: Mir scheint, Sie haben eine klare Vorstellung von Ihrer Frage und ein gutes Bewusstsein für einige der Probleme. Sie könnten daran interessiert sein, drei eng verwandte Themen zu überprüfen. stats.stackexchange.com/questions/17773 beschreibt Vorhersageintervalle in nichttechnischen Begriffen; stats.stackexchange.com/questions/26702 gibt eine mathematischere Beschreibung; und in stats.stackexchange.com/questions/9131 bietet Rob Hyndman die Formel, die Sie suchen. Wenn diese Ihre Frage nicht vollständig beantworten, geben sie Ihnen möglicherweise eine Standardnotation und ein Vokabular, um sie zu klären.
whuber

Antworten:

30

@whuber hat dich auf drei gute Antworten hingewiesen, aber vielleicht kann ich noch etwas von Wert schreiben. Ihre explizite Frage ist, wie ich es verstehe:

Unter der y^ich=m^xich+b^ N(0, σ 2 e )ynewxnew( y -σe, y +σe)Annahme , dass mein angepasstes Modell (beachte, dass ich 'Hüte' hinzugefügt habe) und dass meine Residuen normalverteilt sind , kann ich vorhersagen dass eine noch nicht beobachtete Antwort mit einem bekannten Prädiktorwert mit einer Wahrscheinlichkeit von 68% in das Intervall fällt?N(0,σ^e2)ynewxnew(y^-σe,y^+σe)

Intuitiv scheint die Antwort "Ja" zu sein, aber die wahre Antwort ist vielleicht . Dies wird der Fall sein , wenn die Parameter (dh, u ) sind bekannt und ohne Fehler. Da Sie diese Parameter geschätzt haben, müssen wir deren Unsicherheit berücksichtigen. σm,b,σ

Lassen Sie uns zuerst über die Standardabweichung Ihrer Residuen nachdenken. Da dies anhand Ihrer Daten geschätzt wird, kann es zu Fehlern bei der Schätzung kommen. Folglich sollte die Verteilung, die Sie zur Bildung Ihres Vorhersageintervalls verwenden sollten, , nicht die normale. Da sich das schnell dem Normalwert annähert, ist dies in der Praxis weniger wahrscheinlich ein Problem. ttdf fehlert

Können wir also einfach anstelle von , und machen Sie unseren fröhlichen Weg? Unglücklicherweise nicht. Das größere Problem ist , dass es Unsicherheit über Ihre Schätzung des bedingten Mittelwert der Antwort an dieser Stelle ist aufgrund der Unsicherheit in Ihren Schätzungen & . Daher muss die Standardabweichung Ihrer Vorhersagen mehr als nur . Da sich Abweichungen addieren , ist die geschätzte Abweichung der Vorhersagen: Beachten Sie, dass das " y neu±z(1-α/2)s m b sFehlers 2 Vorhersagen (neu) =s 2 error +Var( m xneu+ b )xs2xsy^Neu±t(1-α/2, df fehler)sy^Neu±z(1-α/2)sm^b^sError

sVorhersagen (neu)2=sError2+Var(m^xNeu+b^)
x"ist mit einem Index versehen, um den spezifischen Wert für die neue Beobachtung darzustellen, und das" "ist entsprechend mit einem Index versehen. Das heißt, Ihr Vorhersageintervall hängt von der Position der neuen Beobachtung entlang der Achse ab. Die Standardabweichung von Ihrer Vorhersagen können mit der folgenden Formel bequemer geschätzt werden: Interessanterweise können wir aus dieser Gleichung einige Fakten über Vorhersageintervalle ableiten. Erstens werden die Vorhersageintervalle umso kürzer, je mehr Daten wir zum Zeitpunkt der Erstellung des Vorhersagemodells hatten (dies liegt daran, dass die Unsicherheit in Bezug auf &s2x
sVorhersagen (neu)=sError2(1+1N+(xNeu-x¯)2(xich-x¯)2)
m^b^). Zweitens sind Vorhersagen am genauesten, wenn sie auf dem Mittelwert der Werte basieren, die Sie für die Entwicklung Ihres Modells verwendet haben, da der Zähler für das dritte Glied . Der Grund ist, dass unter normalen Umständen keine Unsicherheit über die geschätzte Steigung beim Mittelwert vonx0x, nur eine gewisse Unsicherheit über die wahre vertikale Position der Regressionsgeraden. Einige Lektionen, die für die Erstellung von Vorhersagemodellen gelernt werden müssen, lauten: Mehr Daten sind hilfreich, nicht um die „Signifikanz“ zu finden, sondern um die Präzision zukünftiger Vorhersagen zu verbessern; und dass Sie Ihre Datenerfassungsbemühungen auf das Intervall konzentrieren sollten, in dem Sie in Zukunft Vorhersagen treffen müssen (um diesen Zähler zu minimieren), aber die Beobachtungen von diesem Zentrum aus so weit wie möglich verbreiten sollten (um diesen Nenner zu maximieren).

Nachdem wir den korrekten Wert auf diese Weise berechnet haben, können wir ihn mit der oben angegebenen Verteilung verwenden. t

gung - Wiedereinsetzung von Monica
quelle