Wenn die beste lineare Approximation (unter Verwendung der kleinsten Quadrate) meiner Datenpunkte die Linie , wie kann ich den Approximationsfehler berechnen? Wenn ich die Standardabweichung der Differenzen zwischen Beobachtungen und Vorhersagen , kann ich später sagen, dass ein realer (aber nicht beobachteter) Wert zum Intervall ( ) mit einer Wahrscheinlichkeit von ~ 68% unter der Annahme einer Normalverteilung?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - & sgr ;, y p + & sgr; ] y p = m x 0 + b
Zu klären:
Ich habe Beobachtungen bezüglich einer Funktion indem ich sie an einigen Punkten ausgewertet habe . Ich passe diese Beobachtungen an eine Linie . Für , das ich nicht beobachtet habe, möchte ich wissen, wie groß sein kann. Mit der obigen Methode ist es richtig zu sagen, dass mit prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) , f ( x 0 ) ∈ [ l ( x 0 ) - σ , l ( x 0 ) + σ ]
Antworten:
@whuber hat dich auf drei gute Antworten hingewiesen, aber vielleicht kann ich noch etwas von Wert schreiben. Ihre explizite Frage ist, wie ich es verstehe:
Unter dery^i=m^xi+b^ N(0, σ 2 e )ynewxnew( y -σe, y +σe)Annahme , dass mein angepasstes Modell (beachte, dass ich 'Hüte' hinzugefügt habe) und dass meine Residuen normalverteilt sind , kann ich vorhersagen dass eine noch nicht beobachtete Antwort mit einem bekannten Prädiktorwert mit einer Wahrscheinlichkeit von 68% in das Intervall fällt?N( 0 , σ^2e) yn e w xn e w ( y^- σe, y^+ σe)
Intuitiv scheint die Antwort "Ja" zu sein, aber die wahre Antwort ist vielleicht . Dies wird der Fall sein , wenn die Parameter (dh, u ) sind bekannt und ohne Fehler. Da Sie diese Parameter geschätzt haben, müssen wir deren Unsicherheit berücksichtigen. σm , b , σ
Lassen Sie uns zuerst über die Standardabweichung Ihrer Residuen nachdenken. Da dies anhand Ihrer Daten geschätzt wird, kann es zu Fehlern bei der Schätzung kommen. Folglich sollte die Verteilung, die Sie zur Bildung Ihres Vorhersageintervalls verwenden sollten, , nicht die normale. Da sich das schnell dem Normalwert annähert, ist dies in der Praxis weniger wahrscheinlich ein Problem. ttdf fehler t
Können wir also einfach anstelle von , und machen Sie unseren fröhlichen Weg? Unglücklicherweise nicht. Das größere Problem ist , dass es Unsicherheit über Ihre Schätzung des bedingten Mittelwert der Antwort an dieser Stelle ist aufgrund der Unsicherheit in Ihren Schätzungen & . Daher muss die Standardabweichung Ihrer Vorhersagen mehr als nur . Da sich Abweichungen addieren , ist die geschätzte Abweichung der Vorhersagen: Beachten Sie, dass das " y neu±z(1-α/2)s m b sFehlers 2 Vorhersagen (neu) =s 2 error +Var( m xneu+ b )xs2xsy^Neu± t( 1 - α / 2 , df Fehler ) s y^Neu± z( 1 - α / 2 )s m^ b^ sError
Nachdem wir den korrekten Wert auf diese Weise berechnet haben, können wir ihn mit der oben angegebenen Verteilung verwenden.t
quelle