Der Standardfehler des Intercept-Terms ( ) in ist gegeben durch wobei \ bar {x} ist der Mittelwert der x_i 's.
ich weiß, quantifiziert die SE Ihre Unsicherheit - zum Beispiel wird in 95% der Stichproben das Intervall [\ hat {\ beta} _0-2SE, \ hat {\ beta} _0 + 2SE] das wahre . Ich verstehe nicht, wie die SE, ein Maß für die Unsicherheit, mit \ bar {x} zunimmt . Wenn ich meine Daten einfach so verschiebe, dass , sinkt meine Unsicherheit? Das erscheint mir unvernünftig.
Eine analoge Interpretation lautet: In der nicht zentrierten Version meiner Daten entspricht meiner Vorhersage bei , während in den zentrierten Daten entspricht meiner Vorhersage bei . Bedeutet dies also, dass meine Unsicherheit über meine Vorhersage bei größer ist als meine Unsicherheit über meine Vorhersage bei ? Das erscheint auch nicht zumutbar, da der Fehler für alle Werte von x die gleiche Varianz hat , sollte meine Unsicherheit in meinen vorhergesagten Werten für alle .
Es gibt Lücken in meinem Verständnis, da bin ich mir sicher. Könnte mir jemand helfen zu verstehen, was los ist?
quelle
Antworten:
Weil die Regressionsgerade, die durch gewöhnliche kleinste Quadrate angepasst wird, notwendigerweise den Mittelwert Ihrer Daten (dh ) durchläuft - zumindest solange Sie den Achsenabschnitt nicht unterdrücken - Unsicherheit über den wahren Wert der Steigung hat keine Auswirkung auf die vertikale Position der Linie im Mittel von (dh bei ). Dies führt zu einer geringeren vertikalen Unsicherheit bei als Sie haben, je weiter Sie von sind. Wenn der Achsenabschnitt, in dem ist, , wird dies Ihre Unsicherheit über den wahren Wert von minimierenx y ˉ x ˉ x ˉ x x = 0 ˉ x β 0 β 0(x¯,y¯) x y^x¯ x¯ x¯ x=0 x¯ β0 . Mathematisch ausgedrückt ergibt dies den kleinstmöglichen Wert des Standardfehlers für . β^0
Hier ist ein kurzes Beispiel in
R
:Diese Zahl ist ein bisschen beschäftigt, aber Sie können die Daten aus mehreren verschiedenen Studien sehen, bei denen die Verteilung von näher oder weiter von . Die Steigungen unterscheiden sich von Studie zu Studie ein wenig, sind aber weitgehend ähnlich. (Beachten Sie, dass sie alle das eingekreiste X durchlaufen, das ich zum Markieren von .) Die Unsicherheit über den wahren Wert dieser Steigungen führt jedoch dazu, dass sich die Unsicherheit über mit zunehmender Entfernung vergrößert , was bedeutet, dass die für die Daten, die in der Nähe von sehr breit und für die Studie, in der die Daten in der Nähe von erfasst wurden, sehr eng ist . 0 ( ˉ x , ˉ y ) y ˉ x S E ( β 0 ) , x = 10 x = 0x 0 (x¯,y¯) y^ x¯ SE(β^0) x=10 x=0
Bearbeiten als Antwort auf einen Kommentar: Leider hilft es Ihnen nicht, Ihre Daten zu zentrieren, nachdem Sie sie haben, wenn Sie den wahrscheinlichen Wert bei einem Wert kennen möchten . Stattdessen müssen Sie Ihre Datenerfassung auf den Punkt zentrieren, den Sie in erster Linie interessieren. Um diese Probleme besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Lineares Regressionsvorhersageintervall . x x neuy x xnew
quelle