Warum erhöht sich der Standardfehler des Abschnitts, je weiter von 0 entfernt ist?

13

Der Standardfehler des Intercept-Terms ( ) in ist gegeben durch wobei \ bar {x} ist der Mittelwert der x_i 's.β^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

[β^02SE,β^0+2SE] ich weiß, quantifiziert die SE Ihre Unsicherheit - zum Beispiel wird in 95% der Stichproben das Intervall [\ hat {\ beta} _0-2SE, \ hat {\ beta} _0 + 2SE] das wahre β0 . Ich verstehe nicht, wie die SE, ein Maß für die Unsicherheit, mit \ bar {x} zunimmt x¯. Wenn ich meine Daten einfach so verschiebe, dass x¯=0 , sinkt meine Unsicherheit? Das erscheint mir unvernünftig.

Eine analoge Interpretation lautet: In der nicht zentrierten Version meiner Daten entspricht β^0 meiner Vorhersage bei x=0 , während in den zentrierten Daten entspricht β^0 meiner Vorhersage bei x=x¯ . Bedeutet dies also, dass meine Unsicherheit über meine Vorhersage bei x=0 größer ist als meine Unsicherheit über meine Vorhersage bei x=x¯ ? Das erscheint auch nicht zumutbar, da der Fehler ϵ für alle Werte von x die gleiche Varianz hat x, sollte meine Unsicherheit in meinen vorhergesagten Werten für alle x .

Es gibt Lücken in meinem Verständnis, da bin ich mir sicher. Könnte mir jemand helfen zu verstehen, was los ist?

elexhobby
quelle
3
Haben Sie jemals etwas gegen ein Date zurückgebrochen? Viele Computersysteme beginnen ihre Daten in der fernen Vergangenheit, oft vor über 100 oder über 2000 Jahren. Der Schnitt schätzt den Wert Ihrer Daten hochgerechnet rückwärts zu dieser Startzeit. Wie sicher sind Sie sich beispielsweise des Bruttoinlandsprodukts des Irak im Jahr 0 n. Chr., Das auf der Regression einer Reihe von Daten des 21. Jahrhunderts basiert?
whuber
Ich stimme dir zu, es macht Sinn, wenn du so darüber denkst. Dies und Gungs Antwort machen die Dinge klar.
Elexhobby
2
Diese Antwort gibt eine intuitive Erklärung (mit Diagrammen), wie sie entsteht, indem die angepasste Linie in Bezug auf die Anpassung an den Mittelwert x¯ (die angepasste Linie verläuft durch (x¯,y¯) ) gegossen wird, und zeigt, warum Die Position, an der die Linie verlaufen kann, verteilt sich, wenn Sie sich von \ bar x entfernen x¯(was durch die Unsicherheit in der Steigung verursacht wird).
Glen_b -Reinstate Monica

Antworten:

16

Weil die Regressionsgerade, die durch gewöhnliche kleinste Quadrate angepasst wird, notwendigerweise den Mittelwert Ihrer Daten (dh ) durchläuft - zumindest solange Sie den Achsenabschnitt nicht unterdrücken - Unsicherheit über den wahren Wert der Steigung hat keine Auswirkung auf die vertikale Position der Linie im Mittel von (dh bei ). Dies führt zu einer geringeren vertikalen Unsicherheit bei als Sie haben, je weiter Sie von sind. Wenn der Achsenabschnitt, in dem ist, , wird dies Ihre Unsicherheit über den wahren Wert von minimierenx y ˉ x ˉ x ˉ x x = 0 ˉ x β 0 β 0(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. Mathematisch ausgedrückt ergibt dies den kleinstmöglichen Wert des Standardfehlers für . β^0

Hier ist ein kurzes Beispiel in R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

Bildbeschreibung hier eingeben

Diese Zahl ist ein bisschen beschäftigt, aber Sie können die Daten aus mehreren verschiedenen Studien sehen, bei denen die Verteilung von näher oder weiter von . Die Steigungen unterscheiden sich von Studie zu Studie ein wenig, sind aber weitgehend ähnlich. (Beachten Sie, dass sie alle das eingekreiste X durchlaufen, das ich zum Markieren von .) Die Unsicherheit über den wahren Wert dieser Steigungen führt jedoch dazu, dass sich die Unsicherheit über mit zunehmender Entfernung vergrößert , was bedeutet, dass die für die Daten, die in der Nähe von sehr breit und für die Studie, in der die Daten in der Nähe von erfasst wurden, sehr eng ist . 0 ( ˉ x , ˉ y ) y ˉ x S E ( β 0 ) , x = 10 x = 0x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


Bearbeiten als Antwort auf einen Kommentar: Leider hilft es Ihnen nicht, Ihre Daten zu zentrieren, nachdem Sie sie haben, wenn Sie den wahrscheinlichen Wert bei einem Wert kennen möchten . Stattdessen müssen Sie Ihre Datenerfassung auf den Punkt zentrieren, den Sie in erster Linie interessieren. Um diese Probleme besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Lineares Regressionsvorhersageintervall . x x neuyxxnew

gung - Wiedereinsetzung von Monica
quelle
Nehmen wir also an, ich bin aus irgendeinem Grund am meisten an der Vorhersage des Werts interessiert . Die obige Erklärung impliziert, dass ich meine Daten nicht zentrieren sollte (dh so verschieben, dass ), sondern so verschieben, dass . Ist das richtig? x ˉ x = 0 ˉ x = x 'x=xxx¯=0x¯=x
Elexhobby
Die allgemeine Formel hat im Zähler anstelle von : Es ist keine Verschiebung erforderlich. x 2(xx¯)2x¯2
whuber
@elexhobby, ich habe einige Informationen hinzugefügt, um Ihren Kommentar zu beantworten. Vielleicht möchten Sie sich auch das verlinkte Material ansehen. Lassen Sie mich wissen, wenn Sie noch mehr brauchen.
gung - Wiedereinsetzung von Monica
So verstehe ich - ich habe an anderer Stelle gelesen, dass . Nun ist der Fehler im vorhergesagten Wert bei aufgrund dieser Unsicherheit in der Steigung . Außerdem ist der Fehler aufgrund der Unsicherheit in der vertikalen Position der Linie . Kombinieren Sie diese und wir erhalten die Unsicherheit im vorhergesagten Wert aufgrund der Unsicherheit in und ist . Korrigiere mich, wenn ich falsch liege. xnewSE( β 1)(xnew- ˉ x )2σ2SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
Elexhobby
1
Außerdem ist klar, warum der Fehler in der vertikalen Position - wir wissen, dass die Linie bei durch . Jetzt enthält den Durchschnitt von iid-Fehlern und hat daher SE gleich . Beeindruckend! Vielen Dank für Ihr Diagramm und die klare Erklärung, die ich sehr schätze. σ2ny¯x=x¯y¯nσ2n
Elexhobby