Was berechnet die Formel y ~ x + 0 in R tatsächlich?

11

Was ist der statistische Unterschied zwischen einer linearen Regression in R mit der formulaMenge auf y ~ x + 0statt y ~ x? Wie interpretiere ich diese beiden unterschiedlichen Ergebnisse?

JimBoy
quelle

Antworten:

17

Das Hinzufügen +0(oder -1) zu einer Modellformel (z. B. in lm()) in R unterdrückt den Achsenabschnitt. Dies wird allgemein als eine schlechte Sache angesehen; sehen:

Die geschätzte Steigung wird unterschiedlich berechnet, abhängig davon, ob der Achsenabschnitt ebenfalls geschätzt wird, nämlich:

(with intercept)β^1=xiyi(xi)(yi)Nxi2(xi)2N(without intercept)β^1=xiyixi2

0

R2

Hier sind die zugrunde liegenden Formeln:

(with intercept)R2=1(yiy^i)2(yiy¯)2(without intercept)R2=1(yiy^i)2yi2
gung - Monica wieder einsetzen
quelle
Danke, Gung! Wenn ich den Intercept unterdrücke, verbessert sich plötzlich mein mehrfaches R-Quadrat. Kannst du mir hier raushelfen?
JimBoy
6
Es gibt keinen vereinbarten Weg, um das Quadrat r ohne einen Achsenabschnitt zu berechnen. Das Quadrat r hat nicht die übliche Interpretation. Regression ohne Abfangen zu machen ist fast immer eine SEHR schlechte Idee
Repmat
5

Es hängt (natürlich) vom Kontext ab, im lm(...)Befehl in R wird der Achsenabschnitt unterdrückt. Das heißt, Sie machen eine Regression durch den Ursprung.

Beachten Sie, dass die meisten Lehrbücher zum Thema Regression Ihnen sagen, dass es eine schlechte Idee ist, den Achsenabschnitt (auf einen beliebigen Wert) zu erzwingen.

Die Interpretation von x ändert sich nicht, aber der Wert (im Vergleich mit und ohne Achsenabschnitt) ändert sich manchmal sehr signifikant.

Repmat
quelle
Danke, Repmat! Ich erhalte sehr unterschiedliche Schätzungen, wenn ich den Achsenabschnitt unterdrücke, als wenn ich dies nicht tue. Darüber hinaus gewinnen alle T-Tests an Bedeutung. Weißt du warum das so ist?
JimBoy
2
Der Achsenabschnitt absorbiert alle Nicht-0-Mittelwertvariablen, die nicht im Modell enthalten sind. Wenn der Achsenabschnitt weg ist, muss die Varianz irgendwohin gehen. Aus diesem Grund heißt es in den meisten Büchern in der Regel, dass eine Regression ohne Unterbrechung immer falsch ist. Das heißt, OLS ist in diesem Fall immer voreingenommen und konsistent (mit wenigen Ausnahmen).
Repmat