In einem einfachen linearen Modell mit einer einzelnen erklärenden Variablen
Ich finde, dass das Entfernen des Intercept-Terms die Anpassung stark verbessert (der Wert von geht von 0,3 auf 0,9). Der Intercept-Term scheint jedoch statistisch signifikant zu sein.
Mit abfangen:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Ohne abzufangen:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
Wie würden Sie diese Ergebnisse interpretieren? Soll ein Intercept-Term in das Modell aufgenommen werden oder nicht?
Bearbeiten
Hier sind die restlichen Quadratsummen:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Ernest A
quelle
quelle
Antworten:
Zunächst sollten wir verstehen, was dieR2
R
Software tut, wenn das Modell keinen Intercept enthält. Man erinnere sich, dass die übliche Berechnung von wenn ein Abschnitt vorliegt, Die erste Gleichheit tritt nur aufgrund der Einbeziehung des Abschnitts in das Modell auf , obwohl dies wahrscheinlich die beliebteste der beiden Schreibweisen ist. Die zweite Gleichheit liefert tatsächlich die allgemeinere Interpretation! Dieser Punkt wird auch in dieser verwandten Frage angesprochen .R 2 = Σ i ( y i - ˉ y ) 2Aber was passiert, wenn das Modell keinen Achsenabschnitt enthält?
Nun, in diesem Fall verwendet
R
( stillschweigend! ) Die modifizierte FormEs hilft, sich daran zu erinnern, was zu messen versucht. Im ersten Fall wird Ihr aktuelles Modell mit dem Referenzmodell verglichen , das nur einen Achsenabschnitt (dh einen konstanten Term) enthält. Im zweiten Fall gibt es keinen Intercept, weshalb es wenig sinnvoll ist, ihn mit einem solchen Modell zu vergleichen. Stattdessen wird also berechnet, das implizit ein Referenzmodell verwendet, das nur dem Rauschen entspricht .R 2 0R2 R20
Im Folgenden konzentriere ich mich auf den zweiten Ausdruck für und da dieser Ausdruck auf andere Kontexte verallgemeinert wird und es im Allgemeinen natürlicher ist, über Dinge in Form von Residuen nachzudenken.R 2 0R2 R20
Aber wie unterscheiden sie sich und wann?
Lassen Sie uns einen kurzen Exkurs in eine lineare Algebra machen und sehen, ob wir herausfinden können, was los ist. Rufen wir zunächst die angepassten Werte aus dem Modell mit intercept und den angepassten Werten auf aus dem Modell ohne Intercept .y^ y~
Wir können die Ausdrücke für und als und .R2 R20
Nun, da , dann ist genau dann, wenn∥y∥22=∥y−y¯1∥22+ny¯2 R20>R2
Die linke Seite ist größer als eins ist, da das Modell zu entsprechenden innerhalb der von verschachtelt ist . Der zweite Term auf der rechten Seite ist der quadratische Mittelwert der Antworten geteilt durch den mittleren quadratischen Fehler eines reinen Abfangmodells. Je größer der Mittelwert der Reaktion im Verhältnis zu der anderen Variation ist, desto mehr "Durchhang" haben wir und desto größer ist die Wahrscheinlichkeit, dass dominiert .y~ y^ R20 R2
Beachten Sie, dass sich das gesamte modellabhängige Material auf der linken Seite und das nicht modellabhängige Material auf der rechten Seite befindet.
Ok, wie machen wir das Verhältnis auf der linken Seite klein?
erinnern dass und wobei und Projektionsmatrizen sind, die den Teilräumen und so dass .y~=P0y y^=P1y P0 P1 S0 S1 S0⊂S1
Damit das Verhältnis nahe eins ist, müssen die Unterräume und sehr ähnlich sein. Jetzt unterscheiden sich und nur darin, ob ein Basisvektor ist oder nicht, was bedeutet, dass besser ein Unterraum ist, der bereits sehr nahe bei .S0 S1 S0 S1 1 S0 1
Im Wesentlichen bedeutet dies, dass unser Prädiktor selbst einen starken Mittelwert-Offset haben sollte und dass dieser Mittelwert-Offset die Variation des Prädiktors dominieren sollte.
Ein Beispiel
Hier versuchen wir, ein Beispiel mit einem Achsenabschnitt zu generieren, der explizit im Modell enthalten ist und der sich in der fraglichen Situation ähnlich verhält. Unten ist ein einfacher
R
Code zum Demonstrieren.Dies ergibt die folgende Ausgabe. Wir beginnen mit dem Modell mit Intercept.
Dann sehen, was passiert , wenn wir ausschließen den Schnitt.
Unten sehen Sie eine grafische Darstellung der Daten mit dem Modell mit Schnittpunkt in Rot und dem Modell ohne Schnittpunkt in Blau.
quelle
Ich würde meine Entscheidung auf ein Informationskriterium wie das Akaike- oder Bayes-Schwarz-Kriterium stützen und nicht auf R ^ 2. auch dann würde ich diese nicht als absolut ansehen.
Wenn Sie einen Prozess haben, bei dem die Steigung nahe Null ist und alle Daten weit vom Ursprung entfernt sind, sollte Ihr korrektes R ^ 2 niedrig sein, da der größte Teil der Variation der Daten auf Rauschen zurückzuführen ist. Wenn Sie versuchen, solche Daten an ein Modell ohne Intercept anzupassen, wird ein großer und falscher Steigungsbegriff generiert und wahrscheinlich ein besser aussehender R ^ 2, wenn die interceptfreie Version verwendet wird.
Die folgende Grafik zeigt, was in diesen extremen Fällen passiert. Hier ist der Erzeugungsprozess, dass x = 100.100,1, ... und y nur 100 + zufälliges Rauschen mit dem Mittelwert 0 und der Standardabweichung .1 ist. Die Punkte sind schwarze Kreise, die Passung ohne den Schnittpunkt ist die blaue Linie und die Passung mit dem Schnittpunkt (Nullung der Steigung) ist die rote Linie:
[Entschuldigung, ich kann das Diagramm nicht veröffentlichen. Führen Sie den folgenden R-Code aus, um ihn zu generieren. Es zeigt den Ursprung in der unteren linken Ecke, die Punktgruppe in der oberen rechten Ecke. Die schlechte No-Intercept-Anpassung verläuft von links unten nach rechts oben, und die richtige Anpassung ist eine Linie parallel zur x-Achse.]
Das richtige Modell dafür sollte ein R ^ 2 von Null haben - ein konstantes und zufälliges Rauschen. R gibt Ihnen und R ^ 2 von 0,99 für die Anpassung ohne Intercept. Dies spielt keine große Rolle, wenn Sie das Modell nur zur Vorhersage von x-Werten innerhalb des Bereichs der Trainingsdaten verwenden. Es schlägt jedoch kläglich fehl, wenn x außerhalb des engen Bereichs des Trainingssatzes liegt oder Sie versuchen, echte Erkenntnisse zu gewinnen jenseits aller Voraussagen.
Der AIC zeigt korrekt, dass das Modell mit dem Achsenabschnitt bevorzugt wird. Der R-Code hierfür lautet:
Der AIC-Ausgang ist
Beachten Sie, dass der AIC in diesem Fall immer noch das falsche Modell erhält, da das wahre Modell das konstante Modell ist. Andere Zufallszahlen liefern jedoch Daten, für die der AIC für das konstante Modell am niedrigsten ist. Beachten Sie, dass Sie, wenn Sie die Steigung verwerfen, das Modell ohne sie wieder einbauen sollten, nicht versuchen sollten, den Schnittpunkt aus dem Modell zu verwenden und die Steigung zu ignorieren.
quelle