Wann kann der Achsenabschnitt in einem linearen Regressionsmodell entfernt werden?

118

Ich verwende lineare Regressionsmodelle und frage mich, unter welchen Bedingungen der Intercept-Term entfernt werden kann.

Beim Vergleich der Ergebnisse von zwei verschiedenen Regressionen, bei denen die eine den Achsenabschnitt hat und die andere nicht, stelle ich fest, dass das der Funktion ohne den Achsenabschnitt viel höher ist. Gibt es bestimmte Bedingungen oder Annahmen, die ich beachten sollte, um sicherzustellen, dass das Entfernen des Abfangbegriffs gültig ist?R2

analyticsPierce
quelle
1
@chi danke für die Bearbeitung meiner Frage. Gibt es Dinge, die ich in zukünftigen Fragen klären oder umformulieren sollte?
analyticsPierce
3
Ihre Frage ist gut formuliert. @chl hat freundlicherweise einige Formatierungen verbessert, das ist alles. Es beinhaltete das TeXifizieren des "R ^ 2" (es wurde in R ^ 2 , was als ). $ R 2$$R2
whuber
1
Was würde der Achsenabschnitt in Ihrem Modell bedeuten? Aus den Informationen in Ihrer Frage geht hervor, dass dies der erwartete Wert Ihrer Antwort ist, wenn sqft = 0 und lotsize = 0 und baths = 0 sind. Wird das jemals in der Realität passieren?
Timbp
1
Kann ich a anstelle von y = a + b1 x1 + b2 x2 + b3x3 weglassen?
Travis
3
NB : Einige dieser Kommentare und Antworten befassen sich im Wesentlichen mit der gleichen Frage (im Zusammenhang mit einer Rückführung der Immobilienpreise), die als Duplikat mit dieser Frage zusammengeführt wurde.
Whuber

Antworten:

87

Die kürzeste Antwort lautet : Niemals , es sei denn, Sie sind sich sicher, dass Ihre lineare Annäherung des Datenerzeugungsprozesses (lineares Regressionsmodell) aus theoretischen oder anderen Gründen den Ursprung durchlaufen muss . Wenn dies nicht der Fall ist, werden die anderen Regressionsparameter verzerrt, auch wenn der Achsenabschnitt statistisch unbedeutend ist (seltsam, aber dies ist der Fall, wenden Sie sich zum Beispiel an Brooks Introductory Econometrics ). Schließlich stellen Sie, wie ich meinen Schülern oft erkläre, durch Verlassen des Intercept-Terms sicher, dass die Restlaufzeit gleich Null ist.

Für Ihren Fall mit zwei Modellen benötigen wir mehr Kontext. Es kann vorkommen, dass das lineare Modell hier nicht geeignet ist. Beispielsweise müssen Sie die Transformation zuerst protokollieren, wenn das Modell multiplikativ ist. Bei exponentiell wachsenden Prozessen kann es gelegentlich vorkommen, dass für das Modell ohne den Achsenabschnitt "viel" höher ist.R2

Überprüfen Sie die Daten, testen Sie das Modell mit dem RESET-Test oder einem anderen linearen Spezifikationstest. Dies kann hilfreich sein, um festzustellen, ob meine Vermutung zutrifft. Und das Bauen der Modelle mit dem höchsten ist eine der letzten statistischen Eigenschaften, um die ich mich wirklich kümmere, aber es ist schön, den Leuten zu präsentieren, die sich mit Ökonometrie nicht so gut auskennen (es gibt viele schmutzige Tricks, mit denen man die Bestimmung nahe bringen kann) 1 :)).R2

Dmitrij Celov
quelle
3
-1 für "nie", siehe Beispiel 1 von Joshuas 'Antwort
Curious
4
@Curious, "never" wird mit "except" geschrieben. Die folgenden Beispiele zeigen nur die Ausnahmen, wenn es legal ist, Intercept zu entfernen. Wenn Sie den Prozess oder die Theorie der Datengenerierung nicht kennen oder nicht gezwungen sind, den Ursprung durch Standardisierung oder ein anderes spezielles Modell zu untersuchen, behalten Sie es bei. Das Abfangen funktioniert so, als würde man den Papierkorb verwenden, um alle durch lineare Approximation und andere Vereinfachungen verursachten Verzerrungen zu erfassen. PS praktisch die Antwort zeigt, dass Sie gerade am kürzesten gelesen haben :) Vielen Dank an Joshua (+1) für die erweiterten Beispiele.
Dmitrij Celov
3
Sie haben den Punkt von Joshua, Beispiel 1, verpasst und scheinen ihn immer noch vollständig zu ignorieren. In Modellen mit kategorialer Kovariate führt das Entfernen des Abschnitts zu demselben Modell mit nur unterschiedlicher Parametrisierung. Dies ist ein legitimer Fall, wenn Intercept entfernt werden kann.
Neugierig
2
@Curious, in Joshua, Beispiel 1, müssen Sie eine neue Dummy-Variable für die Ebene der kategorialen Variablen hinzufügen, die Sie zuvor als Basisvariable angesehen haben. Diese neue Dummy-Variable nimmt den Wert des Abschnitts an, sodass Sie den Abschnitt NICHT entfernen. benenne es einfach um und parametrisiere den Rest der Parameter der kategorialen Kovariate neu. Daher gilt das Argument von Dmitrij.
Rufo
59

Das Entfernen des Abschnitts ist ein anderes Modell, aber es gibt viele Beispiele, bei denen dies legitim ist. Bisherige Antworten haben das Beispiel mit dem wahren Achsenabschnitt 0 bereits ausführlich erörtert. Ich werde mich auf einige Beispiele konzentrieren, bei denen wir möglicherweise an einer atypischen Modellparametrisierung interessiert sind.

Beispiel 1: Das Modell im ANOVA-Stil. Für kategoriale Variablen erstellen wir normalerweise Binärvektoren, die die Gruppenzugehörigkeit codieren. Das Standard-Regressionsmodell wird als Intercept + k - 1 Dummy-Vektoren parametrisiert. Der Schnittpunkt codiert den erwarteten Wert für die "Referenz" -Gruppe oder den weggelassenen Vektor, und die verbleibenden Vektoren testen die Differenz zwischen jeder Gruppe und der Referenz. In einigen Fällen kann es jedoch nützlich sein, den erwarteten Wert jeder Gruppe zu haben.

dat <- mtcars
dat$vs <- factor(dat$vs)

## intercept model: vs coefficient becomes difference
lm(mpg ~ vs + hp, data = dat)

Coefficients:
(Intercept)          vs1           hp  
   26.96300      2.57622     -0.05453  

## no intercept: two vs coefficients, conditional expectations for both groups
lm(mpg ~ 0 + vs + hp, data = dat)

Coefficients:
     vs0       vs1        hp  
26.96300  29.53922  -0.05453  

Beispiel 2: Der Fall standardisierter Daten. In einigen Fällen kann man mit standardisierten Daten arbeiten. In diesem Fall ist der Achsenabschnitt von Entwurf 0. Ich denke, ein klassisches Beispiel dafür waren Strukturgleichungsmodelle oder -faktoren alten Stils, die nur mit den Kovarianzmatrizen von Daten arbeiteten. Im folgenden Fall ist es wahrscheinlich eine gute Idee, den Achsenabschnitt trotzdem zu schätzen, wenn nur der zusätzliche Freiheitsgrad (den Sie eigentlich sowieso verlieren sollten, weil der Mittelwert geschätzt wurde) fallen gelassen werden soll, aber es gibt eine Handvoll Situationen, in denen durch Konstruktion, Mittelwerte können 0 sein (z. B. bestimmte Experimente, bei denen die Teilnehmer Bewertungen vergeben, aber gezwungen sind, gleichermaßen positive und negative Ergebnisse zu liefern).

dat <- as.data.frame(scale(mtcars))

## intercept is 0 by design
lm(mpg ~ hp + wt, data = dat)

Coefficients:
(Intercept)           hp           wt  
  3.813e-17   -3.615e-01   -6.296e-01  

## leaving the intercept out    
lm(mpg ~ 0 + hp + wt, data = dat)

Coefficients:
     hp       wt  
-0.3615  -0.6296  

Beispiel 3: Multivariate Modelle und verborgene Abschnitte. Dieses Beispiel ähnelt in vielerlei Hinsicht dem ersten. In diesem Fall wurden die Daten so gestapelt, dass sich nun zwei verschiedene Variablen in einem langen Vektor befinden. Eine zweite Variable codiert Informationen darüber, ob der Antwortvektor yzu mpgoder gehört disp. In diesem Fall unterdrücken Sie den Gesamtabschnitt und schließen beide Dummy-Vektoren für die Messung ein, um die separaten Abschnitte für jedes Ergebnis zu erhalten. Dies ist eine Art multivariate Analyse. Dies wird normalerweise nicht mit ausgeführtlm()da hast du wiederholte maßnahmen und solltest wohl die ununabhängigkeit berücksichtigen. Es gibt jedoch einige interessante Fälle, in denen dies erforderlich ist. Wenn Sie beispielsweise versuchen, eine Mediationsanalyse mit zufälligen Effekten durchzuführen, um die vollständige Varianz-Kovarianz-Matrix zu erhalten, müssen Sie beide Modelle gleichzeitig schätzen. Dies kann durch Stapeln der Daten und eine geschickte Verwendung von Dummy-Vektoren erfolgen.

## stack data for multivariate analysis
dat <- reshape(mtcars, varying = c(1, 3), v.names = "y",
  timevar = "measure", times = c("mpg", "disp"), direction = "long")
dat$measure <- factor(dat$measure)

## two regressions with intercepts only
lm(cbind(mpg, disp) ~ 1, data = mtcars)

Coefficients:
             mpg     disp  
(Intercept)   20.09  230.72

## using the stacked data, measure is difference between outcome means
lm(y ~ measure, data = dat)

Coefficients:
(Intercept)   measurempg  
      230.7       -210.6  

## separate 'intercept' for each outcome
lm(y ~ 0 + measure, data = dat)

Coefficients:
measuredisp   measurempg  
     230.72        20.09  

Ich behaupte nicht, dass Intercepts generell entfernt werden sollten, aber es ist gut, flexibel zu sein.

Joshua
quelle
7
+1. Ich nahm nicht an, dass die Leute starr 'nie' sagten, aber es ist immer schön, eine andere Perspektive zu haben und dies ist eine sehr klare und nachdenkliche Antwort. Willkommen bei CV, es wäre toll, Sie als Teil der Community zu haben.
gung
3
@gung danke, du hast recht. Ich habe diese Sprache aus meiner Antwort heraus bearbeitet, da ich denke, dass sie entzündlich und unnötig war.
Joshua
1
@Joshua: Tut mir leid, dass ich eine Frage zu einem fast 2 Jahre alten Beitrag stelle, aber gibt es Referenzen zu Ihrem ersten Beispiel? Ich denke darüber nach, ein No-Intercept-Modell für meine Daten auszuführen, bei dem die Prädiktorvariable kategorisch ist, und ich möchte wissen, ob sich jede Ebene erheblich von 0 unterscheidet. Danke!
Alex
@Alex Jeder gute Regressionstext sollte funktionieren (Kapitel 8 der Angewandten multiplen Regression / Korrelationsanalyse für die Verhaltenswissenschaften, 3. Ausgabe, behandelt dies einige) --- Sie brauchen ihn nur, um über Kontraste zu sprechen und wie Sie kategoriale Variablen als Dummy kennzeichnen. Eine Möglichkeit, darüber nachzudenken, besteht darin, dass Sie separate Abschnitte für jede Gruppe schätzen, anstatt den Abschnitt wegzulassen.
Joshua
@Joshua, dein erstes Beispiel hat an anderer Stelle auf dieser Site für einige Verwirrung gesorgt . Mein Verständnis hier ist, dass Sie einen praktischen Trick vorschlagen, um Parameterschätzungen anzuzeigen, ohne sich mit dem Hinzufügen des Werts für den Abschnitt herumschlagen zu müssen, und dass Sie nicht vorschlagen, dass der übliche Kurs darin besteht, ein Modell zu verwenden, bei dem der Abschnitt entfernt ist, um eine Anova durchzuführen. In R würde man in fast jedem Fall ein Modell mit einem Achsenabschnitt verwenden, um eine traditionelle Anova durchzuführen.
Sal Mangiafico
29

Hier gibt es gute Antworten. Zwei kleine Dinge:

  1. In Bezug auf ein höheres wenn der Achsenabschnitt fallengelassen wird, sollten Sie diese ausgezeichnete Antwort von @ cardinal lesen. (Kurz gesagt, statistische Software verwendet manchmal eine andere Definition für wenn der Schnittpunkt auf 0 gesetzt wird. Daher ist der gemeldete für Modelle mit und ohne Schnittpunkt möglicherweise einfach nicht vergleichbar.) R2R 2R2R2
  2. Mehrere Personen machen den Punkt, dass Sie sicher sein sollten, dass der Achsenabschnitt (aus theoretischen Gründen) 0 sein muss, bevor er fallen gelassen wird, und nicht nur, dass er nicht "signifikant" ist. Ich denke das ist richtig, aber es ist nicht die ganze Geschichte. Sie müssen auch wissen, dass die Funktion zur Erzeugung echter Daten über den gesamten Bereich von , mit dem Sie arbeiten, bis hinunter zu 0 vollkommen linear ist leicht gewölbt. Es kann durchaus sinnvoll sein, die Funktion so zu behandeln, als ob sie im Bereich Ihrer Beobachtungen linear wäre, auch wenn dies nicht perfekt ist, aber wenn dies nicht der Fall ist.Xauch wenn der wahre Achsenabschnitt 0 ist .
gung
quelle
2
@AdamO macht hier einen ähnlichen Punkt wie # 2: Positiver linearer Regressionskoeffizient , entwickelt die Idee jedoch viel vollständiger.
gung
14

Sie sollten den Achsenabschnitt nicht fallen lassen, unabhängig davon, ob Sie wahrscheinlich alle erklärenden Variablen mit Werten von Null sehen werden oder nicht.

Auf eine sehr ähnliche Frage gibt es hier eine gute Antwort .

Wenn Sie den Abschnitt entfernen, werden alle anderen Schätzungen verzerrt. Selbst wenn der wahre Wert des Abschnitts ungefähr Null ist (was alles ist, was Sie aus Ihren Daten schließen können), spielen Sie mit den Steigungen herum, wenn Sie ihn genau auf Null setzen.

AUSSER - Sie messen etwas mit einem sehr klaren und offensichtlichen physikalischen Modell, bei dem der Achsenabschnitt Null sein muss (z. B. haben Sie Höhe, Breite und Länge eines rechteckigen Prismas als erklärende Variablen und die Antwortvariable ist das Volumen mit einem gewissen Messfehler). Wenn Ihre Antwortvariable der Wert des Hauses ist, müssen Sie auf jeden Fall den Intercept in belassen.

Peter Ellis
quelle
1
Können Sie bitte erklären, warum wir den Intercept für die Vorhersage der Immobilienpreise benötigen? warum sollte das ganze X für jedes Haus Null sein?
Elf
10

OK, Sie haben die Frage also VIEL geändert

Sie können den Intercept weglassen, wenn Sie wissen, dass er 0 ist. Und nein, Sie können es nicht tun, weil es sich nicht wesentlich von 0 unterscheidet. Sie müssen wissen, dass es 0 ist, oder Ihre Residuen sind voreingenommen. Und in diesem Fall ist es 0, sodass es keinen Unterschied macht, wenn Sie es weglassen. Lassen Sie es daher niemals weg.

Der Befund mit legt nahe, dass die Daten nicht linear sind. Und da Sie die Fläche als Prädiktor hatten, ist diese wahrscheinlich definitiv nicht linear. Sie könnten den Prädiktor transformieren, um das zu beheben.R2

John
quelle
2
Was ist, wenn wir die Integration mit Engle / Granger in zwei Schritten testen möchten? en.wikipedia.org/wiki/Cointegration
Jase
5

Die meisten multiplen Regressionsmodelle enthalten einen konstanten Term (dh den Achsenabschnitt), da dies sicherstellt, dass das Modell unverzerrt ist - dh der Mittelwert der Residuen ist genau Null. (Die Koeffizienten in einem Regressionsmodell werden durch kleinste Quadrate geschätzt, dh durch Minimierung des mittleren quadratischen Fehlers. Der mittlere quadratische Fehler entspricht nun der Varianz der Fehler plus dem Quadrat ihres Mittelwerts: Dies ist eine mathematische Identität. Ändern Der Wert der Konstanten im Modell ändert den Mittelwert der Fehler, beeinflusst jedoch nicht die Varianz. Wenn die Summe der quadratischen Fehler minimiert werden soll, muss die Konstante so gewählt werden, dass der Mittelwert der Fehler Null ist. )

In einem einfachen Regressionsmodell repräsentiert die Konstante den Y-Achsenabschnitt der Regressionslinie in nicht standardisierter Form. In einem multiplen Regressionsmodell stellt die Konstante den Wert dar, der für die abhängige Variable vorhergesagt würde, wenn alle unabhängigen Variablen gleichzeitig gleich Null wären - eine Situation, die möglicherweise physikalisch oder wirtschaftlich nicht sinnvoll ist. Wenn Sie nicht besonders interessiert sind, was passieren würde, wenn alle unabhängigen Variablen gleichzeitig Null wären, belassen Sie die Konstante normalerweise im Modell, unabhängig von ihrer statistischen Signifikanz. Das Vorhandensein der Konstanten stellt nicht nur sicher, dass die In-Sample-Fehler unverzerrt sind, sondern ermöglicht es der Regressionslinie auch, "ihren eigenen Pegel zu suchen" und die beste Anpassung an Daten zu erzielen, die möglicherweise nur lokal linear sind.

In seltenen Fällen möchten Sie jedoch die Konstante aus dem Modell ausschließen. Dies ist eine Modellanpassungsoption im Regressionsverfahren in jedem Softwarepaket und wird manchmal als Regression durch den Ursprung, oder kurz RTO, bezeichnet. Normalerweise wird dies nur durchgeführt, wenn:

  1. Man kann sich vorstellen, dass die unabhängigen Variablen alle gleichzeitig den Wert Null annehmen. In diesem Fall sollte logischerweise auch die abhängige Variable gleich Null sein. oder aber
  2. Die Konstante ist mit der Menge der unabhängigen Variablen, die Sie verwenden möchten, redundant.

Ein Beispiel für Fall (1) wäre ein Modell, in dem alle Variablen - abhängig und unabhängig - erste Unterschiede anderer Zeitreihen darstellen. Wenn Sie die erste Differenz von Y auf die erste Differenz von X zurückführen, prognostizieren Sie Änderungen in Y direkt als lineare Funktion von Änderungen in X, ohne auf die aktuellen Ebenen der Variablen Bezug zu nehmen. In diesem Fall kann es vernünftig (wenn auch nicht erforderlich) sein, anzunehmen, dass Y im Durchschnitt unverändert bleiben sollte, wenn X unverändert bleibt, dh, dass Y keinen Aufwärts- oder Abwärtstrend aufweisen sollte, wenn sich nichts an der Zahl ändert Level von X.

Ein Beispiel für Fall (2) wäre eine Situation, in der Sie einen vollständigen Satz saisonaler Indikatorvariablen verwenden möchten - z. B. Sie verwenden vierteljährliche Daten und Sie möchten Variablen Q1, Q2, Q3 und Q4 einschließen, die den Zusatz darstellen saisonale Effekte. Somit könnte Q1 wie folgt aussehen: 1 0 0 0 1 0 0 0 ..., Q2 würde wie folgt aussehen: 0 1 0 0 0 1 0 0 ... und so weiter. Sie können nicht alle vier und eine Konstante im selben Modell verwenden, da Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . Dies ist das Gleiche wie ein konstanter Begriff. Dh, die fünf Variablen Q1, Q2, Q3, Q4 und CONSTANT sind nicht linear unabhängig: Jede von ihnen kann als lineare Kombination der anderen vier ausgedrückt werden. Eine technische Voraussetzung für die Anpassung eines linearen Regressionsmodells ist, dass die unabhängigen Variablen linear unabhängig sind. Andernfalls können die Koeffizienten der kleinsten Quadrate nicht eindeutig bestimmt werden.

Ein Wort der Warnung: R-Quadrat und F-Statistik haben in einem RTO-Modell nicht die gleiche Bedeutung wie in einem normalen Regressionsmodell und werden nicht von jeder Software auf die gleiche Weise berechnet. In diesem Artikel finden Sie einige Vorsichtsmaßnahmen. Sie sollten nicht versuchen, das R-Quadrat zwischen Modellen zu vergleichen, die einen konstanten Term enthalten oder nicht, obwohl es in Ordnung ist, den Standardfehler der Regression zu vergleichen.

Beachten Sie, dass der Begriff "unabhängig" im Regressionsjargon auf (mindestens) drei verschiedene Arten verwendet wird: Jede einzelne Variable kann als unabhängige Variable bezeichnet werden, wenn sie als Prädiktor und nicht als Prädikat verwendet wird. Eine Gruppe von Variablen ist linear unabhängig, wenn keine von ihnen exakt als lineare Kombination der anderen ausgedrückt werden kann. Ein Variablenpaar wird als statistisch unabhängig bezeichnet, wenn es nicht nur linear unabhängig, sondern auch in Bezug aufeinander völlig uninformativ ist. In einem Regressionsmodell soll Ihre abhängige Variable statistisch von den unabhängigen Variablen abhängig sein, die linear (aber nicht unbedingt statistisch) voneinander unabhängig sein müssen.

user62524
quelle
2
Auf welchen Artikel beziehen Sie sich?
gung
2

Volle Überarbeitung meiner Gedanken. In der Tat wird das Fallenlassen des Abschnitts ein Verzerrungsproblem verursachen.

Haben Sie darüber nachgedacht, Ihre Daten zu zentrieren, damit ein Abschnitt eine gewisse Bedeutung hat, und um zu vermeiden, zu erklären, wie einige (unvernünftige) Werte negative Werte ergeben könnten? Wenn Sie alle drei erklärenden Variablen durch Subtrahieren der mittleren Quadratmeterzahl, der mittleren Losgröße und des mittleren Bades anpassen, zeigt der Achsenabschnitt jetzt den Wert (eines Hauses?) Mit durchschnittlicher Quadratmeterzahl, Losgröße und Badezahl an.

Diese Zentrierung ändert nichts an der relativen Beziehung der unabhängigen Variablen. Wenn Sie das Modell also auf die zentrierten Daten anwenden, werden Bäder immer noch als unbedeutend angesehen. Montieren Sie das Modell ohne die mitgelieferte Badewanne. Sie erhalten möglicherweise immer noch einen großen p-Wert für den Achsenabschnitt, dieser sollte jedoch enthalten sein, und Sie erhalten ein Modell der Form y = a + b (Quadratmeter) + c (Losgröße).

RGF
quelle
1

Ich habe nur einige Zeit damit verbracht, eine ähnliche Frage zu beantworten, die von jemand anderem gestellt wurde, aber sie war geschlossen. Hier gibt es einige gute Antworten, aber die Antwort, die ich gebe, ist etwas einfacher. Es ist möglicherweise besser für Menschen geeignet, die ein schwaches Verständnis von Regression haben.

F1: Wie interpretiere ich den Achsenabschnitt in meinem Modell?

In Regressionsmodellen besteht das Ziel darin, die ungeklärte Varianz einer Ergebnisvariablen zu minimieren:

y = b0 + b1⋅x + ϵ

Dabei ist y der vorhergesagte Wert Ihres Ergebnismaßes (z. B. log_blood_hg), b0 der Achsenabschnitt, b1 die Steigung, x eine Prädiktorvariable und ϵ der Restfehler.

Der Achsenabschnitt (b0) ist der vorhergesagte Mittelwert von y, wenn alle x = 0. Mit anderen Worten, es ist der Basiswert von y, bevor Sie Variablen (z. B. Spezies) verwendet haben, um die Varianz in log_blood_hg weiter zu minimieren oder zu erklären .

Durch Hinzufügen einer Steigung (die schätzt, wie sich eine Zunahme / Abnahme von log_blood_hg um eine Einheit mit einer Zunahme von x ändert, z. B. Spezies) fügen wir das hinzu, was wir bereits über die Ergebnisvariable wissen, dh ihren Grundlinienwert (d. H abfangen), basierend auf der Änderung einer anderen Variablen.

Frage 2: Wann ist es angebracht, den Achsenabschnitt einzuschließen oder nicht einzuschließen, insbesondere im Hinblick auf die Tatsache, dass die Modelle sehr unterschiedliche Ergebnisse liefern?

Für einfache Modelle wie dieses ist es nie wirklich angebracht, den Intercept fallen zu lassen.

Die Modelle führen zu unterschiedlichen Ergebnissen, wenn Sie den Achsenabschnitt fallen lassen, da die Steigung nicht auf dem Grundlinienwert von Y basiert, sondern durch den Nullpunkt von y gehen muss. Daher wird die Steigung steiler (dh stärker und signifikanter) ), weil Sie die Linie durch den Ursprung gezwungen haben, und nicht, weil dadurch die Varianz in y besser minimiert wird. Mit anderen Worten, Sie haben künstlich ein Modell erstellt, das die Varianz in y minimiert, indem Sie den Achsenabschnitt oder den anfänglichen Erdungspunkt für Ihr Modell entfernen.

Es gibt Fälle, in denen das Entfernen des Abschnitts angemessen ist - beispielsweise bei der Beschreibung eines Phänomens mit einem 0-Achsenabschnitt. Sie können darüber lesen Sie hier , wie auch weitere Gründe , warum ist es, ein Intercept Entfernen nicht eine gute Idee.

PyjamaNinja
quelle
1

Kurze Antwort : (fast) NIE. Wenn Sie im linearen Regressionsmodell , sagen Sie, dass Sie WISSEN, dass der erwartete Wert von bei Null ist. Das weiß man so gut wie nie.

y=α+βx+ϵ
α=0yx=0

R2 wird ohne Unterbrechung höher, nicht weil das Modell besser ist, sondern weil die Definition von eine andere ist! ist ein Ausdruck eines Vergleichs des geschätzten Modells mit einem Standardmodell, ausgedrückt als Reduktion der Quadratsumme im Vergleich zur Quadratsumme mit dem Standardmodell. In dem Modell mit Achsenabschnitt liegt die Vergleichssumme der Quadrate um den Mittelwert. Ohne Abfangen ist es ungefähr Null! Der letzte ist normalerweise viel höher, so dass es einfacher ist, die Quadratsumme stark zu reduzieren.R2R2

Fazit: LASSEN SIE DEN INTERCEPT NICHT AUS DEM MODELL (es sei denn, Sie wissen wirklich, was Sie tun).

Einige Ausnahmen : Eine Ausnahme ist eine Regression, die eine Einweg-ANOVA mit Dummies für ALLE Faktorstufen darstellt (normalerweise wird eine weggelassen) (dies scheint jedoch nur eine Ausnahme zu sein, da sich der Konstantenvektor 1 im Spaltenbereich der Modellmatrix befindet ) Andernfalls wie bei physikalischen Beziehungen bei denen keine Konstante existiert. Aber selbst dann, wenn das Modell nur ungefähr ist (Geschwindigkeit ist nicht wirklich konstant), ist es möglicherweise besser, eine Konstante beizubehalten, auch wenn sie nicht interpretiert werden kann. Xs=vt

Es gibt auch Sondermodelle, die den Schnittpunkt weglassen. Ein Beispiel sind gepaarte Daten, Zwillingsstudien .

kjetil b halvorsen
quelle