Ich verwende lineare Regressionsmodelle und frage mich, unter welchen Bedingungen der Intercept-Term entfernt werden kann.
Beim Vergleich der Ergebnisse von zwei verschiedenen Regressionen, bei denen die eine den Achsenabschnitt hat und die andere nicht, stelle ich fest, dass das der Funktion ohne den Achsenabschnitt viel höher ist. Gibt es bestimmte Bedingungen oder Annahmen, die ich beachten sollte, um sicherzustellen, dass das Entfernen des Abfangbegriffs gültig ist?
regression
linear-model
r-squared
intercept
analyticsPierce
quelle
quelle
Antworten:
Die kürzeste Antwort lautet : Niemals , es sei denn, Sie sind sich sicher, dass Ihre lineare Annäherung des Datenerzeugungsprozesses (lineares Regressionsmodell) aus theoretischen oder anderen Gründen den Ursprung durchlaufen muss . Wenn dies nicht der Fall ist, werden die anderen Regressionsparameter verzerrt, auch wenn der Achsenabschnitt statistisch unbedeutend ist (seltsam, aber dies ist der Fall, wenden Sie sich zum Beispiel an Brooks Introductory Econometrics ). Schließlich stellen Sie, wie ich meinen Schülern oft erkläre, durch Verlassen des Intercept-Terms sicher, dass die Restlaufzeit gleich Null ist.
Für Ihren Fall mit zwei Modellen benötigen wir mehr Kontext. Es kann vorkommen, dass das lineare Modell hier nicht geeignet ist. Beispielsweise müssen Sie die Transformation zuerst protokollieren, wenn das Modell multiplikativ ist. Bei exponentiell wachsenden Prozessen kann es gelegentlich vorkommen, dass für das Modell ohne den Achsenabschnitt "viel" höher ist.R2
Überprüfen Sie die Daten, testen Sie das Modell mit dem RESET-Test oder einem anderen linearen Spezifikationstest. Dies kann hilfreich sein, um festzustellen, ob meine Vermutung zutrifft. Und das Bauen der Modelle mit dem höchsten ist eine der letzten statistischen Eigenschaften, um die ich mich wirklich kümmere, aber es ist schön, den Leuten zu präsentieren, die sich mit Ökonometrie nicht so gut auskennen (es gibt viele schmutzige Tricks, mit denen man die Bestimmung nahe bringen kann) 1 :)).R2
quelle
Das Entfernen des Abschnitts ist ein anderes Modell, aber es gibt viele Beispiele, bei denen dies legitim ist. Bisherige Antworten haben das Beispiel mit dem wahren Achsenabschnitt 0 bereits ausführlich erörtert. Ich werde mich auf einige Beispiele konzentrieren, bei denen wir möglicherweise an einer atypischen Modellparametrisierung interessiert sind.
Beispiel 1: Das Modell im ANOVA-Stil. Für kategoriale Variablen erstellen wir normalerweise Binärvektoren, die die Gruppenzugehörigkeit codieren. Das Standard-Regressionsmodell wird als Intercept + k - 1 Dummy-Vektoren parametrisiert. Der Schnittpunkt codiert den erwarteten Wert für die "Referenz" -Gruppe oder den weggelassenen Vektor, und die verbleibenden Vektoren testen die Differenz zwischen jeder Gruppe und der Referenz. In einigen Fällen kann es jedoch nützlich sein, den erwarteten Wert jeder Gruppe zu haben.
Beispiel 2: Der Fall standardisierter Daten. In einigen Fällen kann man mit standardisierten Daten arbeiten. In diesem Fall ist der Achsenabschnitt von Entwurf 0. Ich denke, ein klassisches Beispiel dafür waren Strukturgleichungsmodelle oder -faktoren alten Stils, die nur mit den Kovarianzmatrizen von Daten arbeiteten. Im folgenden Fall ist es wahrscheinlich eine gute Idee, den Achsenabschnitt trotzdem zu schätzen, wenn nur der zusätzliche Freiheitsgrad (den Sie eigentlich sowieso verlieren sollten, weil der Mittelwert geschätzt wurde) fallen gelassen werden soll, aber es gibt eine Handvoll Situationen, in denen durch Konstruktion, Mittelwerte können 0 sein (z. B. bestimmte Experimente, bei denen die Teilnehmer Bewertungen vergeben, aber gezwungen sind, gleichermaßen positive und negative Ergebnisse zu liefern).
Beispiel 3: Multivariate Modelle und verborgene Abschnitte. Dieses Beispiel ähnelt in vielerlei Hinsicht dem ersten. In diesem Fall wurden die Daten so gestapelt, dass sich nun zwei verschiedene Variablen in einem langen Vektor befinden. Eine zweite Variable codiert Informationen darüber, ob der Antwortvektor
y
zumpg
oder gehörtdisp
. In diesem Fall unterdrücken Sie den Gesamtabschnitt und schließen beide Dummy-Vektoren für die Messung ein, um die separaten Abschnitte für jedes Ergebnis zu erhalten. Dies ist eine Art multivariate Analyse. Dies wird normalerweise nicht mit ausgeführtlm()
da hast du wiederholte maßnahmen und solltest wohl die ununabhängigkeit berücksichtigen. Es gibt jedoch einige interessante Fälle, in denen dies erforderlich ist. Wenn Sie beispielsweise versuchen, eine Mediationsanalyse mit zufälligen Effekten durchzuführen, um die vollständige Varianz-Kovarianz-Matrix zu erhalten, müssen Sie beide Modelle gleichzeitig schätzen. Dies kann durch Stapeln der Daten und eine geschickte Verwendung von Dummy-Vektoren erfolgen.Ich behaupte nicht, dass Intercepts generell entfernt werden sollten, aber es ist gut, flexibel zu sein.
quelle
Hier gibt es gute Antworten. Zwei kleine Dinge:
quelle
Sie sollten den Achsenabschnitt nicht fallen lassen, unabhängig davon, ob Sie wahrscheinlich alle erklärenden Variablen mit Werten von Null sehen werden oder nicht.
Auf eine sehr ähnliche Frage gibt es hier eine gute Antwort .
Wenn Sie den Abschnitt entfernen, werden alle anderen Schätzungen verzerrt. Selbst wenn der wahre Wert des Abschnitts ungefähr Null ist (was alles ist, was Sie aus Ihren Daten schließen können), spielen Sie mit den Steigungen herum, wenn Sie ihn genau auf Null setzen.
AUSSER - Sie messen etwas mit einem sehr klaren und offensichtlichen physikalischen Modell, bei dem der Achsenabschnitt Null sein muss (z. B. haben Sie Höhe, Breite und Länge eines rechteckigen Prismas als erklärende Variablen und die Antwortvariable ist das Volumen mit einem gewissen Messfehler). Wenn Ihre Antwortvariable der Wert des Hauses ist, müssen Sie auf jeden Fall den Intercept in belassen.
quelle
OK, Sie haben die Frage also VIEL geändert
Sie können den Intercept weglassen, wenn Sie wissen, dass er 0 ist. Und nein, Sie können es nicht tun, weil es sich nicht wesentlich von 0 unterscheidet. Sie müssen wissen, dass es 0 ist, oder Ihre Residuen sind voreingenommen. Und in diesem Fall ist es 0, sodass es keinen Unterschied macht, wenn Sie es weglassen. Lassen Sie es daher niemals weg.
Der Befund mit legt nahe, dass die Daten nicht linear sind. Und da Sie die Fläche als Prädiktor hatten, ist diese wahrscheinlich definitiv nicht linear. Sie könnten den Prädiktor transformieren, um das zu beheben.R2
quelle
Die meisten multiplen Regressionsmodelle enthalten einen konstanten Term (dh den Achsenabschnitt), da dies sicherstellt, dass das Modell unverzerrt ist - dh der Mittelwert der Residuen ist genau Null. (Die Koeffizienten in einem Regressionsmodell werden durch kleinste Quadrate geschätzt, dh durch Minimierung des mittleren quadratischen Fehlers. Der mittlere quadratische Fehler entspricht nun der Varianz der Fehler plus dem Quadrat ihres Mittelwerts: Dies ist eine mathematische Identität. Ändern Der Wert der Konstanten im Modell ändert den Mittelwert der Fehler, beeinflusst jedoch nicht die Varianz. Wenn die Summe der quadratischen Fehler minimiert werden soll, muss die Konstante so gewählt werden, dass der Mittelwert der Fehler Null ist. )
In einem einfachen Regressionsmodell repräsentiert die Konstante den Y-Achsenabschnitt der Regressionslinie in nicht standardisierter Form. In einem multiplen Regressionsmodell stellt die Konstante den Wert dar, der für die abhängige Variable vorhergesagt würde, wenn alle unabhängigen Variablen gleichzeitig gleich Null wären - eine Situation, die möglicherweise physikalisch oder wirtschaftlich nicht sinnvoll ist. Wenn Sie nicht besonders interessiert sind, was passieren würde, wenn alle unabhängigen Variablen gleichzeitig Null wären, belassen Sie die Konstante normalerweise im Modell, unabhängig von ihrer statistischen Signifikanz. Das Vorhandensein der Konstanten stellt nicht nur sicher, dass die In-Sample-Fehler unverzerrt sind, sondern ermöglicht es der Regressionslinie auch, "ihren eigenen Pegel zu suchen" und die beste Anpassung an Daten zu erzielen, die möglicherweise nur lokal linear sind.
In seltenen Fällen möchten Sie jedoch die Konstante aus dem Modell ausschließen. Dies ist eine Modellanpassungsoption im Regressionsverfahren in jedem Softwarepaket und wird manchmal als Regression durch den Ursprung, oder kurz RTO, bezeichnet. Normalerweise wird dies nur durchgeführt, wenn:
Ein Beispiel für Fall (1) wäre ein Modell, in dem alle Variablen - abhängig und unabhängig - erste Unterschiede anderer Zeitreihen darstellen. Wenn Sie die erste Differenz von Y auf die erste Differenz von X zurückführen, prognostizieren Sie Änderungen in Y direkt als lineare Funktion von Änderungen in X, ohne auf die aktuellen Ebenen der Variablen Bezug zu nehmen. In diesem Fall kann es vernünftig (wenn auch nicht erforderlich) sein, anzunehmen, dass Y im Durchschnitt unverändert bleiben sollte, wenn X unverändert bleibt, dh, dass Y keinen Aufwärts- oder Abwärtstrend aufweisen sollte, wenn sich nichts an der Zahl ändert Level von X.
Ein Beispiel für Fall (2) wäre eine Situation, in der Sie einen vollständigen Satz saisonaler Indikatorvariablen verwenden möchten - z. B. Sie verwenden vierteljährliche Daten und Sie möchten Variablen Q1, Q2, Q3 und Q4 einschließen, die den Zusatz darstellen saisonale Effekte. Somit könnte Q1 wie folgt aussehen: 1 0 0 0 1 0 0 0 ..., Q2 würde wie folgt aussehen: 0 1 0 0 0 1 0 0 ... und so weiter. Sie können nicht alle vier und eine Konstante im selben Modell verwenden, da Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . Dies ist das Gleiche wie ein konstanter Begriff. Dh, die fünf Variablen Q1, Q2, Q3, Q4 und CONSTANT sind nicht linear unabhängig: Jede von ihnen kann als lineare Kombination der anderen vier ausgedrückt werden. Eine technische Voraussetzung für die Anpassung eines linearen Regressionsmodells ist, dass die unabhängigen Variablen linear unabhängig sind. Andernfalls können die Koeffizienten der kleinsten Quadrate nicht eindeutig bestimmt werden.
Ein Wort der Warnung: R-Quadrat und F-Statistik haben in einem RTO-Modell nicht die gleiche Bedeutung wie in einem normalen Regressionsmodell und werden nicht von jeder Software auf die gleiche Weise berechnet. In diesem Artikel finden Sie einige Vorsichtsmaßnahmen. Sie sollten nicht versuchen, das R-Quadrat zwischen Modellen zu vergleichen, die einen konstanten Term enthalten oder nicht, obwohl es in Ordnung ist, den Standardfehler der Regression zu vergleichen.
Beachten Sie, dass der Begriff "unabhängig" im Regressionsjargon auf (mindestens) drei verschiedene Arten verwendet wird: Jede einzelne Variable kann als unabhängige Variable bezeichnet werden, wenn sie als Prädiktor und nicht als Prädikat verwendet wird. Eine Gruppe von Variablen ist linear unabhängig, wenn keine von ihnen exakt als lineare Kombination der anderen ausgedrückt werden kann. Ein Variablenpaar wird als statistisch unabhängig bezeichnet, wenn es nicht nur linear unabhängig, sondern auch in Bezug aufeinander völlig uninformativ ist. In einem Regressionsmodell soll Ihre abhängige Variable statistisch von den unabhängigen Variablen abhängig sein, die linear (aber nicht unbedingt statistisch) voneinander unabhängig sein müssen.
quelle
Volle Überarbeitung meiner Gedanken. In der Tat wird das Fallenlassen des Abschnitts ein Verzerrungsproblem verursachen.
Haben Sie darüber nachgedacht, Ihre Daten zu zentrieren, damit ein Abschnitt eine gewisse Bedeutung hat, und um zu vermeiden, zu erklären, wie einige (unvernünftige) Werte negative Werte ergeben könnten? Wenn Sie alle drei erklärenden Variablen durch Subtrahieren der mittleren Quadratmeterzahl, der mittleren Losgröße und des mittleren Bades anpassen, zeigt der Achsenabschnitt jetzt den Wert (eines Hauses?) Mit durchschnittlicher Quadratmeterzahl, Losgröße und Badezahl an.
Diese Zentrierung ändert nichts an der relativen Beziehung der unabhängigen Variablen. Wenn Sie das Modell also auf die zentrierten Daten anwenden, werden Bäder immer noch als unbedeutend angesehen. Montieren Sie das Modell ohne die mitgelieferte Badewanne. Sie erhalten möglicherweise immer noch einen großen p-Wert für den Achsenabschnitt, dieser sollte jedoch enthalten sein, und Sie erhalten ein Modell der Form y = a + b (Quadratmeter) + c (Losgröße).
quelle
Ich habe nur einige Zeit damit verbracht, eine ähnliche Frage zu beantworten, die von jemand anderem gestellt wurde, aber sie war geschlossen. Hier gibt es einige gute Antworten, aber die Antwort, die ich gebe, ist etwas einfacher. Es ist möglicherweise besser für Menschen geeignet, die ein schwaches Verständnis von Regression haben.
F1: Wie interpretiere ich den Achsenabschnitt in meinem Modell?
In Regressionsmodellen besteht das Ziel darin, die ungeklärte Varianz einer Ergebnisvariablen zu minimieren:
y = b0 + b1⋅x + ϵ
Dabei ist y der vorhergesagte Wert Ihres Ergebnismaßes (z. B. log_blood_hg), b0 der Achsenabschnitt, b1 die Steigung, x eine Prädiktorvariable und ϵ der Restfehler.
Der Achsenabschnitt (b0) ist der vorhergesagte Mittelwert von y, wenn alle x = 0. Mit anderen Worten, es ist der Basiswert von y, bevor Sie Variablen (z. B. Spezies) verwendet haben, um die Varianz in log_blood_hg weiter zu minimieren oder zu erklären .
Durch Hinzufügen einer Steigung (die schätzt, wie sich eine Zunahme / Abnahme von log_blood_hg um eine Einheit mit einer Zunahme von x ändert, z. B. Spezies) fügen wir das hinzu, was wir bereits über die Ergebnisvariable wissen, dh ihren Grundlinienwert (d. H abfangen), basierend auf der Änderung einer anderen Variablen.
Frage 2: Wann ist es angebracht, den Achsenabschnitt einzuschließen oder nicht einzuschließen, insbesondere im Hinblick auf die Tatsache, dass die Modelle sehr unterschiedliche Ergebnisse liefern?
Für einfache Modelle wie dieses ist es nie wirklich angebracht, den Intercept fallen zu lassen.
Die Modelle führen zu unterschiedlichen Ergebnissen, wenn Sie den Achsenabschnitt fallen lassen, da die Steigung nicht auf dem Grundlinienwert von Y basiert, sondern durch den Nullpunkt von y gehen muss. Daher wird die Steigung steiler (dh stärker und signifikanter) ), weil Sie die Linie durch den Ursprung gezwungen haben, und nicht, weil dadurch die Varianz in y besser minimiert wird. Mit anderen Worten, Sie haben künstlich ein Modell erstellt, das die Varianz in y minimiert, indem Sie den Achsenabschnitt oder den anfänglichen Erdungspunkt für Ihr Modell entfernen.
Es gibt Fälle, in denen das Entfernen des Abschnitts angemessen ist - beispielsweise bei der Beschreibung eines Phänomens mit einem 0-Achsenabschnitt. Sie können darüber lesen Sie hier , wie auch weitere Gründe , warum ist es, ein Intercept Entfernen nicht eine gute Idee.
quelle
Kurze Antwort : (fast) NIE. Wenn Sie im linearen Regressionsmodell , sagen Sie, dass Sie WISSEN, dass der erwartete Wert von bei Null ist. Das weiß man so gut wie nie.y=α+βx+ϵ α=0 y x=0
Fazit: LASSEN SIE DEN INTERCEPT NICHT AUS DEM MODELL (es sei denn, Sie wissen wirklich, was Sie tun).
Einige Ausnahmen : Eine Ausnahme ist eine Regression, die eine Einweg-ANOVA mit Dummies für ALLE Faktorstufen darstellt (normalerweise wird eine weggelassen) (dies scheint jedoch nur eine Ausnahme zu sein, da sich der Konstantenvektor 1 im Spaltenbereich der Modellmatrix befindet ) Andernfalls wie bei physikalischen Beziehungen bei denen keine Konstante existiert. Aber selbst dann, wenn das Modell nur ungefähr ist (Geschwindigkeit ist nicht wirklich konstant), ist es möglicherweise besser, eine Konstante beizubehalten, auch wenn sie nicht interpretiert werden kann.X s=vt
Es gibt auch Sondermodelle, die den Schnittpunkt weglassen. Ein Beispiel sind gepaarte Daten, Zwillingsstudien .
quelle