Ist es sinnvoll, einem Modell einen quadratischen, nicht aber einen linearen Term hinzuzufügen?

57

Ich habe ein (gemischtes) Modell, in dem einer meiner Prädiktoren (aufgrund der experimentellen Manipulation) von vornherein nur quadratisch mit dem Prädiktor in Beziehung stehen sollte. Daher möchte ich dem Modell nur den quadratischen Term hinzufügen. Zwei Dinge hindern mich daran:

  1. Ich glaube, ich habe irgendwo gelesen, dass Sie beim Anpassen von Polynomen höherer Ordnung immer das Polynom niedrigerer Ordnung einschließen sollten. Ich habe vergessen, wo ich es gefunden habe, und in der Literatur, die ich angeschaut habe (z. B. Faraway, 2002; Fox, 2002), kann ich keine gute Erklärung finden.
  2. Wenn ich beides addiere, sind sowohl der lineare als auch der quadratische Term signifikant. Wenn ich nur eine davon hinzufüge, sind sie nicht signifikant. Ein lineares Verhältnis von Prädiktor und Daten ist jedoch nicht interpretierbar.

Der Kontext meiner Frage ist speziell ein gemischtes Modell lme4, aber ich möchte Antworten erhalten, die erklären, warum dies so ist oder warum es nicht in Ordnung ist, ein Polynom höherer Ordnung und nicht das Polynom niedrigerer Ordnung einzuschließen.

Bei Bedarf kann ich die Daten zur Verfügung stellen.

Henrik
quelle
5
Ich denke, die Antworten auf diese Frage könnten hilfreich sein.
6
Ja, ich stimme Procrastinator zu und die Interaktionsfragen sind im Wesentlichen die gleichen. Wir haben ein paar hoch gestimmte Fragen zu diesem Thema. Siehe auch Benötigen alle Interaktionsbegriffe neben dem Vorschlag von Pro ihre individuellen Begriffe im Regressionsmodell? und was ist, wenn die Interaktion meine direkten Auswirkungen auf die Regression zunichte macht? .
Andy W
Vielen Dank für die Erinnerung an diese Fragen. Aus den dort gegebenen Antworten geht hervor, dass es eine gute Strategie ist, wenn Sie gute a priori Gründe haben, nur den quadratischen Ausdruck und nicht per se falsch einzuschließen. Es bleibt die Frage nach der Skalierbarkeit (siehe: stats.stackexchange.com/a/27726/442 ). Sollte ich meine Variable vor dem Anpassen zentrieren, wenn ich nur den quadratischen Term verwende?
Henrik
1
@ Henrik - Meine Antwort in dem von Ihnen geposteten Link lautete, dass die Modellinferenz von willkürlichen Verschiebungen der Prädiktorwerte abhängt (z. B. vom Mittelwert der Zentrierung). Es ist unerwünscht, dass eine inhaltliche Schlussfolgerung von etwas so Willkürlichem abhängt. Deshalb antworte ich auf Ihre Frage Die Frage lautet aus dem gleichen Grund 'nein'.
Makro
2
Die Frage von quadratisch vs linear unterscheidet sich konzeptionell hinreichend von Wechselwirkungen, so dass dies meines Erachtens nicht als Duplikat angesehen werden sollte.
gung - Reinstate Monica

Antworten:

66

1. Warum den linearen Term einschließen?

Es ist aufschlussreich zu bemerken, dass eine quadratische Beziehung auf zwei Arten geschrieben werden kann:

y=a0+a1x+a2x2=a2(xb)2+c

( wir die Koeffizienten gleichsetzen, finden wir und ). Der Wert entspricht einem globalen Extremum der Beziehung (geometrisch lokalisiert er den Scheitelpunkt einer Parabel).a 2 b 2 + c = a 0 x = b2a2b=a1a2b2+c=a0x=b

Wenn Sie den linearen Term nicht einschließen , werden die Möglichkeiten auf reduzierta1x

y=a0+a2x2=a2(x0)2+c

(wobei jetzt offensichtlich und angenommen wird, dass das Modell einen konstanten Term ). Das heißt, Sie erzwingen .a 0 b = 0c=a0a0b=0

Vor diesem Hintergrund geht es in Frage 1 darum, ob Sie sicher sind , dass das globale Extremum bei auftreten muss . Wenn ja, können Sie den linearen Term sicher weglassen . Andernfalls müssen Sie es einschließen.a 1 xx=0a1x

2. Wie kann man Bedeutungsänderungen verstehen, wenn Begriffe eingeschlossen oder ausgeschlossen werden?

Dies wird in einem verwandten Thread unter https://stats.stackexchange.com/a/28493 ausführlich erläutert .

Im vorliegenden Fall gibt die Bedeutung von an, dass die Beziehung gekrümmt ist, und die Bedeutung von gibt an, dass ungleich Null ist: Es scheint, als müssten Sie beide Begriffe (und natürlich auch die Konstante) einschließen.a 1 ba2a1b

whuber
quelle
1
Vielen Dank. Gute Antwort. Wenn ich also das theoretische Extremum auf 0 zentriere (es ist eigentlich ein Minimum), kann ich den linearen Term nicht auslassen. Dies führt akut zu einem hochsignifikanten quadratischen Prädiktor (ohne den linearen).
Henrik
Wenn sowohl lineare als auch quadratische Terme einer Variablen korreliert sind, kann ich beide in ein Modell einbeziehen oder sollte ich einen ausschließen (von dem ich annehme, dass er quadratisch sein sollte)?
Mtao
@ Teresa Es gibt keinen allgemeinen Grund, korrelierte Terme in einer Regression zu entfernen. (Wenn dies der Fall wäre, wäre die überwiegende Mehrheit der jemals erstellten Regressionsmodelle in Schwierigkeiten!) Sehr stark korrelierte Begriffe, die zusammen nichts zur Anpassung des Modells beitragen, können im Vergleich zu beiden Begriffen allein auf eine Teilmenge dieser Begriffe reduziert werden.
whuber
@whuber, vielen Dank! Auch für ein logistisches Regressionsmodell verwendete ich Odds Ratio, um die Effektgröße zu schätzen, jedoch nur mit linearen Begriffen. Wenn ich linear und quadratisch bin, kann ich den gleichen Ansatz anwenden und die Ergebnisse auf die gleiche Weise interpretieren?
Mtao
Nicht ganz. Der Grund ist, dass Sie die linearen und quadratischen Terme nicht separat ändern können. Sie müssen überlegen, wie sich die Reaktion ändert, wenn Sie die ursprüngliche Variable ein wenig ändern.
whuber
22

@whuber hat hier eine wirklich hervorragende Antwort gegeben. Ich möchte nur einen kleinen kostenlosen Punkt hinzufügen. Die Frage besagt, dass "ein lineares Verhältnis von Prädiktor und Daten nicht interpretierbar ist". Dies deutet auf ein weit verbreitetes Missverständnis hin, obwohl ich es normalerweise am anderen Ende höre ("Was ist die Interpretation des quadratischen [kubischen usw.] Begriffs?").

Wenn wir ein Modell mit mehreren unterschiedlichen Kovariaten haben, kann jedem Beta [term] im Allgemeinen eine eigene Interpretation zugewiesen werden. Zum Beispiel, wenn:

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA bedeutet Notendurchschnitt;
Rang ist die Reihenfolge des GPA eines Schülers im Verhältnis zu anderen Schülern an der gleichen High School; &
SAT bedeutet "schulischer Eignungstest", ein landesweiter Standardtest für Studenten, die zur Universität gehen)

dann können wir jedem beta / term separate interpretationen zuweisen. Wenn zum Beispiel der GPA eines Schülers an der High School 1 Punkt höher wäre - ansonsten wären alle gleich -, würden wir erwarten, dass der GPA des Colleges Punkte höher ist. β1

Es ist jedoch wichtig zu beachten, dass es nicht immer zulässig ist, ein Modell auf diese Weise zu interpretieren. Ein offensichtlicher Fall ist, wenn es eine Wechselwirkung zwischen einigen Variablen gibt, da es nicht möglich wäre, dass sich der einzelne Begriff unterscheidet und alles andere konstant bleibt - notwendigerweise würde sich auch der Wechselwirkungsbegriff ändern. Wenn es also zu einer Interaktion kommt, interpretieren wir keine Haupteffekte, sondern nur einfache Effekte , wie es allgemein bekannt ist.

Die Situation mit Machtbegriffen ist direkt analog, scheint aber leider nicht allgemein verstanden zu werden. Betrachten Sie das folgende Modell: (In dieser Situation soll eine prototypische kontinuierliche Kovariate darstellen.) Es ist nicht möglich, dass sich ändert, ohne dass sich auch ändert. und umgekehrt. Einfach ausgedrückt, wenn ein Modell Polynomterme enthält, werden die verschiedenen Terme, die auf derselben zugrunde liegenden Kovariate basieren, nicht getrennt interpretiert. Der Ausdruck ( , usw.) hat keine unabhängige Bedeutung. Die Tatsache, dass ein

y^=β0+β1x+β2x2
xxx2x2xx17p-Power-Polynom-Term ist "signifikant" in einem Modell zeigt an, dass es "Biegungen" in der Funktion gibt, die und . Es ist bedauerlich, aber unvermeidlich, dass die Interpretation bei vorhandener Krümmung komplizierter und möglicherweise weniger intuitiv wird. Um die Änderung von als Änderung zu bewerten , müssen wir einen Kalkül verwenden. Die Ableitung des obigen Modells lautet: wobei es sich um die augenblickliche Änderungsrate des erwarteten Werts von wenn sich ändert, wobei alle anderen Werte gleich sind. Dies ist nicht so klar wie die Interpretation des Topmodels; wichtig ist die augenblickliche Änderungsrate inp1xyy^x
dydx=β1+2β2x
yxy hängt von der Ebene von von der aus die Änderung bewertet wirdx . Weiterhin ist die Änderungsrate in eine momentane Rate; das heißt, es ändert sich selbst kontinuierlich während des Intervalls von zu . Dies ist einfach die Natur einer krummlinigen Beziehung. yxoldxnew
gung - Wiedereinsetzung von Monica
quelle
1
Hervorragende Resonanz! Dies erinnert mich an einige hervorragende Antworten, die der Benutzer zur Interpretation von Interaktionseffekten gegeben hat . In dieser Antwort gibt er Artikelreferenzen an. Was sind bewährte Methoden zum Identifizieren von Interaktionseffekten? . Und gibt ein wunderbares Beispiel für die grafische Darstellung der Interaktion mithilfe von Coplots in dieser Antwort. Ist eine Interaktion zwischen zwei kontinuierlichen Variablen möglich? .
Andy W
1
Auf Gungs Antwort möchte ich nur sagen, dass die statistische Modellierung Rauschen beinhaltet, das Details in einem polynomialen Regressionsmodell verschleiern kann. Ich denke, dass das von Bill Huber angesprochene Problem der Zentrierung ein Problem war, weil in einer Formulierung ein linearer Term fehlt und in der anderen der quadratische Term vorkommt. Die Stärke der Krümmung im Signal diktiert die Notwendigkeit eines Terms höherer Ordnung, sagt jedoch nichts über die Notwendigkeit eines linearen Terms aus.
Michael Chernick
7

Die obige Antwort von @ whuber trifft insofern genau zu, als sie darauf hinweist, dass das Weglassen des linearen Terms das "übliche" quadratische Modell ist, das dem Sprichwort entspricht: "Ich bin absolut sicher, dass das Extremum bei ."x=0

Sie müssen jedoch auch prüfen, ob die von Ihnen verwendete Software ein "gotcha" enthält. Einige Softwareprogramme zentrieren die Daten möglicherweise automatisch, wenn Sie ein Polynom anpassen und dessen Koeffizienten testen, es sei denn, Sie deaktivieren die Polynomzentrierung. Das heißt, es passt möglicherweise zu einer Gleichung, die ungefähr so ​​aussieht wie wobei der Mittelwert Ihrer s ist. Das würde das Extremum zwingen, bei . x x x = xY=b0+b2(xx¯)2x¯xx=x¯

Ihre Aussage, dass sowohl die linearen als auch die quadratischen Terme signifikant sind, wenn beide eingegeben werden, bedarf einer Klarstellung. Zum Beispiel kann SAS einen Typ I- und / oder einen Typ III-Test für dieses Beispiel melden. Typ I testet die Gerade, bevor er die Quadrate eingibt. Typ III testet das Lineare mit dem Quadrat im Modell.

Emil Friedman
quelle
2
Dies ist ein vernünftiger Punkt, aber nur wenn die Daten vor dem Erstellen von zentriert wurden, bedeutet dies nicht, dass Sie "absolut sicher sein können, dass das Extremum bei ". Zu sagen , dass jetzt entsprechen gesagt haben , „das Extremum ist bei “ vor . In beiden Fällen setzen Sie die Unparteilichkeit Ihres Modells auf Ihre Fähigkeit, den x-Wert des Extremums mit unendlicher Präzision anzugeben. Der Unterschied b / t Typ I & Typ III-Tests ist ebenfalls eine potenziell interessante Ergänzung, aber nb, sie würden sich nur unterscheiden, wenn & korreliert sind, dh wenn keine Zentrierung stattgefunden hätte. x = 0 x = ˉ x x x 2x2x=0x=x¯xx2
gung - Setzen Sie Monica wieder ein
In einem anderen Fall können Sie auf die Beiträge eines Benutzers verweisen, indem Sie dessen Benutzernamen mit dem Symbol "at" angeben. In diesem Fall z. B. "@whubers Antwort ist genau richtig ..." (Ein Gefühl, dem ich zustimme.)
gung - Setzen Sie Monica wieder ein
1
Vielen Dank, Emil, dass Sie diese Erinnerungen einbringen. Beide sind es wert, berücksichtigt zu werden.
whuber
3

Brambor, Clark und Golder (2006) (die mit einem Internet-Anhang geliefert werden ) haben eine sehr klare Vorstellung davon, wie man Interaktionsmodelle versteht und wie man die üblichen Fallstricke vermeidet. "konstitutive Terme") in Interaktionsmodellen.

Analysten sollten alle konstitutiven Begriffe einschließen, wenn sie multiplikative Interaktionsmodelle angeben, außer in sehr seltenen Fällen. Mit konstitutiven Begriffen meinen wir jedes der Elemente, die den Interaktionsterm bilden. [..]

Der Leser sollte jedoch beachten, dass multiplikative Interaktionsmodelle verschiedene Formen annehmen können und quadratische Terme wie oder Interaktionsterme höherer Ordnung wie . Unabhängig von der Form des Interaktionsbegriffs sollten alle konstitutiven Begriffe einbezogen werden. Daher sollte einbezogen werden, wenn der Interaktionsterm und , , , , und sollten einbezogen werden, wenn der Interaktionsterm . X Z J X X 2 X Z J X Z X J Z J X Z JX2XZJXX2XZJXZXJZJXZJ

Andernfalls kann ein unterbestimmtes Modell entstehen, das zu verzerrten Schätzungen führen würde. Dies kann zu Inferenzfehlern führen.

Wenn dies der Fall ist und mit (oder ) korreliert ist, wie es unter praktisch allen sozialwissenschaftlichen Umständen der Fall ist, führt das Weglassen des konstitutiven Terms zu voreingenommenen (und inkonsistenten) Schätzungen von , und . Obwohl dies nicht immer als solches erkannt wird, handelt es sich um einen einfachen Fall, bei dem die variable Verzerrung weggelassen wird (Greene 2003, S. 148–149).X Z X Z β 0 β 1 β 3ZXZXZβ0β1β3

Landroni
quelle