Warum sollte man den Achsenabschnitt in der linearen Regression unterdrücken?

20

In einer Reihe von Statistikpaketen, einschließlich SAS, SPSS und möglicherweise mehr, gibt es eine Option zum "Unterdrücken des Abfangens". Warum willst du das tun?

user333
quelle

Antworten:

16

Wenn aus irgendeinem Grund Sie kennen den Intercept ( vor allem , wenn es Null ist), können Sie die Varianz in den Daten verschwenden vermeiden etwas Schätzen Sie bereits wissen, und mehr Vertrauen in die Werte haben Sie es zu schätzen haben.

Ein etwas vereinfachtes Beispiel ist, wenn Sie bereits (aufgrund von Domänenkenntnissen) wissen, dass eine Variable (im Durchschnitt) ein Vielfaches einer anderen ist und Sie versuchen, dieses Vielfache zu finden.

Nick Sabbe
quelle
Ich verstehe es nicht ganz, aber in einem Modell, das ich in R erstelle, habe ich so etwas wie lm (a ~ b / c - 1), das Interaktionen zwischen b und c erzeugt und den Intercept unterdrückt ("- 1"). in R) erhalte ich leichter zu interpretierende Antworten, die im Wesentlichen so sind, als ob ich den Achsenabschnitt nicht unterdrücke. Irgendwie macht die Interaktion dies möglich.
Wayne
Einfacher zu interpretierende Antworten, die im Wesentlichen gleich sind? Das scheint ein Widerspruch zu sein. Vielleicht solltest du dies als neue Frage vorstellen?
Nick Sabbe
Wenn ich mir die Koeffizienten ansehe , gibt es mit dem Achsenabschnitt einen ( Achsenabschnitt ) und einen Tempwarmer (eine meiner Variablen ist Temp, der wärmer oder kühler sein kann ). Um die Koeffizienten zu interpretieren, muss ich wissen, dass (Intercept) direkt dem Tempcooler entspricht und Tempwarmer + (Intercept) der direkt interpretierbare Tempwarmer ist . Wenn ich den Intercept unterdrücke, sehe ich Tempcooler und Tempwarmer direkt. Vielleicht eine Eigenheit von Rs Formeln und linearer Modellierung, aber ...
Wayne
12

Betrachten Sie den Fall einer 3-stufigen kategorialen Kovariate. Wenn man einen Schnittpunkt hat, würde das 2 Indikatorvariablen erfordern. Bei Verwendung der üblichen Kodierung für Indikatorvariablen ist der Koeffizient für jede Indikatorvariable der mittlere Unterschied zur Referenzgruppe. Wenn Sie den Achsenabschnitt unterdrücken, erhalten Sie 3 Variablen, die die kategoriale Kovariate darstellen, anstatt nur 2. Ein Koeffizient ist dann die mittlere Schätzung für diese Gruppe. Ein konkreteres Beispiel dafür ist die Politikwissenschaft, wo man die 50 Staaten der Vereinigten Staaten studieren kann. Anstatt einen Intercept und 49 Indikatorvariablen für die Zustände zu haben, ist es oft vorzuziehen, den Intercept zu unterdrücken und stattdessen 50 Variablen zu haben.

jkd
quelle
Viel einfacher, Koeffizient so zu interpretieren
Wahrscheinlichkeitsrechnung
1
Ja, aber es gibt zwei oder mehr kategoriale Variablen!
kjetil b halvorsen
2

Um den Punkt von @Nick Sabbe mit einem konkreten Beispiel zu veranschaulichen.

Ich habe einmal gesehen, wie ein Forscher ein Modell des Alters eines Baumes als Funktion seiner Breite vorstellte. Es ist davon auszugehen, dass der Baum im Alter von null effektiv eine Breite von null hat. Somit ist kein Abfangen erforderlich.

Jeromy Anglim
quelle
8
Die Weisheit oder das Fehlen davon hängt vom Bereich der abhängigen interessierenden Variablen ab. Berücksichtigen Sie die Bremsdaten für Autos, wenn Sie Geschwindigkeiten und Bremswege haben. Sie können ein quadratisches Modell mit oder ohne Achsenabschnitt anpassen. Die interessierenden Geschwindigkeiten beginnen normalerweise bei etwa 50 km / h und reichen bis etwa 130 km / h. Die Anpassung eines Quadrats mit Achsenabschnitt ist in diesem Fall meiner Meinung nach sinnvoller, da das Erzwingen des Achsenabschnitts auf Null (praktisch) erhebliche Anpassungsprobleme verursachen kann. Die Tatsache, dass der "Bremsweg" eines angehaltenen Autos Null ist, ist für das vorliegende Modellierungsproblem nicht besonders relevant.
Kardinal
@ Kardinal ja ich habe mich gefragt, ob ich einen ähnlichen Punkt machen soll. Ich habe festgestellt, dass in einigen nichtlinearen Regressionsmodellierungskontexten ein größeres Interesse an einem Modell besteht, das ein theoretisch plausibles Modell liefert, das außerhalb des Datenbereichs präzise Vorhersagen liefert (z. B. sollten Modelle bei der Lernkurvendatengeschwindigkeit keine Geschwindigkeiten unter 0 Sekunden vorhersagen ). In solchen Fällen kann das Beschränken eines Abschnitts auf Null angemessener sein, selbst wenn dies zu einem Rückgang der Vorhersage für die Daten führt.
Jeromy Anglim
@ cardinal Ich bin damit einverstanden, dass Polynommodelle außerhalb des Datenbereichs selten plausibel vorhersagen. Daher ist es in solchen Modellen selten eine gute Idee, den Achsenabschnitt auf 0 zu beschränken.
Jeromy Anglim
Danke für deine Kommentare. Meine Bemerkung war nicht so sehr auf Polynommodelle gerichtet. Die Wahl eines Quadrats beruhte einfach auf einer tatsächlichen physikalischen Motivation (dh der klassischen Mechanik). Der Punkt, den ich zu artikulieren versuchte, war, dass man das interessierende Modellierungsproblem sorgfältig abwägen sollte; Manchmal ist es statistisch besser, etwas zu tun, das "theoretisch ungerechtfertigt" ist (oder scheint).
Kardinal