Benötigen alle Interaktionsbegriffe ihre individuellen Begriffe im Regressionsmodell?

68

Ich überprüfe gerade ein Manuskript, in dem die Autoren 5-6 logit-Regressionsmodelle mit AIC vergleichen. Einige Modelle haben jedoch Interaktionsterme ohne Berücksichtigung der einzelnen kovariaten Terme. Hat es jemals Sinn, dies zu tun?

Zum Beispiel (nicht spezifisch für Logit-Modelle):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Ich hatte immer den Eindruck, dass man mit dem Interaktionsbegriff X1 * X2 auch X1 + X2 braucht. Daher wären die Modelle 1 und 2 in Ordnung, aber die Modelle 3-5 wären problematisch (auch wenn der AIC niedriger ist). Ist das richtig? Ist es eine Regel oder eher eine Richtlinie? Hat jemand eine gute Referenz, die die Gründe dafür erklärt? Ich möchte nur sicherstellen, dass ich nichts Wichtiges in der Rezension falsch kommuniziere.

Danke für deine Gedanken, Dan

djhocking
quelle
8
+1, ich denke das ist eine wirklich gute Frage. Vielleicht möchten Sie auch diese frühere Frage prüfen, die einen Großteil des gleichen Gebiets abdeckt. Die Antworten dort sind auch wirklich hervorragend.
gung - Reinstate Monica
Viele gute Antworten schon. Es gab einen Artikel von Rindskopf über einige Fälle, in denen Sie die Haupteffekte nicht benötigen. (Siehe auch diesen )
Peter Flom
3
AFAIK: in Rs lm () :steht für Interaktionen, wie in A: B. Und *gilt sowohl für Haupteffekte als auch für Wechselwirkungen, also A * B = A + B + A: B. Also, wenn (!) Die Autoren der Arbeit dieser Notation folgen, glaube ich nicht, dass einem der Modelle die restlichen Effekte fehlen?
Zhubarb
Die gleiche Logik wie in den aktuellen Antworten gilt auch für Interaktionen höherer Ordnung (z. B. benötigen Sie alle 2-Wege-Interaktionen, wenn Sie eine 3-Wege-Interaktion einschließen)
Peter Flom

Antworten:

38

Meistens ist dies eine schlechte Idee - der Hauptgrund dafür ist, dass das Modell nicht mehr für Standortverschiebungen unveränderlich ist. Angenommen, Sie haben ein einzelnes Ergebnis und zwei Prädiktoren und und geben das Modell an:yixizi

yi=β0+β1xizi+ε

Wenn Sie die Prädiktoren mit ihren Mitteln wirdxizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Sie können also sehen, dass die Haupteffekte wieder in das Modell eingefügt wurden.

Ich habe hier ein heuristisches Argument angegeben, aber dies ist ein praktisches Problem. Wie in Faraway (2005) auf Seite 114 erwähnt, ändert eine additive Änderung des Maßstabs die Modellinferenz, wenn die Haupteffekte im Modell nicht berücksichtigt werden, wohingegen dies nicht der Fall ist, wenn Terme niedrigerer Ordnung enthalten sind. Es ist normalerweise unerwünscht, dass willkürliche Dinge wie eine Ortsverschiebung die statistische Inferenz (und damit die Schlussfolgerungen Ihrer Untersuchung) grundlegend verändern, wie dies der Fall sein kann, wenn Sie Polynomterme oder Interaktionen in ein Modell ohne Effekte niedrigerer Ordnung aufnehmen.

Hinweis: Unter bestimmten Umständen möchten Sie die Interaktion möglicherweise nur , wenn eine bestimmte inhaltliche Bedeutung haben oder wenn Sie nur das Produkt und nicht die einzelnen Variablen . In diesem Fall kann man aber auch an den Prädiktor denken und mit dem Modell fortfahrenx i , z i a i = x i z ixizixi,ziai=xizi

yi=α0+α1ai+εi

anstatt als Interaktionsbegriff zu betrachten.ai

Makro
quelle
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelDie additive Änderung von Prädiktoren ändert im Allgemeinen t ihrer Haupteffekte (Terme niedrigerer Ordnung) selbst in einem vollständigen Modell. Die Gesamtanpassung (R ^ 2) bleibt erhalten (wird jedoch bei additiven Änderungen in einem Modell, bei dem einige Haupteffekte entfallen, nicht beibehalten). Wolltest du das sagen?
TTNPHNS
Ja, das stimmt @ttnphns - danke für den Hinweis - ich habe meine Antwort ein wenig geändert, um dies zu reflektieren.
Makro
28

Alle bisherigen Antworten scheinen einen sehr grundlegenden Punkt zu verfehlen: Die von Ihnen gewählte funktionale Form sollte flexibel genug sein, um die wissenschaftlich relevanten Merkmale zu erfassen. Die Modelle 2-5 schreiben einigen Begriffen ohne wissenschaftliche Begründung Nullkoeffizienten vor. Und selbst wenn dies wissenschaftlich begründet ist, bleibt Modell 1 attraktiv, da Sie die Nullkoeffizienten genauso gut testen können, anstatt sie aufzuerlegen.

Der Schlüssel ist zu verstehen, was die Einschränkungen bedeuten. Die typische Mahnung, Modelle 3-5 zu vermeiden, ist, dass in den meisten Anwendungen die von ihnen auferlegten Annahmen wissenschaftlich nicht plausibel sind. Modell 3 geht davon aus, dass X2 nur die Steilheit dY / dX1, nicht aber den Pegel beeinflusst. Modell 4 geht davon aus, dass X1 nur die Steilheit dY / dX2, nicht aber den Pegel beeinflusst. Und Modell 5 geht davon aus, dass weder X1 noch X2 den Pegel beeinflussen, sondern nur dY / dX1 oder dY / dX2. In den meisten Anwendungen scheinen diese Annahmen nicht sinnvoll zu sein. Modell 2 schreibt ebenfalls einen Nullkoeffizienten vor, hat jedoch noch einige Vorteile. Es gibt die beste lineare Annäherung an die Daten, was in vielen Fällen das wissenschaftliche Ziel erfüllt.

Tristan
quelle
5
(+1) Dies ist alles wahr, aber das Originalplakat schien eine Situation zu beschreiben, in der die Autoren versuchten, Modelle auszuwählen, und einige ihrer Kandidatenmodelle enthielten keine Interaktionen - daher wurde ihre Motivation von AIC geleitet anstatt durch etwas Wesentliches (was immer gefährlich ist, aber anscheinend haben sie es getan). Wenn Sie sich von etwas Wesentlichem leiten lassen, sollte die Modellstruktur davon diktiert werden. Wenn Sie sich jedoch an statistischen Kriterien orientieren, kann das Weglassen von Haupteffekten schlechte Eigenschaften haben, wie ich in meiner Antwort angegeben habe.
Makro
16

+1 an @Macro. Lassen Sie mich einen ähnlichen Punkt hervorheben, der meiner Meinung nach bei kategorialen Prädiktoren von Belang ist. Vieles kann davon abhängen, wie sie codiert sind . Beispielsweise verwendet die Referenzzellencodierung (auch bekannt als Dummy-Codierung) 0 & 1, während die -1, 0 & 1 verwendet. Sie sich einen einfachen Fall mit zwei Faktoren mit jeweils zwei Ebenen vor, dannx1x2kann je nach verwendetem Codierschema [0, 0, 0, 1] oder [1, -1, -1, 1] sein. Ich glaube, es ist möglich, dass nur die Interaktion mit einem Codierungsschema "signifikant" ist, aber mit dem anderen Schema alle Begriffe "signifikant" sind. Dies impliziert, dass aussagekräftige Interpretationsentscheidungen auf der Grundlage einer willkürlichen Codierungsentscheidung getroffen werden, die Ihre Software möglicherweise ohne Ihr Wissen für Sie getroffen hat. Ich erkenne, dass dies ein kleiner Punkt ist, aber es ist nur ein weiterer Grund, warum es in der Regel keine gute Idee ist, nur die Interaktion beizubehalten (und natürlich auch keine Teilmenge von Prädiktoren basierend auf p-Werten auszuwählen).

gung - Wiedereinsetzung von Monica
quelle
1
Signifikanztests für kategoriale Haupteffekte sind nicht weniger unveränderlich. Eine Gruppe kann sich signifikant von der Referenzgruppe unter der Kodierung der Behandlung unterscheiden, nicht jedoch vom "großen Mittelwert" unter der Kontrastkodierung.
Wahrscheinlichkeitslogik
10

Da Sie einen Artikel lesen, schlagen Sie möglicherweise vor, dass die Autoren das Problem der Modellhierarchie erörtern und ihre Abweichung davon begründen.

Hier einige Referenzen:

  1. Nelder JA. Die Auswahl von Begriffen in Antwortoberflächenmodellen - wie stark ist das Prinzip der schwachen Vererbung? Der amerikanische Statistiker. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Abgerufen am 10. Juni 2010.

  2. Peixoto JL. Hierarchische Variablenauswahl in Polynom-Regressionsmodellen. Der amerikanische Statistiker. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Abgerufen am 10. Juni 2010.

  3. Peixoto JL. Eine Eigenschaft gut formulierter polynomieller Regressionsmodelle. Der amerikanische Statistiker. 1990; 44: 26–30. http://www.jstor.org/pss/2684952 . Abgerufen am 10. Juni 2010.

Normalerweise folge ich einer Hierarchie, aber in manchen Situationen weiche ich davon ab. Wenn Sie beispielsweise den Reifenverschleiß in Abhängigkeit von der Laufleistung bei verschiedenen Geschwindigkeiten testen, sieht Ihr Modell möglicherweise folgendermaßen aus:

Profiltiefe = Abfangen + Kilometerstand + Kilometerstand * Geschwindigkeit

Es wäre jedoch physikalisch nicht sinnvoll, einen Haupteffekt der Geschwindigkeit zu berücksichtigen, da der Reifen nicht weiß, wie hoch die Geschwindigkeit bei null Meilen sein wird.

(Auf der anderen Seite möchten Sie möglicherweise immer noch einen Geschwindigkeitseffekt testen, da dies darauf hindeutet, dass sich die Einlaufeffekte bei verschiedenen Geschwindigkeiten unterscheiden. Eine noch bessere Möglichkeit, mit dem Einlauf umzugehen, ist jedoch Daten bei null und sehr geringer Laufleistung abrufen und dann auf Nichtlinearität prüfen. Beachten Sie, dass das Entfernen des Intercept-Terms als Sonderfall für die Verletzung der Hierarchie angesehen werden kann.)

Ich werde auch wiederholen, was oben jemand gesagt hat, weil es sehr wichtig ist: Die Autoren müssen sicherstellen, dass sie wissen, ob ihre Software die Daten zentriert. Das obige Reifenmodell wird physikalisch unsinnig, wenn die Software die Laufleistung durch (Laufleistung - Mittelwert der Laufleistung) ersetzt.

Ähnliches gilt für pharmazeutische Stabilitätsstudien (tangential erwähnt in "Stabilitätsmodelle für sequentielle Lagerung", Emil M. Friedman und Sam C. Shum, AAPS PharmSciTech, Bd. 12, Nr. 1, März 2011, DOI: 10.1208) / s12249-010-9558-x).

Emil Friedman
quelle
1
Vielen Dank, dies ist eine großartige Antwort und wird mir helfen, sie Leuten zu erklären, die statistisch nicht versiert sind.
Djhocking
1
+1 Ich wünschte, es wäre möglich, Antworten auf SO zusammenzuführen. Dies mit der oben akzeptierten Antwort bildet die perfekte Antwort.
Zhubarb
9

Ich habe einen wirklichen Fall gehabt, der dies veranschaulicht. In den Daten ist eine der Variablen groupmit 0-Kontrolle und 1-Behandlung dargestellt. Der andere Prädiktor war time period0 vor und 1 nach der Behandlung. Die Wechselwirkung war der wichtigste interessierende Parameter zur Messung der Wirkung der Behandlung, wobei der Unterschied nach der Behandlung in der Behandlungsgruppe über dem in der Kontrollgruppe gemessenen Zeiteffekt lag. Der Haupteffekt vongroupDer Unterschied in den beiden Gruppen wurde vor jeder Behandlung gemessen, so dass er leicht 0 sein konnte (in einem randomisierten Experiment sollte er 0 sein, dies war nicht der Fall). Der 2. Haupteffekt misst den Unterschied zwischen dem Vorher- und Nachher-Zeitraum in der Kontrollgruppe, in der keine Behandlung stattgefunden hat. Daher ist es auch sinnvoll, dass er 0 sein kann, während der Interaktionsterm ungleich Null ist. Dies hängt natürlich davon ab, wie die Dinge codiert wurden und eine andere Codierung würde die Bedeutung ändern und ob die Interaktion ohne die Haupteffekte sinnvoll ist oder nicht. Es ist also nur in Einzelfällen sinnvoll, die Interaktion ohne die wesentlichen Auswirkungen anzupassen.

Greg Snow
quelle
Meinen Sie also, dass alles von den Zielen Ihrer Studie abhängt ODER von Ihren Parametern?
Ben
1
@Ben, es kann davon abhängen, wie Sie Ihre Variablen parametrisieren (in meinem Beispiel würde das Umschalten von 0/1 auf 1/0 für eine der beiden Variablen die Interpretation ändern) und welche Fragen Sie zu beantworten versuchen und welche Annahmen Sie zu treffen bereit sind .
Greg Snow
Danke für deine Antwort. Ich habe zwei Möglichkeiten der Interaktion und möchte das mit einem Dummy-Jahr interagieren. Ich möchte nur das Jahr 2008 (Regulierungsjahr) auf die zwei Arten der Interaktion einschätzen. so ist es in Ordnung zu verwenden X & Z sind kontinuierliche Variablen, Z ist die Regulation Bewertung. Das Jahr 2008 wird für die anderen Jahre mit 1 und 0 bewertet. so ist es, als würde ich nur die beobachtungen des jahres 2008 ohne interaktion aufnehmen. Ich habe über das Prinzip der schwachen und starken Vererbung gelesen, aber nicht klar verstanden
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
Ben
1
@Ben, Es ist sicherlich möglich, das obige Modell anzupassen, das im Grunde sagt, dass Sie glauben, dass es 2008 eine Interaktion gibt (oder geben könnte), aber nicht in einem anderen Jahr. Wenn Sie eine Rechtfertigung dafür haben, dann denke ich, dass das Modell in Ordnung ist. Es ist jedoch ungewöhnlich, dass Sie dies wahrscheinlich jedem Publikum gegenüber rechtfertigen müssen.
Greg Snow
Vielen Dank, das war hilfreich. Ist es in , die Ausgabe der Interaktion mit zu vergleichen, obwohl für den gesamten Zeitraum gilt und die Interaktion nur für das Jahr 2008 giltB 1 X
B1X
B1X
Ben
7

Ich stimme Peter zu. Ich denke, die Regel ist Folklore. Warum könnten wir uns eine Situation vorstellen, in der zwei Variablen das Modell nur aufgrund einer Interaktion beeinflussen würden? Eine Analogie in der Chemie ist, dass zwei Chemikalien für sich genommen völlig inert sind, aber beim Vermischen eine Explosion verursachen. Mathematisch / statistische Feinheiten wie Invarianz haben nichts mit einem echten Problem mit echten Daten zu tun. Ich denke nur, dass es bei vielen zu berücksichtigenden Variablen sehr viel zu testen gibt, wenn Sie sich alle Haupteffekte und die meisten, wenn nicht alle Interaktionen erster Ordnung ansehen wollen. Wir betrachten Wechselwirkungen zweiter Ordnung auch in kleinen Experimenten mit nur einer Handvoll Variablen so gut wie nie. Je höher die Reihenfolge der Interaktionen, desto unwahrscheinlicher ist es, dass ein echter Effekt eintritt. Also nicht ' Schauen Sie sich keine Interaktionen erster oder zweiter Ordnung an, wenn der Haupteffekt nicht vorhanden ist. Eine gute Regel, aber religiös zu folgen, bedeutet, die Ausnahmen zu übersehen, und Ihr Problem kann eine Ausnahme sein.

Michael Chernick
quelle
8
Betreff: "Mathematisch / statistische Feinheiten wie Invarianz haben nichts mit einem echten Problem mit echten Daten zu tun" - es hat mit einem echten Problem mit echten Daten zu tun, wenn Ihre Werte und damit Ihre statistische Folgerung (und damit Ihre " Die Entscheidung der realen Welt über die Wichtigkeit eines Prädiktors kann von etwas so Beliebigem abhängen wie die Entscheidung, die Prädiktoren zu zentrieren. p
Makro
1
Ich habe wahrscheinlich falsch geschrieben, dass Invarianz in der realen Welt keine Relevanz hat. Mein beabsichtigter Punkt war, dass einige mathematische Ergebnisse für ein bestimmtes praktisches Problem möglicherweise nicht relevant sind. Als Beispiel sind Schätzungen der kleinsten Quadrate unter normalen Fehlerannahmen die maximale Wahrscheinlichkeit und nach dem Gauß-Markov-Theorem die minimale Abweichung unter schwächeren Bedingungen unverzerrt, aber ich würde sie nicht verwenden, wenn die Daten Ausreißer enthalten. Aus dem gleichen Grund sollte eine Eigenschaft wie die Invarianz eine Interaktion ausschließen, wenn es sinnvoll ist, medizinisch zu sagen, dass sie ohne die Haupteffekte auftreten würde?
Michael Chernick
6

[Der Versuch, einen Teil der ursprünglichen Frage zu beantworten, der in den meisten Antworten offen zu bleiben scheint: "Sollte AIC als Modellauswahlkriterium vertrauenswürdig sein?"]

AIC sollte eher als Richtlinie als eine Regel verwendet werden, die als Evangelium verstanden werden sollte.

Die Wirksamkeit von AIC (oder BIC oder eines ähnlichen "einfachen" Kriteriums für die Modellauswahl) hängt stark vom Lernalgorithmus und dem Problem ab.

Stellen Sie es sich so vor: Das Ziel des Komplexitätsbegriffs (Anzahl der Faktoren) in der AIC-Formel ist einfach: Vermeiden Sie die Auswahl von Modellen, die übermäßig passen. Die Einfachheit von AIC erfasst jedoch häufig nicht die tatsächliche Komplexität des Problems. Aus diesem Grund gibt es andere praktische Techniken, um eine Überanpassung zu vermeiden: zum Beispiel die Kreuzvalidierung oder das Hinzufügen eines Regularisierungsterms.

Wenn ich Online-SGD (Stochastic Gradient Descent) verwende, um eine lineare Regression für einen Datensatz mit einer sehr großen Anzahl von Eingaben durchzuführen, ist AIC ein schrecklicher Prädiktor für die Modellqualität, da es komplexe Modelle mit einer großen Anzahl von Begriffen übermäßig benachteiligt. Es gibt viele Situationen im wirklichen Leben, in denen jeder Begriff nur eine geringe Auswirkung hat, aber eine große Anzahl von ihnen liefert starke statistische Belege für ein Ergebnis. AIC- und BIC-Modellauswahlkriterien würden diese Modelle ablehnen und die einfacheren bevorzugen, obwohl die komplexeren überlegen sind.

Am Ende zählt der Generalisierungsfehler (ungefähr: Out-of-Sample-Performance). AIC kann Ihnen in relativ einfachen Situationen einen Hinweis auf die Modellqualität geben. Seien Sie vorsichtig und denken Sie daran, dass das wirkliche Leben häufig komplexer ist als eine einfache Formel.

Arielf
quelle