Was sind bewährte Methoden zum Ermitteln von Interaktionseffekten?

35

Abgesehen vom buchstäblichen Testen jeder möglichen Kombination von Variablen in einem Modell ( x1:x2oder x1*x2 ... xn-1 * xn). Wie erkennen Sie, ob eine Interaktion zwischen Ihren unabhängigen (hoffentlich) Variablen bestehen SOLLTE oder KÖNNTE?

Was sind Best Practices für den Versuch, Interaktionen zu identifizieren? Gibt es eine grafische Technik, die Sie verwenden könnten oder tun könnten?

Brandon Bertelsen
quelle
Sie könnten uns etwas über Ihre Daten erzählen? Größe (siehe meine Antwort) und Art (siehe Gavins Antwort)
Robin Girard
@Robin: Gib ihm Zeit, aufzustehen, Brandon ist in Toronto ;-)
Reinstate Monica - G. Simpson
1
@ Robin, ich würde es vorziehen, es allgemeiner zu halten. Wenn Sie in Ihrer Antwort eine Methode angeben, die eine Annahme über die Größe oder Art der Daten erfordert, geben Sie diese bitte an. Das Problem, das ich habe, umfasst eine Reihe verschiedener Modellierungsaufgaben, alle mit unterschiedlichen Daten. In diesem Fall suche ich nach allgemeinen Empfehlungen zur Identifizierung von Interaktionseffekten.
Brandon Bertelsen

Antworten:

20

Cox und Wermuth (1996) oder Cox (1984) diskutierten einige Methoden zum Nachweis von Wechselwirkungen. Das Problem ist normalerweise, wie allgemein die Interaktionsbegriffe sein sollten. Grundsätzlich passen wir (a) alle Interaktionsterme zweiter Ordnung einzeln an (und testen sie) und (b) zeichnen ihre entsprechenden p-Werte (dh die Nr.-Terme als Funktion von ). Die Idee ist dann, zu prüfen, ob eine bestimmte Anzahl von Interaktionstermen beibehalten werden soll: Unter der Annahme, dass alle Interaktionsterme null sind, sollte die Verteilung der p-Werte gleichmäßig sein (oder gleichwertig, die Punkte auf dem Streudiagramm sollten ungefähr entlang verteilt sein eine Linie durch den Ursprung).1p

Nun, wie @Gavin sagte, kann die Anpassung vieler (wenn nicht aller) Interaktionen zu einer Überanpassung führen, ist aber auch in gewissem Sinne nutzlos (einige Interaktionsbegriffe höherer Ordnung haben oft überhaupt keinen Sinn). Dies hat jedoch mit der Interpretation zu tun, nicht mit der Erkennung von Wechselwirkungen, und eine gute Übersicht wurde bereits von Cox in gegeben Interpretation von Wechselwirkungen gegeben: Eine Übersicht ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - it enthält die oben genannten Referenzen. Ein weiterer Forschungsschwerpunkt ist die Untersuchung epistatischer Effekte in genetischen Studien, insbesondere von Methoden, die auf grafischen Modellen basieren (z. B. eine effiziente Methode zur Identifizierung statistischer Interaktoren in Genassoziationsnetzwerken ).

Verweise

  • Cox, DR und Wermuth, N (1996). Multivariate Abhängigkeiten: Modelle, Analyse und Interpretation . Chapman und Hall / CRC.
  • Cox, DR (1984). Interaktion . International Statistical Review , 52, 1–31.
chl
quelle
16

Am besten überlege ich mir das Problem, bevor ich das Modell montiere. Was ist ein plausibles Modell angesichts des Phänomens, das Sie untersuchen? Das Anpassen aller möglichen Kombinationen von Variablen und Interaktionen klingt für mich wie das Ausbaggern von Daten.

Setzen Sie Monica - G. Simpson wieder ein
quelle
5
klingt nach einer Bemerkung oder lautet die Antwort "denken"?
Robin Girard
2
@Robin - Letzteres. Ich finde die statistische Modellierung ziemlich schwierig (ich bin ein Ökologe mit wenig formaler statistischer Ausbildung, das meiste, was ich gelernt habe, wurde mir selbst beigebracht), aber es ist viel einfacher, wenn ich zuerst über das Problem nachdenke und feststelle, was plausibel ist. Bauen Sie dieses Modell auf, führen Sie meine Modelldiagnose durch und probieren Sie Interaktionen aus, bei denen diese wissenschaftlich sinnvoll sind.
Setzen Sie Monica - G. Simpson
2
@Brandon: Wenn eine Interaktion fehlt, gibt es Muster in den Residuen, die von den Werten der Kovariaten abhängig sind. Das Auftragen von Residuen gegen die Kovariaten kann dabei helfen, festzustellen, wo eine Wechselwirkung angebracht sein könnte.
Setzen Sie Monica - G. Simpson
2
@Brandon: Hierbei handelt es sich um Standardfähigkeiten für die Modelldiagnose und Explorationszeichnung. Ich würde die Residuen gegen eine der Kovariaten plotten, von denen ich denke, dass sie ein Kandidat für eine Interaktion sind, abhängig von den Werten der Kovariate, von denen ich denke, dass sie an der Interaktion beteiligt sind. Kleben Sie einen Lößglätter durch jedes Feld, um festzustellen, ob Muster vorhanden sind. Hängt davon ab, welche Art von Variablen Ihre Kovariaten sind.
Setzen Sie Monica - G. Simpson
2
Datenbaggerung? Wenn Sie die Daten lange genug quälen, wird es gestehen ...
Neugierig
16

Das Anpassen eines Baummodells (z. B. mithilfe von R) hilft Ihnen dabei, komplexe Wechselwirkungen zwischen den erklärenden Variablen zu identifizieren. Lesen Sie das Beispiel auf Seite 30 hier .

George Dontas
quelle
Sehr einfach und sehr nützlich. Danke auch für den Hinweis auf Crawleys Text!
Brandon Bertelsen
Seien Sie vorsichtig - Sie können diese Art von Interaktionen nicht einfach in ein lineares Modell einpassen. Die Wechselwirkungen treten nur in einem Ast des Baumes (oder einem Teil davon) auf. Sie benötigen eine Menge Daten, um diese Art von Tools in realen Daten zu verwenden.
Setzen Sie Monica - G. Simpson
3
Wie @Gavin sagte, besteht eine der möglichen Gefahren darin, dass Entscheidungsbäume eine große Stichprobengröße benötigen und ziemlich instabil sind (was einer der Gründe ist, warum Absacken und zufällige Wälder als realisierbare Alternativen vorgeschlagen wurden). Ein weiteres Problem ist, dass nicht klar ist, ob wir nach Interaktionseffekten zweiter oder höherer Ordnung suchen. Im ersten Fall sind CARTs keine Lösung. In jedem Fall werde ich jede Interpretation einer Wechselwirkung zwischen 6 Variablen in jeder Art von Studie (beobachtend oder kontrolliert) sehr zweifelhaft finden.
Chl
7

Ich werde diese Antwort vorwegnehmen, da ich Gavin voll und ganz zustimme. Wenn Sie daran interessiert sind, ein beliebiges Modell anzupassen, sollte es das untersuchte Phänomen widerspiegeln. Was das Problem mit der Logik der Identifizierung aller Effekte ist (und worauf Gavin Bezug nimmt, wenn er sagt, dass Daten ausgebaggert werden), ist, dass Sie eine unendliche Anzahl von Interaktionen oder quadratischen Begriffen für Variablen oder Transformationen an Ihre Daten anpassen können und Sie würde unweigerlich "signifikante" Effekte für einige Variationen Ihrer Daten finden.

Wie Chl feststellt, sind diese Interaktionseffekte höherer Ordnung nicht wirklich zu interpretieren, und häufig machen sogar Interaktionen niedrigerer Ordnung keinen Sinn. Wenn Sie an der Entwicklung eines kausalen Modells interessiert sind, sollten Sie nur Begriffe einbeziehen, von denen Sie glauben, dass sie für Ihre abhängige Variable von vornherein relevant sind, um Ihrem Modell zu entsprechen.

Wenn Sie der Meinung sind, dass sie die Vorhersagekraft Ihres Modells erhöhen können, sollten Sie Ressourcen zu Modellauswahltechniken nachschlagen, um eine Überanpassung Ihres Modells zu vermeiden.

Andy W
quelle
7

n

n

Wenn Sie wissen möchten, ob dieser Anteil der Varianz signifikant ist, müssen Sie eine Modellierung durchführen (ungefähr müssen Sie die Anzahl der Freiheitsgrade Ihres Modells kennen, um es mit der Varianz zu vergleichen).

Sind Ihre Variablen diskret oder stetig? begrenzt oder nicht wirklich (dh du kennst das Maximum nicht)?

Robin Girard
quelle
danke für die richtung zu sobol indizes. Auch hier möchte ich angeben, dass ich hier eher nach einer allgemeinen als nach einer spezifischen Antwort suche. Ich frage nicht nach einem bestimmten Datensatz, sondern versuche, ein Problem zu erklären, das ich mit einer Reihe verschiedener Datensätze hatte.
Brandon Bertelsen