Abgesehen vom buchstäblichen Testen jeder möglichen Kombination von Variablen in einem Modell ( x1:x2
oder x1*x2 ... xn-1 * xn
). Wie erkennen Sie, ob eine Interaktion zwischen Ihren unabhängigen (hoffentlich) Variablen bestehen SOLLTE oder KÖNNTE?
Was sind Best Practices für den Versuch, Interaktionen zu identifizieren? Gibt es eine grafische Technik, die Sie verwenden könnten oder tun könnten?
regression
modeling
interaction
Brandon Bertelsen
quelle
quelle
Antworten:
Cox und Wermuth (1996) oder Cox (1984) diskutierten einige Methoden zum Nachweis von Wechselwirkungen. Das Problem ist normalerweise, wie allgemein die Interaktionsbegriffe sein sollten. Grundsätzlich passen wir (a) alle Interaktionsterme zweiter Ordnung einzeln an (und testen sie) und (b) zeichnen ihre entsprechenden p-Werte (dh die Nr.-Terme als Funktion von ). Die Idee ist dann, zu prüfen, ob eine bestimmte Anzahl von Interaktionstermen beibehalten werden soll: Unter der Annahme, dass alle Interaktionsterme null sind, sollte die Verteilung der p-Werte gleichmäßig sein (oder gleichwertig, die Punkte auf dem Streudiagramm sollten ungefähr entlang verteilt sein eine Linie durch den Ursprung).1−p
Nun, wie @Gavin sagte, kann die Anpassung vieler (wenn nicht aller) Interaktionen zu einer Überanpassung führen, ist aber auch in gewissem Sinne nutzlos (einige Interaktionsbegriffe höherer Ordnung haben oft überhaupt keinen Sinn). Dies hat jedoch mit der Interpretation zu tun, nicht mit der Erkennung von Wechselwirkungen, und eine gute Übersicht wurde bereits von Cox in gegeben Interpretation von Wechselwirkungen gegeben: Eine Übersicht ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - it enthält die oben genannten Referenzen. Ein weiterer Forschungsschwerpunkt ist die Untersuchung epistatischer Effekte in genetischen Studien, insbesondere von Methoden, die auf grafischen Modellen basieren (z. B. eine effiziente Methode zur Identifizierung statistischer Interaktoren in Genassoziationsnetzwerken ).
Verweise
quelle
Am besten überlege ich mir das Problem, bevor ich das Modell montiere. Was ist ein plausibles Modell angesichts des Phänomens, das Sie untersuchen? Das Anpassen aller möglichen Kombinationen von Variablen und Interaktionen klingt für mich wie das Ausbaggern von Daten.
quelle
Das Anpassen eines Baummodells (z. B. mithilfe von R) hilft Ihnen dabei, komplexe Wechselwirkungen zwischen den erklärenden Variablen zu identifizieren. Lesen Sie das Beispiel auf Seite 30 hier .
quelle
Ich werde diese Antwort vorwegnehmen, da ich Gavin voll und ganz zustimme. Wenn Sie daran interessiert sind, ein beliebiges Modell anzupassen, sollte es das untersuchte Phänomen widerspiegeln. Was das Problem mit der Logik der Identifizierung aller Effekte ist (und worauf Gavin Bezug nimmt, wenn er sagt, dass Daten ausgebaggert werden), ist, dass Sie eine unendliche Anzahl von Interaktionen oder quadratischen Begriffen für Variablen oder Transformationen an Ihre Daten anpassen können und Sie würde unweigerlich "signifikante" Effekte für einige Variationen Ihrer Daten finden.
Wie Chl feststellt, sind diese Interaktionseffekte höherer Ordnung nicht wirklich zu interpretieren, und häufig machen sogar Interaktionen niedrigerer Ordnung keinen Sinn. Wenn Sie an der Entwicklung eines kausalen Modells interessiert sind, sollten Sie nur Begriffe einbeziehen, von denen Sie glauben, dass sie für Ihre abhängige Variable von vornherein relevant sind, um Ihrem Modell zu entsprechen.
Wenn Sie der Meinung sind, dass sie die Vorhersagekraft Ihres Modells erhöhen können, sollten Sie Ressourcen zu Modellauswahltechniken nachschlagen, um eine Überanpassung Ihres Modells zu vermeiden.
quelle
Wenn Sie wissen möchten, ob dieser Anteil der Varianz signifikant ist, müssen Sie eine Modellierung durchführen (ungefähr müssen Sie die Anzahl der Freiheitsgrade Ihres Modells kennen, um es mit der Varianz zu vergleichen).
Sind Ihre Variablen diskret oder stetig? begrenzt oder nicht wirklich (dh du kennst das Maximum nicht)?
quelle