Wie kann man entscheiden, welche Interaktionsterme in ein multiples Regressionsmodell aufgenommen werden sollen?

7

Ich versuche, mit R ein multiples Regressionsmodell zu erstellen. Ich habe eine Reihe von Prädiktorvariablen. Ich habe einige grundlegende Domänenkenntnisse, für die ich versuche, das Modell zu erstellen. Zunächst habe ich einige Prädiktorvariablen basierend auf Domänenwissen und hohen Korrelationskoeffizienten mit der Antwortvariablen aufgenommen, während einige andere Prädiktoren aufgrund der Multikollinearität ausgeschlossen wurden. Ich möchte herausfinden, ob ich einige Interaktionsbegriffe einfügen sollte. Aufgrund der großen Anzahl von Prädiktoren fällt es mir jedoch schwer, herauszufinden, welche Interaktionsterme ich in das Modell aufnehmen sollte. Basierend auf dem, was ich auf dieser Website über die automatisierte Modellauswahl gelesen habe (danke, @gung et al.), Versuche ich, die Verwendung zu vermeiden.

Vijay Rajan
quelle
Beachten Sie, dass Sie bereits eine automatisierte Modellauswahl durchgeführt haben, indem Sie z. B. "einige andere Prädiktoren aufgrund von Multikollinearität ausschließen". Es wäre hilfreich zu wissen, wie viele (ursprüngliche) Prädiktoren Sie im Vergleich zur Anzahl der Beobachtungen und zum beabsichtigten Zweck des Modells haben. Die Empfehlungen können unterschiedlich sein, je nachdem, ob Sie das Modell für Vorhersagen oder für Schlussfolgerungen verwenden.
EdM
Es gibt 21 ursprüngliche Prädiktoren und etwas mehr als 11.000 Datensätze. Der Hauptzweck des Modells ist die Inferenz. Aber je nachdem, wie gut ein Modell ist, würde ich versuchen, es auch als Vorhersagemodell zu verwenden.
Vijay Rajan

Antworten:

5

Ich denke, Sie können einige dieser Probleme basierend auf Ihrem Domänenwissen lösen. 21 Prädiktoren sind mit 11.000 Datensätzen nicht viel, wenn Ihre Ergebnisvariable ein kontinuierliches Maß ist. Die Probleme, mit denen Sie konfrontiert sind, sind also, welche Prädiktoren und Interaktionen einbezogen werden müssen und wie mit Kollinearität umgegangen werden soll.

Zum Erstellen des Modells möchten Sie möglicherweise keinen Ihrer 21 ursprünglichen Prädiktoren weglassen. Wenn Sie 1 von 2 stark korrelierten Prädiktoren weglassen, werfen Sie die von dem, den Sie weglassen, bereitgestellten Informationen aus und laufen Gefahr, dass Ihre Ergebnisse zu eng mit den Besonderheiten dieser korrelierten Variablen in der jeweiligen Stichprobe verknüpft sind, die Sie analysieren. Hängen Sie auch nicht von der Korrelation unabhängiger Variablen mit Ihrer abhängigen Variablen ab, um Prädiktoren für die Aufnahme auszuwählen. Wenn einige Prädiktoren schlecht mit der abhängigen Variablen korreliert bleiben, kann dies dazu beitragen, die Leistung anderer Prädiktoren zu verbessern, selbst wenn keine Interaktionen vorliegen.

Erwägen Sie für Interaktionen das Hinzufügen von Interaktionen, die Sie aufgrund Ihres Domänenwissens für wichtig halten. Das ist vermutlich viel weniger als die 420 möglichen 2-Wege-Interaktionen zwischen 21 Prädiktoren, so dass Sie immer noch eine relativ kleine Anzahl unabhängiger Variablen haben. Sie könnten sogar in Betracht ziehen, überhaupt keine Interaktionen einzubeziehen und zu prüfen, ob die 21 Prädiktoren für ihre Zwecke gut genug funktionieren. Manchmal ist es am besten, einfach zu beginnen und die Komplexität nur nach Bedarf zu erhöhen.

Ein Weg, um mit Kollinearität umzugehen, würde auf Domänenwissen basieren: Kombinieren Sie korrelierte Prädiktoren zu einem einzigen Prädiktor, der das wesentliche zugrunde liegende Phänomen erfasst, das diese korrelierten Prädiktoren darstellen. Dies scheint mit Ihrem Ziel übereinzustimmen, Ihr Modell als Inferenz zu verwenden. Wenn Sie korrelierte Prädiktoren auf eine Weise kombinieren können, die auf der Grundlage des Domänenwissens vertretbar ist, können Sie die Anzahl der Prädiktoren im Modell auf eine Weise reduzieren, die die Inferenz erleichtert.

Um mit Kollinearität umzugehen, können Sie alternativ einen Ansatz wie die Gratregression verwenden, bei dem kollineare Prädiktoren zusammen behandelt werden. Mein Eindruck ist, dass die Gratregression eher für Vorhersagemodelle als für Inferenzmodelle verwendet wird, aber den Vorteil hat, dass die Kollinearität auf vernünftige Weise gehandhabt wird. Es werden Koeffizienten für alle Prädiktoren zurückgegeben, was je nach Perspektive entweder ein Vorteil oder ein Nachteil ist. Einige bevorzugen möglicherweise LASSO als Inferenz, da es nur eine Teilmenge von Prädiktoren enthält, aber seine besondere Wahl unter kollinearen Prädiktoren kann stichprobenabhängig sein, und Sie müssten dies bei der Interpretation der Ergebnisse berücksichtigen.

Ich vermute, dass ein größeres Problem als der Umgang mit 21 Prädiktorvariablen darin besteht, geeignete Skalierungstransformationen für Ihre Variablen zu finden, damit sie bei der Approximation eines linearen Modells einigermaßen gut funktionieren.

EdM
quelle
Vielen Dank, dass Sie @EdM! Ich werde Ihrem Rat folgen und sehen, wo das Modell landet. Eine Sache, die mich über Ihren Rat beunruhigt, jede der Prädiktorvariablen in das Modell aufzunehmen. Schlagen Sie vor, dass ich auch diese Prädiktorvariablen mit p-Werten über 0,05 beibehalten sollte? Ich verstehe jedoch Ihren Standpunkt zum Informationsverlust. Ich werde mich auch mit Gratregression und Lasso befassen. Danke für deinen Rat!
Vijay Rajan
3
Entfernen Sie auf keinen Fall Variablen, nur weil sie in univariaten Tests p> 0,05 haben. Wenn andere Variablen berücksichtigt werden, können sie signifikant werden oder den Vorhersagewert anderer Variablen verbessern. Dies ist umso wichtiger, wenn Sie Ihr Modell zur Vorhersage verwenden.
EdM