Ich habe ein klassisches lineares Modell mit 5 möglichen Regressoren. Sie sind nicht miteinander korreliert und weisen eine relativ geringe Korrelation mit der Antwort auf. Ich bin zu einem Modell gekommen, bei dem 3 der Regressoren signifikante Koeffizienten für ihre t-Statistik haben (p <0,05). Wenn Sie eine oder beide der beiden verbleibenden Variablen addieren, erhalten Sie für die t-Statistik und die hinzugefügten Variablen p-Werte> 0,05. Dies lässt mich glauben, dass das 3-Variablen-Modell "am besten" ist.
Bei Verwendung des Befehls anova (a, b) in R, bei dem a das 3-Variablen-Modell und b das Vollmodell ist, ist der p-Wert für die F-Statistik jedoch <0,05, was bedeutet, dass ich das Vollmodell der 3-Variablen vorziehen soll Modell. Wie kann ich diese offensichtlichen Widersprüche in Einklang bringen?
Danke PS Edit: Einige weitere Hintergründe. Da dies Hausaufgaben sind, werde ich keine Details veröffentlichen, aber wir erhalten keine Details darüber, was die Regressoren repräsentieren - sie sind nur von 1 bis 5 nummeriert.
quelle
Antworten:
Das Problem begann, als Sie nach einem reduzierten Modell suchten und die Daten anstelle des Fachwissens zur Auswahl der Prädiktoren verwendeten. Eine schrittweise Variablenauswahl ohne gleichzeitige Bestrafung der Variablenauswahl ist, obwohl sie häufig verwendet wird, ein ungültiger Ansatz. Es wurde viel darüber geschrieben. Es gibt keinen Grund zu der Annahme, dass das 3-Variablen-Modell "am besten" ist, und es gibt keinen Grund, die ursprüngliche Liste der vordefinierten Prädiktoren nicht zu verwenden. P-Werte, die nach der Verwendung von P-Werten zur Auswahl von Variablen berechnet wurden, sind ungültig. Dies wurde in der Literatur zur funktionellen Bildgebung als "doppeltes Eintauchen" bezeichnet.
Hier ist eine Analogie. Angenommen, man möchte 6 Behandlungen vergleichen, verwendet jedoch paarweise t-Tests, um herauszufinden, welche Behandlungen "unterschiedlich" sind, was zu einem reduzierten Satz von 4 Behandlungen führt. Der Analyst testet dann mit 3 Freiheitsgraden auf einen Gesamtunterschied. Dieser F-Test hat den Typ I-Fehler aufgeblasen. Der ursprüngliche F-Test mit 5 df ist durchaus gültig.
Weitere Informationen finden Sie unter http://www.stata.com/support/faqs/stat/stepwise.html und stepwise-regression .
quelle
Eine Antwort wäre "Dies kann nicht ohne Fachkenntnisse erfolgen". Leider würde das Ihnen wahrscheinlich ein F für Ihre Aufgabe bringen. Es sei denn, ich war dein Professor. Dann würde es ein A bekommen.
Dann gibt es
Nun, wenn Sie das WISSEN (das hat Ihnen Ihr Ausbilder gesagt) und wenn Sie mit "unabhängig" "nicht mit dem DV verwandt" meinen, dann wissen Sie, dass das beste Modell eines ohne Prädiktoren ist und Ihre Intuition korrekt ist.
quelle
Sie könnten versuchen, eine Gegenprüfung durchzuführen. Wählen Sie eine Teilmenge Ihrer Stichprobe aus, finden Sie das "beste" Modell für diese Teilmenge mithilfe von F- oder T-Tests und wenden Sie es dann auf die gesamte Datenmenge an (eine vollständige Kreuzvalidierung kann komplizierter sein, aber dies wäre ein guter Anfang). Dies hilft, einige der schrittweisen Testprobleme zu lindern.
Eine niedliche kleine Simulation dieser Idee finden Sie in einem Hinweis zum Screening von Regressionsgleichungen von David Freedman.
quelle
Ich mag die Methode, die im
caret
Paket verwendet wird: die Beseitigung rekursiver Merkmale. Sie können mehr darüber in der Vignette lesen , aber hier ist der grundlegende Prozess:Die Grundidee besteht darin, mithilfe von Kriterien (z. B. t-Statistiken) unwichtige Variablen zu eliminieren und festzustellen, wie sich die Vorhersagegenauigkeit des Modells verbessert. Sie wickeln das Ganze in eine Resampling-Schleife ein, z. B. eine Kreuzvalidierung. Im folgenden Beispiel wird ein lineares Modell verwendet, um Variablen in ähnlicher Weise wie von Ihnen beschrieben zu klassifizieren:
In diesem Beispiel erkennt der Algorithmus, dass es drei "wichtige" Variablen gibt, aber nur zwei davon.
quelle