Klassisches lineares Modell - Modellauswahl

15

Ich habe ein klassisches lineares Modell mit 5 möglichen Regressoren. Sie sind nicht miteinander korreliert und weisen eine relativ geringe Korrelation mit der Antwort auf. Ich bin zu einem Modell gekommen, bei dem 3 der Regressoren signifikante Koeffizienten für ihre t-Statistik haben (p <0,05). Wenn Sie eine oder beide der beiden verbleibenden Variablen addieren, erhalten Sie für die t-Statistik und die hinzugefügten Variablen p-Werte> 0,05. Dies lässt mich glauben, dass das 3-Variablen-Modell "am besten" ist.

Bei Verwendung des Befehls anova (a, b) in R, bei dem a das 3-Variablen-Modell und b das Vollmodell ist, ist der p-Wert für die F-Statistik jedoch <0,05, was bedeutet, dass ich das Vollmodell der 3-Variablen vorziehen soll Modell. Wie kann ich diese offensichtlichen Widersprüche in Einklang bringen?

Danke PS Edit: Einige weitere Hintergründe. Da dies Hausaufgaben sind, werde ich keine Details veröffentlichen, aber wir erhalten keine Details darüber, was die Regressoren repräsentieren - sie sind nur von 1 bis 5 nummeriert.

P Sellaz
quelle
6
Unter einem geeigneten Modell kann ein Modell verstanden werden, das effektiv alle vordefinierten Variablen verwendet (Berücksichtigung der Nichtlinearität usw.). Ich hoffe, Ihr Lehrer versteht, dass die schrittweise Variablenauswahl ungültig ist. Nur wenige.
Frank Harrell
1
Hallo nochmal und danke. Entschuldigung für all das Hin und Her. In den Anweisungen steht auch "Es gibt nicht unbedingt ein" bestes "Modell, und Sie müssen nicht unbedingt alle Prädiktoren einbeziehen". Es gibt auch keine Kollinearität oder Nichtlinearität. Tatsächlich werden alle 5 Prädiktoren durch unabhängige Simulationen aus einer Normalverteilung generiert. Folglich sind auch die Korrelationen zwischen den Prädiktoren und der Antwort gering (die größte ist kleiner als 0,1). Ehrlich gesagt sagt meine Intuition, dass das "beste" Modell möglicherweise nur der Stichprobenmittelwert ist (angepasstes r im Quadrat ist kleiner als 0,03)
P Sellaz
@P Sellaz: Da dies Hausaufgaben unter Verwendung von simulierten Daten sind, könnte Ihre Intuition hier von Nutzen sein. Schreiben Sie eine gut begründete Erklärung für Ihre Intuition auf.
Zach
1
Der im Allgemeinen nicht verwendet werden, da die Größe kontextabhängig ist. Aber je nachdem, wie genau die Simulation ausgeführt werden sollte, haben Sie Recht, dass der Gesamtmittelwert das sein kann, was benötigt wird. R2
Frank Harrell
1
Im Allgemeinen ist es richtig, dass man nicht alle Prädiktoren einbeziehen muss, um eine gute Arbeit zu leisten. Die Daten können Ihnen jedoch nicht sagen, welche Prädiktoren verwendet werden sollen.
Frank Harrell

Antworten:

17

Das Problem begann, als Sie nach einem reduzierten Modell suchten und die Daten anstelle des Fachwissens zur Auswahl der Prädiktoren verwendeten. Eine schrittweise Variablenauswahl ohne gleichzeitige Bestrafung der Variablenauswahl ist, obwohl sie häufig verwendet wird, ein ungültiger Ansatz. Es wurde viel darüber geschrieben. Es gibt keinen Grund zu der Annahme, dass das 3-Variablen-Modell "am besten" ist, und es gibt keinen Grund, die ursprüngliche Liste der vordefinierten Prädiktoren nicht zu verwenden. P-Werte, die nach der Verwendung von P-Werten zur Auswahl von Variablen berechnet wurden, sind ungültig. Dies wurde in der Literatur zur funktionellen Bildgebung als "doppeltes Eintauchen" bezeichnet.

Hier ist eine Analogie. Angenommen, man möchte 6 Behandlungen vergleichen, verwendet jedoch paarweise t-Tests, um herauszufinden, welche Behandlungen "unterschiedlich" sind, was zu einem reduzierten Satz von 4 Behandlungen führt. Der Analyst testet dann mit 3 Freiheitsgraden auf einen Gesamtunterschied. Dieser F-Test hat den Typ I-Fehler aufgeblasen. Der ursprüngliche F-Test mit 5 df ist durchaus gültig.

Weitere Informationen finden Sie unter http://www.stata.com/support/faqs/stat/stepwise.html und .

Frank Harrell
quelle
Danke für deine Antwort. Ich habe die ursprüngliche Frage bearbeitet. Ich hoffe das ist ok Jeder weitere Rat wäre sehr willkommen.
P Sellaz
6

Eine Antwort wäre "Dies kann nicht ohne Fachkenntnisse erfolgen". Leider würde das Ihnen wahrscheinlich ein F für Ihre Aufgabe bringen. Es sei denn, ich war dein Professor. Dann würde es ein A bekommen.

R2

Dann gibt es

Alle 5 Prädiktoren werden durch unabhängige Simulationen aus einer Normalverteilung generiert.

Nun, wenn Sie das WISSEN (das hat Ihnen Ihr Ausbilder gesagt) und wenn Sie mit "unabhängig" "nicht mit dem DV verwandt" meinen, dann wissen Sie, dass das beste Modell eines ohne Prädiktoren ist und Ihre Intuition korrekt ist.

Peter Flom - Wiedereinsetzung von Monica
quelle
Hallo Peter, und danke. N ist 900. Die Daten wurden alle durch Simulation erzeugt. Ich weiß das, weil wir die Simulationen selbst machen mussten. In Bezug auf diese Hausaufgaben sollen sie reale Daten darstellen. Es wurden 100 Simulationen durchgeführt, und die 5 mit den größten Korrelationen zur Antwort (ebenfalls simuliert, aber nur einmal) wurden als Regressionskandidaten ausgewählt.
P Sellaz
1
Stellen Sie nur sicher, dass Sie keine Verbindung zwischen X und Y simulieren. Dann ist, wie andere gesagt haben, ein Regressionsmodell irrelevant und der Gesamtmittelwert ist ausreichend.
Frank Harrell
1
Ja, sie sind völlig unabhängig. Wir haben die Daten mit den 5 größten Korrelationen als Regressionskandidaten ausgewählt, aus denen wir "ein geeignetes Modell mit Begründung ableiten" müssen, aber "nicht unbedingt alle 5 Prädiktoren einbeziehen müssen".
P Sellaz
Es hört sich so an, als ob Ihr Professor entweder a) völlig verwirrt ist oder b) etwas ziemlich Interessantes tut. Schwer zu sagen, welche. Wenn er / sie beabsichtigte, dies zu zeigen, worauf @FrankHarrell und ich und andere hingewiesen haben, dann gut! (das wäre b). OTOH, wenn er / sie beabsichtigt, dass dies eine "echte" Regression ist, dann ist es a).
Peter Flom - Wiedereinsetzung von Monica
1
Ich werde Sie wissen lassen, was es ist, wenn die Papiere markiert sind :)
P Sellaz
4

Sie könnten versuchen, eine Gegenprüfung durchzuführen. Wählen Sie eine Teilmenge Ihrer Stichprobe aus, finden Sie das "beste" Modell für diese Teilmenge mithilfe von F- oder T-Tests und wenden Sie es dann auf die gesamte Datenmenge an (eine vollständige Kreuzvalidierung kann komplizierter sein, aber dies wäre ein guter Anfang). Dies hilft, einige der schrittweisen Testprobleme zu lindern.

Eine niedliche kleine Simulation dieser Idee finden Sie in einem Hinweis zum Screening von Regressionsgleichungen von David Freedman.

Charlie
quelle
2

Ich mag die Methode, die im caretPaket verwendet wird: die Beseitigung rekursiver Merkmale. Sie können mehr darüber in der Vignette lesen , aber hier ist der grundlegende Prozess: Variablenauswahl

Die Grundidee besteht darin, mithilfe von Kriterien (z. B. t-Statistiken) unwichtige Variablen zu eliminieren und festzustellen, wie sich die Vorhersagegenauigkeit des Modells verbessert. Sie wickeln das Ganze in eine Resampling-Schleife ein, z. B. eine Kreuzvalidierung. Im folgenden Beispiel wird ein lineares Modell verwendet, um Variablen in ähnlicher Weise wie von Ihnen beschrieben zu klassifizieren:

#Setup
set.seed(1)
p1 <- rnorm(50)
p2 <- rnorm(50)
p3 <- rnorm(50)
p4 <- rnorm(50)
p5 <- rnorm(50)
y <- 4*rnorm(50)+p1+p2-p5

#Select Variables
require(caret)
X <- data.frame(p1,p2,p3,p4,p5)
RFE <- rfe(X,y, sizes = seq(1,5), rfeControl = rfeControl(
                    functions = lmFuncs,
                    method = "repeatedcv")
                )
RFE
plot(RFE)

#Fit linear model and compare
fmla <- as.formula(paste("y ~ ", paste(RFE$optVariables, collapse= "+")))
fullmodel <- lm(y~p1+p2+p3+p4+p5,data.frame(y,p1,p2,p3,p4,p5))
reducedmodel <- lm(fmla,data.frame(y,p1,p2,p3,p4,p5))
summary(fullmodel)
summary(reducedmodel)

In diesem Beispiel erkennt der Algorithmus, dass es drei "wichtige" Variablen gibt, aber nur zwei davon.

Zach
quelle