Ich habe ein lineares Regressionsmodell mit der Stichprobe und den variablen Beobachtungen und möchte wissen:
- Gibt an, ob eine bestimmte Variable signifikant genug ist, um im Modell enthalten zu bleiben.
- Ob eine andere Variable (mit Beobachtungen) in das Modell aufgenommen werden soll.
Welche Statistiken können mir helfen? Wie können sie am effizientesten erhalten werden?
quelle
Ich stimme Robs Kommentar zu. Eine zunehmend bevorzugte Alternative besteht darin, alle Ihre Variablen einzuschließen und auf 0 zu verkleinern. Siehe Tibshirani, R. (1996). Regressionsschrumpfung und Selektion über das Lasso.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
quelle
Für Teil 1 suchen Sie den F-Test . Berechnen Sie Ihre verbleibende Quadratsumme aus jeder Modellanpassung und berechnen Sie eine F-Statistik, mit der Sie p-Werte entweder aus einer F-Verteilung oder einer anderen von Ihnen selbst generierten Nullverteilung ermitteln können.
quelle
Eine weitere Abstimmung für Robs Antwort.
Es gibt auch einige interessante Ideen in der Literatur "relative Bedeutung". In dieser Arbeit werden Methoden entwickelt, mit denen ermittelt werden soll, wie wichtig die einzelnen Prädiktorenkandidaten sind. Es gibt Bayes'sche und Frequentistische Methoden. Überprüfen Sie das "relaimpo" -Paket in R auf Zitate und Code.
quelle
Ich mag auch Robs Antwort. Wenn Sie SAS anstelle von R verwenden, können Sie PROC GLMSELECT für Modelle verwenden, die mit PROC GLM ausgeführt werden, obwohl dies auch für einige andere Modelle gut funktioniert. Sehen
Flom und Cassell "Schrittweise stoppen: Warum schrittweise Auswahlmethoden schlecht sind und was Sie verwenden sollten", vorgestellt in verschiedenen Gruppen, zuletzt NESUG 2009
quelle