Ist eine Variable in einem linearen Regressionsmodell signifikant?

9

Ich habe ein lineares Regressionsmodell mit der Stichprobe und den variablen Beobachtungen und möchte wissen:

  1. Gibt an, ob eine bestimmte Variable signifikant genug ist, um im Modell enthalten zu bleiben.
  2. Ob eine andere Variable (mit Beobachtungen) in das Modell aufgenommen werden soll.

Welche Statistiken können mir helfen? Wie können sie am effizientesten erhalten werden?

Wilhelm
quelle

Antworten:

26

Die statistische Signifikanz ist normalerweise keine gute Grundlage, um zu bestimmen, ob eine Variable in ein Modell aufgenommen werden soll. Statistische Tests wurden entwickelt, um Hypothesen zu testen, nicht um Variablen auszuwählen. Ich weiß, dass viele Lehrbücher die Variablenauswahl mithilfe statistischer Tests diskutieren, aber dies ist im Allgemeinen ein schlechter Ansatz. In Harrells Buch Regression Modeling Strategies finden Sie einige Gründe dafür. Heutzutage wird normalerweise eine variable Auswahl basierend auf dem AIC (oder etwas Ähnlichem) bevorzugt.

Rob Hyndman
quelle
Nach meinem besten Gedächtnis rät Harrell von der Verwendung von AIC ab. Ich denke, eine Kreuzvalidierung wäre wahrscheinlich die sicherste Methode.
Tal Galili
1
AIC ist asymptotisch äquivalent zu CV. Siehe Antworten zu stats.stackexchange.com/questions/577/… . Ich habe Harrell überprüft, bevor ich diese Antwort geschrieben habe, und ich habe keine Entmutigung des AIC gesehen. Er warnt vor Signifikanztests nach der Variablenauswahl mit dem AIC oder einer anderen Methode.
Rob Hyndman
@Tal: Vielleicht erinnere ich mich, dass Harrell aus einem seiner Artikel und nicht aus dem RMS-Buch Einwände gegen die Verwendung von AIC erhoben hat, um einfach aus einem Pool vieler Modelle zu wählen . Ich denke, sein Punkt war, dass Sie jeweils eine Variable hinzufügen und zwei Modelle methodisch vergleichen oder eine ähnliche Strategie anwenden müssen. (Um klar zu sein, stimmt dies mit Robs Antwort überein.)
Ars
Bei einer schnellen Suche fand ich Harrell, der Folgendes schrieb: "Hüten Sie sich vor der Modellauswahl auf der Grundlage von P-Werten, R-Quadrat, partiellem R-Quadrat, AIC, BIC, Regressionskoeffizienten oder Mallows 'Cp." Er schrieb das am 14.12.08 auf einer Mailingliste mit dem Titel [R] Erhalten von p-Werten für Koeffizienten aus der LRM-Funktion (Paketdesign) - Klartext. Ich glaube, ich habe seine Bedeutung falsch verstanden.
Tal Galili
2
@Tal, @Rob: In diesem Thread sagt er "Verwenden Sie unbedingt das Hierarchieprinzip". Vielleicht von Interesse, diese Diskussion von medstats (scrollen Sie nach unten für Harrells Antwort): groups.google.com/group/medstats/browse_thread/thread/…
ars
4

Ich stimme Robs Kommentar zu. Eine zunehmend bevorzugte Alternative besteht darin, alle Ihre Variablen einzuschließen und auf 0 zu verkleinern. Siehe Tibshirani, R. (1996). Regressionsschrumpfung und Selektion über das Lasso.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

user603
quelle
1
Gibt es eine Möglichkeit zu quantifizieren, was heutzutage "zunehmend bevorzugt" wird?
Tal Galili
Ich denke, dass es in vielen Bereichen als wissenschaftlich korrekter anerkannt ist, da der Schrumpfungsansatz in neueren angewandten statistischen Arbeiten häufiger verwendet wird als der * .IC-Ansatz. Das zeigt einen gewissen - zumindest stillschweigenden - theoretischen Konsens.
user603
1
2p
3

Für Teil 1 suchen Sie den F-Test . Berechnen Sie Ihre verbleibende Quadratsumme aus jeder Modellanpassung und berechnen Sie eine F-Statistik, mit der Sie p-Werte entweder aus einer F-Verteilung oder einer anderen von Ihnen selbst generierten Nullverteilung ermitteln können.

Eric Suh
quelle
1

Eine weitere Abstimmung für Robs Antwort.

Es gibt auch einige interessante Ideen in der Literatur "relative Bedeutung". In dieser Arbeit werden Methoden entwickelt, mit denen ermittelt werden soll, wie wichtig die einzelnen Prädiktorenkandidaten sind. Es gibt Bayes'sche und Frequentistische Methoden. Überprüfen Sie das "relaimpo" -Paket in R auf Zitate und Code.

Andrew Robinson
quelle
1

Ich mag auch Robs Antwort. Wenn Sie SAS anstelle von R verwenden, können Sie PROC GLMSELECT für Modelle verwenden, die mit PROC GLM ausgeführt werden, obwohl dies auch für einige andere Modelle gut funktioniert. Sehen

Flom und Cassell "Schrittweise stoppen: Warum schrittweise Auswahlmethoden schlecht sind und was Sie verwenden sollten", vorgestellt in verschiedenen Gruppen, zuletzt NESUG 2009

Peter Flom - Monica wieder einsetzen
quelle