Gibt es einen formalen Test der Nichtlinearität bei der linearen Regression?

8

In der logistischen Regression gibt es Box-Tidwell, aber ich kenne nichts Vergleichbares in der linearen Regression. Ich verwende partielle Residuendiagramme, um danach zu suchen, eine grafische Funktion, würde aber gerne einen formalen Test finden (ehrlich gesagt bezweifle ich, dass Sie einen formalen Test durchführen können, aber ich könnte mich irren).

user54285
quelle
Für das Modell y=β0+jβjxj+εist kein formeller Test H0:βj=0 für alle j vs. H1:not H0? Dies ähnelt einem ANOVA F-Test.
Hartnäckig

Antworten:

10

Box-Tidwell wurde für gewöhnliche Regressionsmodelle der kleinsten Quadrate entwickelt.

Wenn Sie also dazu neigen, Box-Tidwell dafür zu verwenden, ist es genau das, wofür es entwickelt wurde.

Es ist nicht der einzig mögliche Ansatz, aber es klingt wie ein Ansatz, mit dem Sie bereits vertraut sind.

Ich bin jedoch nicht davon überzeugt, dass (meistens wird er verwendet) ein formaler Test angemessen ist - ich glaube, er beantwortet normalerweise die falsche Frage, während die von Ihnen betrachteten Diagnosediagramme der Beantwortung einer nützlichen Frage näher kommen. [Ich habe eine ähnliche Meinung zu vielen anderen Tests von Regressionsannahmen]

Glen_b -State Monica
quelle
4
Wäre ich mit einer anderen Spezifikation besser dran, ist das normalerweise eine gute Frage, aber eine, die nur sehr spezifisch anzugehen ist. (Wortspiel nicht wirklich beabsichtigt, aber es scheint zu passen.)
Nick Cox
@Glen_b Können Sie die "falschen" und "nützlichen" Fragen angeben, auf die Sie sich beziehen? Vielen Dank.
Rolando2
4
Die getestete Hypothese ist die exakte Linearität - was fast nie der Fall sein wird. Wenn wir nicht ablehnen, haben wir nur gelernt, dass unsere Stichprobe zu klein war, um die Nichtlinearität zu erkennen, und nicht, dass ihre Wirkung gering war. Wenn wir ablehnen, geht es uns nicht besser, wir haben gelernt, was wir bereits wussten, aber wenn die Nichtlinearität gering ist, ist dies von geringer Bedeutung. Der Test sagt uns immer noch nicht, ob die Nichtlinearität tatsächlich wichtig ist ; Was wir wissen mussten, ist, wie viel Unterschied die Nichtlinearität, die wir haben, zu unserer Schlussfolgerung macht.
Glen_b -State Monica
Ein Problem, das ich habe, weil ich normalerweise mit der gesamten fraglichen Bevölkerung arbeite, ist, dass ich Tausende von Datenpunkten habe. Sie neigen dazu, wie große Blobs in den Residuen auszusehen, so dass es schwierig ist, Muster in der Regression zu erkennen. Sie repräsentieren nicht sehr gut, was Sie in Lehrbüchern sehen.
user54285
1
1. Bei einer großen Stichprobe würde dies die Grundlage für eine (leicht zu beantwortende) Frage bilden (wie man unter solchen Umständen die Nichtlinearität in einem Restdiagramm sieht); Idealerweise fügen Sie ein Beispieldiagramm hinzu, das Ihnen Schwierigkeiten bereiten würde. 2. Wenn Sie sich an die gesamte interessierende Bevölkerung anpassen, gehen die Vorstellungen von Tests aus dem Fenster (Sie haben sicherlich keine Zufallsstichprobe!). Sie haben buchstäblich das Ganze, worüber Sie Rückschlüsse ziehen möchten. Berechnen Sie einfach, was Sie brauchen.
Glen_b -Reinstate Monica
6

Die besten formalen Tests ergeben sich aus der Lockerung der Linearitätsannahme und der Überprüfung, ob das Entfernen der Nichtlinearitäten die erklärte Variation in Y beschädigt. Sie können beispielsweise X mithilfe eines Regressionssplines erweitern und die nichtlinearen Komponenten testen. Meine RMS-Kursnotizen gehen auf Details ein.

Sobald Sie jedoch die Möglichkeit der Nichtlinearität berücksichtigt haben, verzerren Sie die statistische Inferenz, indem Sie die nichtlinearen Terme entfernen. Die realen Freiheitsgrade des Zählers für die Regression sind die Anzahl der Chancen, dem Modell zu geben, wobei die nichtlinearen Terme berücksichtigt werden müssen. Der beste Rat insgesamt ist also, zuzulassen, dass Effekte, von denen nicht bekannt ist, dass sie linear sind, nichtlinear sind und damit ausgeführt werden. Dadurch bleibt die Abdeckung des Konfidenzintervalls usw. erhalten.

Frank Harrell
quelle
2
(+1) Der Link führt derzeit zu einem Fehler "Seite nicht gefunden".
COOLSerdash
"Der beste Rat insgesamt ist also, zuzulassen, dass Effekte, von denen nicht bekannt ist, dass sie linear sind, nichtlinear sind und damit ausgeführt werden. Dadurch bleibt die Abdeckung des Konfidenzintervalls usw. erhalten." Ich bin mir nicht sicher, wie Sie das machen, aber auf jeden Fall gibt es in den Bereichen, in denen ich arbeite, keine gut entwickelte Theorie (sehr wenig in Bezug auf eine ausgefeilte statistische Analyse überhaupt).
user54285
1
URL für Link korrigiert
Frank Harrell
1

Passen Sie eine nichtlineare Regression an (z. B. ein Spline-Modell wie GAM) und vergleichen Sie sie dann mit dem linearen Modell mithilfe des AIC- oder Likelihood-Ratio-Tests. Dies ist eine einfache und intuitive Methode zum Testen der Nichtlinearität. Wenn der Test ablehnt oder wenn AIC das GAM bevorzugt, schließen Sie, dass es Nichtlinearitäten gibt.

Gammodel
quelle
Das ist ein interessanter Vorschlag Gammodel, aber ich habe eine Frage. Ich habe viele, sagen wir 30 Prädiktoren in meinem Modell. Der AIC wird Sie über das Gesamtmodell informieren. Wie würde ich wissen, welche der einzelnen Variablen im Modell tatsächlich nicht linear war?
user54285