Bei der Durchführung einer Polynomregression für auf Menschen manchmal rohe Polynome, manchmal orthogonale Polynome. Aber wenn sie verwenden, was völlig willkürlich erscheint.
Hier und hier werden rohe Polynome verwendet. Aber hier und hier scheinen orthogonale Polynome die richtigen Ergebnisse zu liefern. Was, wie, warum?!
Im Gegensatz dazu, wenn man aus einem Lehrbuch etwas über die Polynomregression lernt (z ISLR ) nicht einmal rohe oder orthogonale Polynome erwähnt - es wird nur das anzupassende Modell angegeben.
Wann müssen wir also was verwenden?
Und warum sind die einzelnen p-Werte für , X 2 usw. stark zwischen diesen beiden Werten?
regression
polynomial
l7ll7
quelle
quelle
Antworten:
Die Variablen und X 2 sind nicht linear unabhängig. Selbst wenn es keinen quadratischen Effekt gibt, ändert das Hinzufügen von X 2 zum Modell den geschätzten Effekt von X.X X2 X2 X .
Lassen Sie uns einen Blick mit einer sehr einfachen Simulation werfen.
Jetzt mit einem quadratischen Term im Modell passen.
Natürlich ist der Omnibus-Test immer noch von Bedeutung, aber ich denke, das Ergebnis, das wir suchen, ist nicht dieses. Die Lösung besteht darin, orthogonale Polynome zu verwenden.
Beachten Sie, dass die Koeffizienten von
x
im ersten Modell und vonpoly(x,2)1
im zweiten Modell nicht gleich sind und sogar die Abschnitte unterschiedlich sind. Dies liegt daran, dasspoly
orthonormale Vektoren geliefert werden, die auch orthogonal zum Vektor sindrep(1, length(x))
. Alsopoly(x,2)1
nichtx
, sondern(x -mean(x))/sqrt(sum((x-mean(x))**2))
...Ein wichtiger Punkt ist, dass die Wald-Tests in diesem letzten Modell unabhängig sind. Sie können orthogonale Polynome verwenden, um zu entscheiden, bis zu welchem Grad Sie gehen möchten, indem Sie sich den Wald-Test ansehen: Hier entscheiden Sie sich, aber nicht X 2 beizubehaltenX X2 . Natürlich würden Sie das gleiche Modell finden, wenn Sie die ersten beiden Modelle vergleichen, aber auf diese Weise ist es einfacher - wenn Sie überlegen, in höhere Grade aufzusteigen, ist es wirklich viel einfacher.
Sobald Sie entschieden haben, welche Begriffe beibehalten werden sollen, möchten Sie möglicherweise zur Interpretierbarkeit oder zur Vorhersage zu den Rohpolynomen und X 2 zurückkehren .X X2
quelle
Um eine naive Einschätzung der Situation zu geben:
allgemein: Angenommen, Sie haben zwei verschiedene Basisfunktionssysteme sowie { ˜ p } ∞ n = 1 für einen Funktions- (Hilbert-) Raum, übliches L 2 ( [ a , b ] ) dh der Raum aller quadratisch integrierbaren Funktionen.{pn}∞n=1 {p~}∞n=1 L2([a,b])
Dies bedeutet, dass jede der beiden Basen verwendet werden kann, um jedes Element von zu erklären , dh für y ∈ L 2 ( [ a , b ] ) haben Sie für einige Koeffizienten θ n und ˜ θ n ∈ R , n = 1 , 2 , ... (in der L 2 -SENSE): ∞ & Sigma; n = 1 ~ θ nL2([a,b]) y∈L2([a,b]) θn θ~n∈R n=1,2,… L2
But each individual basis function from the two "different" bases will yield a different contribution to this predcition (obviously as the functions/predictors are different!) resulting in differentp -values and coefficients.
Hence, in terms of prediction there is (in this case) no difference.
From a computational point of view a model matrix consisting of orthogonal basis functions have nice numerical/computational properties for the least squares estimator. While at the same time from the statistical point of view, the orthogonalization results in uncorrelated estimates, sincevar(θ~^)=Iσ² under the standard assumptions.
The natural question arises if there is a best truncated basis system. However the answer to the question is neither simple nor unique and depends for example on the definition of the word "best", i.e. what you are trying to archive.
quelle