Wenn (dh stammt aus dem linearen Regressionsmodell), ist und in diesem Fall Residuen sind korreliert und nicht unabhängig. Wenn wir jedoch eine Regressionsdiagnose durchführen und die Annahme testen möchten, schlägt jedes Lehrbuch vor, Q-Q-Diagramme und statistische Tests für Residuen Diese wurden entwickelt, um zu testen, ob für einige .
Wie kommt es, dass für diese Tests Residuen nicht korreliert und nicht unabhängig sind? Es wird oft empfohlen, standardisierte Residuen zu verwenden: aber das macht sie nur homoskedastisch, nicht unabhängig.
Um die Frage neu zu formulieren: Residuen aus der OLS-Regression werden korreliert. Ich verstehe, dass diese Korrelationen in der Praxis so klein sind (meistens? Immer?), Dass sie ignoriert werden können, wenn getestet wird, ob Residuen aus der Normalverteilung stammen. Meine Frage ist, warum?
quelle
Antworten:
In Ihrer Notation ist die Projektion und der Spaltenraum von , dh der Unterraum aller Regressoren. Daher ist die Projektion auf alles orthogonal zum Unterraum, der von allen Regressoren überspannt wird.H X M:=In−H
Wenn , dann ist singulär normalverteilt und die Elemente sind korreliert, wie Sie angeben.X∈Rn×k e^∈Rn
Die Fehler sind nicht beobachtbar und im Allgemeinen nicht orthogonal zu dem von überspannten Unterraum . Nehmen Sie aus Gründen der Argumentation an, dass der Fehler . Wenn dies wahr wäre, hätten wir mit . Da , könnten wir zerlegen und das wahre .ε X ε⊥span(X) y=Xβ+ε=y~+ε y~⊥ε y~=Xβ∈span(X) y ε
Angenommen, wir haben eine Basis von , wobei der erste Basisvektor den Unterraum überspannt und die verbleibenden span . Im Allgemeinen hat der Fehler Komponenten ungleich Null für . Diese Nicht-Null-Komponenten werden mit und können daher nicht durch Projektion auf wiederhergestellt werden .b1,…,bn Rn b1,…,bk span(X) bk+1,…,bn span(X)⊥ ε=α1b1+…+αnbn αi i∈{1,…,k} Xβ span(X)
Da wir niemals hoffen können, die wahren Fehler wiederherzustellen, sind und korrelierte singuläre dimensionale Normalen, könnten wir transformieren . Dort können wir haben, dass dh ist nicht singulär unkorreliert und homoskedastisch normalverteilt. Die Residuen heißen Theils BLUS-Residuen .ε e^ n e^∈Rn↦e∗∈Rn−k
In der Kurzarbeit Über das Testen von Regressionsstörungen auf Normalität finden Sie einen Vergleich von OLS- und BLUS-Residuen. In der getesteten Monte-Carlo-Einstellung sind die OLS-Residuen den BLUS-Residuen überlegen. Dies sollte Ihnen jedoch einen Ausgangspunkt geben.
quelle