Bestätigung der Verteilung von Residuen in linearer Regression

17

Angenommen, wir haben eine einfache lineare Regression , die Residuen gespeichert und ein Histogramm der Verteilung der Residuen erstellt. Wenn wir etwas bekommen, das wie eine vertraute Distribution aussieht, können wir annehmen, dass unser Fehlerbegriff diese Distribution hat? Wenn wir herausfinden, dass Residuen der Normalverteilung ähneln, ist es dann sinnvoll, die Normalität des Fehlerausdrucks in der Grundgesamtheit anzunehmen? Ich denke, es ist sinnvoll, aber wie kann es gerechtfertigt werden? $y=\beta_0+\beta_1x+u$ $\hat{u_i}$

r regression residuals marcin63
quelle

1

Persönlich finde ich es ziemlich schwierig, die Normalität anhand eines Histogramms (oder einer Kernel-Dichtekurve) zu beurteilen. Ich würde mich niemals auf sie als "ultimativen" Beweis verlassen. QQ-Diagramme sind für diesen Zweck viel leistungsfähiger.

18

Es hängt alles davon ab, wie Sie die Parameter schätzen . Normalerweise sind die Schätzer linear, was impliziert, dass die Residuen lineare Funktionen der Daten sind. Wenn die Fehler eine Normalverteilung haben, die Daten dann so tun, woher so die Residuen tun ( Indizes mit den Daten Fällen, natürlich). $u_i$ $\hat{u}_i$ $i$

Es ist denkbar (und logisch möglich), dass, wenn die Residuen ungefähr eine Normalverteilung (univariate Verteilung) zu haben scheinen, dies aus nicht-normalen Fehlerverteilungen resultiert. Bei Schätzverfahren der kleinsten Quadrate (oder der maximalen Wahrscheinlichkeit) ist die lineare Transformation zur Berechnung der Residuen jedoch "mild" in dem Sinne, dass die charakteristische Funktion der (multivariaten) Verteilung der Residuen sich nicht wesentlich von der der Fehler unterscheiden kann .

In der Praxis müssen die Fehler niemals exakt normalverteilt sein, daher ist dies ein unwichtiges Problem. Wesentlich wichtiger für die Fehler ist, dass (1) alle ihre Erwartungen nahe Null liegen sollten; (2) ihre Korrelationen sollten gering sein; und (3) es sollte eine akzeptabel kleine Anzahl von abweichenden Werten geben. Um dies zu überprüfen, wenden wir verschiedene Anpassungstests, Korrelationstests und Ausreißertests auf die Residuen an. Eine sorgfältige Regressionsmodellierung umfasst immer das Ausführen solcher Tests (einschließlich verschiedener grafischer Visualisierungen der Residuen, die beispielsweise automatisch von Rs plotMethode bereitgestellt werden , wenn sie auf eine lmKlasse angewendet werden ).

Ein anderer Weg, um zu dieser Frage zu gelangen, ist die Simulation anhand des hypothetischen Modells. Hier ist ein (minimaler, einmaliger) RCode, um die Arbeit zu erledigen:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

Für den Fall n = 32 zeigt diese überlagerte Wahrscheinlichkeitsdarstellung von 99 Residuensätzen, dass sie tendenziell nahe an der Fehlerverteilung liegen (was normal ist), da sie gleichmäßig an der Referenzlinie : $y=x$

Zahl für n = 32

Für den Fall n = 6 deutet die geringere mittlere Steigung in den Wahrscheinlichkeitsdiagrammen darauf hin, dass die Residuen eine geringfügig geringere Varianz als die Fehler aufweisen, aber insgesamt tendenziell normalverteilt sind, da die meisten von ihnen der Referenzlinie ausreichend gut folgen (vorausgesetzt, kleiner Wert von ): $n$

Zahl für n = 6

whuber
quelle

Interessanter würde es werden, wenn Sie beispielsweise rexp(n)anstelle der rnorm(n)Generierung Ihrer Daten hinzufügen . Die Verteilung der Residuen würde dem Normalen viel näher kommen, als Sie denken würden.

StasK

Aber wenn wir nicht davon ausgehen, dass die Residuen normal sind, wie wird der p-Wert der resultierenden geschätzten Koeffizienten berechnet? Was ist die Teststatistik?

Ant

5

y_{ich} = x_{ich}^{'} β + ϵ_{ich}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (ich - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

StasK
quelle

1

Wenn wir etwas bekommen, das wie eine vertraute Distribution aussieht, können wir annehmen, dass unser Fehlerbegriff diese Distribution hat?

Ich würde argumentieren, dass Sie nicht können, da das Modell, das Sie gerade gepasst haben, ungültig ist, wenn die Normalitätsannahme über die Fehler nicht zutrifft. (in dem Sinne, dass die Form der Verteilung eindeutig nicht normal ist, wie z. B. Cauchy usw.)

Der übliche Ansatz, anstatt beispielsweise Poisson-verteilte Fehler anzunehmen, besteht darin, eine Form von Datentransformation wie log y oder 1 / y durchzuführen, um die Residuen zu normalisieren. (Auch das wahre Modell ist möglicherweise nicht linear, wodurch die gezeichneten Residuen seltsam verteilt erscheinen, obwohl sie tatsächlich normal sind.)

Wenn wir herausfinden, dass Residuen der Normalverteilung ähneln, ist es dann sinnvoll, die Normalität des Fehlerausdrucks in der Grundgesamtheit anzunehmen?

Sie haben die Normalität von Fehlern angenommen, sobald Sie eine OLS-Regression angepasst haben. Ob Sie Argumente für diese Behauptung vorlegen müssen, hängt von der Art und dem Grad Ihrer Arbeit ab. (Es ist oft nützlich, sich die anerkannte Praxis vor Ort anzuschauen.)

Nun, wenn die Residuen tatsächlich normal verteilt zu sein scheinen, können Sie sich auf den Rücken streicheln, da Sie es als empirischen Beweis für Ihre vorherigen Annahmen verwenden können. :)

Mittel zur Bedeutung
quelle

0

Ja, es ist sinnvoll. Die Reste sind die Fehler. Sie können sich auch einen normalen QQ-Plot ansehen.

Thomas
quelle

{\hat{u}}_{i}

$\hat{u}_i$

u

$u$

7

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$

x

$x$

X

$X$

1

@ Wayne, ich glaube, "es" bezieht sich auf die Prozedur "wenn wir herausfanden, dass Residuen der Normalverteilung ähneln, ... um die Normalität der Fehlerbedingungen in der Population anzunehmen." Ich denke, Sie haben im Grunde recht, aber die Feinheiten sind, dass die Residuen ein Produkt sowohl der Stichprobe als auch der Methode sind, mit der die Parameter geschätzt werden. Ich finde das eine nachdenkliche und interessante Frage.

whuber

@whuber Ich würde mich für Ihre Meinung zu studentisierten versus standardisierten versus rohen Residuen interessieren.

Michelle

Bestätigung der Verteilung von Residuen in linearer Regression

Antworten: