Was bedeuten normale Residuen und was sagt mir das über meine Daten?

13

Ziemlich grundlegende Frage:

Was bedeutet eine Normalverteilung von Residuen aus einer linearen Regression? Wie wirkt sich dies auf meine ursprünglichen Daten aus der Regression aus?

Ich bin total ratlos, danke Jungs

smar
quelle

Antworten:

5

Die lineare Regression modelliert tatsächlich die bedingten Erwartungswerte Ihres Ergebnisses. Das bedeutet: Wenn Sie die wahren Werte der Regressionsparameter (z. B. und β 1 ) kennen, geben Sie einen Wert Ihres Prädiktors X an und füllen Sie diesen in die Gleichung E [ Y | X ] = β 0 + β 1 X lässt Sie den erwarteten Wert für Y über alle (möglichen) Beobachtungen berechnen , die diesen gegebenen Wert für X haben .β0β1

E[Y|X]=β0+β1X
YX

Allerdings: Sie erwarten nicht wirklich, dass ein einzelner Wert für diesen gegebenen X- Wert genau dem (bedingten) Mittelwert entspricht. Nicht weil Ihr Modell falsch ist, sondern weil es einige Effekte gibt, die Sie nicht berücksichtigt haben (z. B. Messfehler). Diese Y- Werte für einen gegebenen X- Wert schwanken also um den Mittelwert (dh geometrisch: um den Punkt der Regressionslinie für dieses X ).YXYXX

Die Normalitätsannahme besagt nun, dass der Unterschied zwischen den und ihrem passenden E [ Y | X ] folgt einer Normalverteilung mit dem Mittelwert Null. Das bedeutet , wenn Sie einen haben X - Wert, dann kann man eine Probe Y - Wert , indem zuerst β 0 + β 1 X (also wieder E [ Y | X ] , der Punkt auf der Regressionsgeraden), nächsten Abtastzeitpunkt ε von diesem normalen verteilen und addieren: Y = E [ Y | XYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

Kurz gesagt: Diese Normalverteilung repräsentiert die Variabilität Ihres Ergebnisses zusätzlich zu der vom Modell erklärten Variabilität.

Hinweis: In den meisten Datensätzen haben Sie nicht mehrere Werte für ein bestimmtes X (es sei denn, Ihr Prädiktorsatz ist kategorisch). Diese Normalität gilt jedoch für die gesamte Grundgesamtheit und nicht nur für die Beobachtungen in Ihrem Datensatz.YX

Hinweis: Ich habe die Argumentation für die lineare Regression mit einem Prädiktor durchgeführt, aber das Gleiche gilt für mehr: Ersetzen Sie einfach "line" durch "hyperplane" im obigen Beispiel.

Nick Sabbe
quelle
Das ist eine großartige Erklärung! Eine Frage: Wenn e normal verteilt ist, würden Sie annehmen, dass die wahrscheinlichsten Werte für e zwischen -1 und +1 liegen (nachdem sie standardisiert wurden)? Sie verwenden also im Grunde eine Normalverteilung anstelle einer Poisson-Verteilung, weil die Normalverteilung das Verhalten dieser Werte im wirklichen Leben besser modelliert?
user3813234
1

Es könnte viel bedeuten oder es könnte nichts bedeuten. Wenn Sie ein Modell einsetzen, um das höchste R-Quadrat zu erhalten, könnte dies bedeuten, dass Sie dumm waren. Wenn Sie ein Modell so anpassen, dass es sparsam ist, dass die Variablen notwendig und notwendig sind und Ausreißer identifizieren, haben Sie gute Arbeit geleistet. Weitere Informationen finden Sie hier http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

Tom Reilly
quelle
0

Die Normalität der Residuen setzt die Ausführung eines linearen Modells voraus. Wenn Ihre Residuen also normal sind, bedeutet dies, dass Ihre Annahme gültig ist und die Modellinferenz (Konfidenzintervalle, Modellvorhersagen) ebenfalls gültig sein sollte. So einfach ist das!

Wcampbell
quelle
Bei der Normalitätsannahme handelt es sich um einen nicht beobachtbaren Fehler (daher die Notwendigkeit einer Annahme), nicht um beobachtbare Residuen.
DL Dahly
2
Ja, aber Sie verwenden die Residuen, um Ihre Vermutung über den nicht beobachtbaren Fehler zu testen.
Wcampbell
 to