Ziemlich grundlegende Frage:
Was bedeutet eine Normalverteilung von Residuen aus einer linearen Regression? Wie wirkt sich dies auf meine ursprünglichen Daten aus der Regression aus?
Ich bin total ratlos, danke Jungs
quelle
Ziemlich grundlegende Frage:
Was bedeutet eine Normalverteilung von Residuen aus einer linearen Regression? Wie wirkt sich dies auf meine ursprünglichen Daten aus der Regression aus?
Ich bin total ratlos, danke Jungs
Die lineare Regression modelliert tatsächlich die bedingten Erwartungswerte Ihres Ergebnisses. Das bedeutet: Wenn Sie die wahren Werte der Regressionsparameter (z. B. und β 1 ) kennen, geben Sie einen Wert Ihres Prädiktors X an und füllen Sie diesen in die Gleichung E [ Y | X ] = β 0 + β 1 X lässt Sie den erwarteten Wert für Y über alle (möglichen) Beobachtungen berechnen , die diesen gegebenen Wert für X haben .
Allerdings: Sie erwarten nicht wirklich, dass ein einzelner Wert für diesen gegebenen X- Wert genau dem (bedingten) Mittelwert entspricht. Nicht weil Ihr Modell falsch ist, sondern weil es einige Effekte gibt, die Sie nicht berücksichtigt haben (z. B. Messfehler). Diese Y- Werte für einen gegebenen X- Wert schwanken also um den Mittelwert (dh geometrisch: um den Punkt der Regressionslinie für dieses X ).
Die Normalitätsannahme besagt nun, dass der Unterschied zwischen den und ihrem passenden E [ Y | X ] folgt einer Normalverteilung mit dem Mittelwert Null. Das bedeutet , wenn Sie einen haben X - Wert, dann kann man eine Probe Y - Wert , indem zuerst β 0 + β 1 X (also wieder E [ Y | X ] , der Punkt auf der Regressionsgeraden), nächsten Abtastzeitpunkt ε von diesem normalen verteilen und addieren: Y ′ = E [ Y | X
Kurz gesagt: Diese Normalverteilung repräsentiert die Variabilität Ihres Ergebnisses zusätzlich zu der vom Modell erklärten Variabilität.
Hinweis: In den meisten Datensätzen haben Sie nicht mehrere Werte für ein bestimmtes X (es sei denn, Ihr Prädiktorsatz ist kategorisch). Diese Normalität gilt jedoch für die gesamte Grundgesamtheit und nicht nur für die Beobachtungen in Ihrem Datensatz.
Hinweis: Ich habe die Argumentation für die lineare Regression mit einem Prädiktor durchgeführt, aber das Gleiche gilt für mehr: Ersetzen Sie einfach "line" durch "hyperplane" im obigen Beispiel.
Es könnte viel bedeuten oder es könnte nichts bedeuten. Wenn Sie ein Modell einsetzen, um das höchste R-Quadrat zu erhalten, könnte dies bedeuten, dass Sie dumm waren. Wenn Sie ein Modell so anpassen, dass es sparsam ist, dass die Variablen notwendig und notwendig sind und Ausreißer identifizieren, haben Sie gute Arbeit geleistet. Weitere Informationen finden Sie hier http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
quelle
Die Normalität der Residuen setzt die Ausführung eines linearen Modells voraus. Wenn Ihre Residuen also normal sind, bedeutet dies, dass Ihre Annahme gültig ist und die Modellinferenz (Konfidenzintervalle, Modellvorhersagen) ebenfalls gültig sein sollte. So einfach ist das!
quelle