Annahmen der multiplen Regression: Wie unterscheidet sich die Normalitätsannahme von der Annahme der konstanten Varianz?

20

Ich habe gelesen, dass dies die Bedingungen für die Verwendung des multiplen Regressionsmodells sind:

  1. die Reste des Modells sind fast normal,
  2. Die Variabilität der Residuen ist nahezu konstant
  3. die Residuen sind unabhängig und
  4. Jede Variable ist linear mit dem Ergebnis verknüpft.

Wie unterscheiden sich 1 und 2?

Sie können einen hier rechts sehen:

Bildbeschreibung hier eingeben

Das obige Diagramm sagt also, dass der Rest, der 2 Standardabweichungen entfernt ist, 10 von Y-Hat entfernt ist. Das heißt, die Residuen folgen einer Normalverteilung. Können Sie daraus nicht 2 ableiten? Dass die Variabilität der Residuen nahezu konstant ist?

Jwan622
quelle
7
Ich würde argumentieren, dass die Reihenfolge davon falsch ist. In der Reihenfolge der Wichtigkeit würde ich 4, 3, 2, 1 sagen. Auf diese Weise ermöglicht jede zusätzliche Annahme, dass das Modell verwendet wird, um eine größere Menge von Problemen zu lösen, im Gegensatz zu der Reihenfolge in Ihrer Frage, in der die restriktivste Annahme vorliegt ist zuerst.
Matthew Drury
2
Diese Annahmen werden für die Inferenzstatistik benötigt. Es werden keine Annahmen getroffen, um die Summe der Fehlerquadrate zu minimieren.
David Lane
1
Ich glaube, ich habe 1, 3, 2, 4 gemeint. 1 muss mindestens ungefähr erfüllt sein, damit das Modell für vieles nützlich ist. 3 ist erforderlich, damit das Modell konsistent ist, dh wenn Sie mehr Daten erhalten, konvergieren Sie zu etwas Stabilem , 2 ist erforderlich, damit die Schätzung effizient ist, dh es gibt keinen anderen besseren Weg, um die Daten zur Schätzung derselben Linie zu verwenden, und 4 ist mindestens näherungsweise erforderlich, um Hypothesentests für die geschätzten Parameter durchzuführen.
Matthew Drury
3
Obligatorischer Link zu A. Gelmans Blog-Post über Was sind die Hauptannahmen der linearen Regression? .
usεr11852 sagt Reinstate Monic
2
Bitte geben Sie eine Quelle für Ihr Diagramm an, wenn es nicht Ihre eigene Arbeit ist.
Nick Cox

Antworten:

44

1. Normalverteilung der Residuen :

Die Normalitätsbedingung kommt ins Spiel, wenn Sie versuchen, Konfidenzintervalle und / oder p-Werte zu erhalten.

ε|XN(0,σ2In) ist keine Gauß-Markov-Bedingung .


Bildbeschreibung hier eingeben

Dieses Diagramm versucht, die Verteilung der Punkte in der Bevölkerung in Blau (mit der Populationsregressionslinie als durchgezogene Cyan-Linie) zu veranschaulichen, die einem Beispieldatensatz in großen gelben Punkten überlagert ist (wobei die geschätzte Regressionslinie als gestrichelte gelbe Linie dargestellt ist). Dies gilt offensichtlich nur für den konzeptuellen Verbrauch, da es für jeden Wert von Unendlichkeitspunkte geben würde. Es handelt sich also um eine grafische ikonografische Diskretisierung des Konzepts der Regression als kontinuierliche Verteilung von Werten um einen Mittelwert (entsprechend dem vorhergesagten Wert) der "unabhängigen" Variablen) bei jedem gegebenen Wert des Regressors oder der erklärenden Variablen.X=x

Wenn wir diagnostische R-Diagramme für die simulierten "Populations" -Daten durchführen, erhalten wir ...

Bildbeschreibung hier eingeben

Die Varianz der Residuen ist über alle Werte von konstant.X.

Die typische Handlung wäre:

Bildbeschreibung hier eingeben


Konzeptionell ändert die Einführung mehrerer Regressoren oder erklärender Variablen nichts an der Idee. Ich finde das praktische Tutorial des Pakets swirl()äußerst hilfreich, um zu verstehen, wie multiple Regression wirklich einen Prozess der Regression abhängiger Variablen gegeneinander darstellt, wobei die verbleibende, ungeklärte Variation im Modell fortgeführt wird. oder einfacher gesagt, eine vektorielle Form der einfachen linearen Regression :

Die allgemeine Technik besteht darin, einen Regressor auszuwählen und alle anderen Variablen durch die Residuen ihrer Regressionen gegen diesen zu ersetzen.


2. Die Variabilität der Residuen ist nahezu konstant (Homoskedastizität) :

E[εi2|X]=σ2

Das Problem bei der Verletzung dieser Bedingung ist:

Die Heteroskedastizität hat schwerwiegende Konsequenzen für den OLS-Schätzer. Obwohl der OLS-Schätzer unvoreingenommen bleibt, ist die geschätzte SE falsch. Aus diesem Grund kann man sich nicht auf Konfidenzintervalle und Hypothesentests verlassen. Außerdem ist der OLS-Schätzer nicht mehr BLAU.


Bildbeschreibung hier eingeben

In diesem Diagramm steigt die Varianz mit den Werten des Regressors (erklärende Variable), anstatt konstant zu bleiben. In diesem Fall sind die Residuen normalverteilt, aber die Varianz dieser Normalverteilung ändert sich (erhöht sich) mit der erklärenden Variablen.

Beachten Sie, dass sich die "wahre" (Populations-) Regressionslinie in Bezug auf die Populations-Regressionslinie unter Homoskedastizität im ersten Diagramm (durchgehend dunkelblau) nicht ändert, aber es ist intuitiv klar, dass Schätzungen unsicherer werden.

Die Diagnosediagramme im Datensatz sind ...

Bildbeschreibung hier eingeben

Dies entspricht einer Verteilung mit "schwerem Schwanz". Sinnvollerweise sollten wir alle "nebeneinander liegenden" vertikalen Gaußschen Kurven zu einer einzigen teleskopieren, die ihre Glockenform beibehält, aber sehr lange Schwänze aufweist.


@ Glen_b "... eine vollständige Abdeckung der Unterscheidung zwischen den beiden würde auch homoskedastisch, aber nicht normal sein."

Bildbeschreibung hier eingeben

Die Residuen sind stark verzerrt und die Varianz steigt mit den Werten der erklärenden Variablen.

Dies wären die diagnostischen Diagramme ...

Bildbeschreibung hier eingeben

entsprechend markierter rechter Schräglage.

Um die Schleife zu schließen, würden wir in einem homoskedastischen Modell mit nicht-gaußscher Fehlerverteilung auch eine Verzerrung sehen:

Bildbeschreibung hier eingeben

mit Diagnoseplots als ...

Bildbeschreibung hier eingeben

Antoni Parellada
quelle
2
Vielen Dank. Ich hielt es für notwendig, die grobe Diskretisierung der als Visualisierungsinstrument verwendeten Bevölkerung zu überbrücken. Ich kann den Code posten, aber ich zögere, da es einen gewissen Grad an kreativer Mathematik gab :-)
Antoni Parellada
3
Die Veranschaulichung der Unterscheidung zwischen normalen Fehlern und homoskedastischen Fehlern durch Zeigen eines Diagramms, das beide erfüllt und dann normal, aber nicht homoskedastisch zeigt, ist ausgezeichnet. Ich denke, eine vollständige Abdeckung der Unterscheidung zwischen den beiden würde auch homoskedastisch, aber nicht normal sein. [Ich schlage nicht vor, dass Sie eine solche Illustration hinzufügen, aber es ist ein nützlicher dritter Arm für die Menschen, wenn sie die Annahmen berücksichtigen.]
Glen_b
7

Es ist nicht die Schuld des OP, aber ich fange an, müde zu werden, solche Fehlinformationen zu lesen.

Ich habe gelesen, dass dies die Bedingungen für die Verwendung des multiplen Regressionsmodells sind:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Das "multiple Regressionsmodell" ist nur eine Bezeichnung, die angibt, dass eine Variable als Funktion anderer Variablen ausgedrückt werden kann.

Weder der wahre Fehlerterm noch die Residuen des Modells müssen etwas Bestimmtes sein - wenn die Residuen normal aussehen, ist dies gut für eine spätere statistische Inferenz.

Die Variabilität (Varianz) des Fehlerterms muss nicht annähernd konstant sein - wenn nicht, haben wir ein Modell mit Heteroskedastizität, das heutzutage ziemlich einfach zu handhaben ist.

Die Residuen sind in keinem Fall unabhängig, da jede eine Funktion der gesamten Stichprobe ist. Die wahren Fehlerterme müssen nicht unabhängig sein - wenn sie es nicht sind, haben wir ein Modell mit Autokorrelation, das, obwohl es schwieriger als die Heteroskedastizität ist, bis zu einem gewissen Grad behandelt werden kann.

Jede Variable muss nicht linear mit dem Ergebnis verknüpft sein. Tatsächlich hat die Unterscheidung zwischen "linearer" und "nichtlinearer" Regression nichts mit der Beziehung zwischen den Variablen zu tun - sondern damit, wie die unbekannten Koeffizienten in die Beziehung eingehen.

Was man sagen könnte ist, dass, wenn die ersten drei zutreffend sind und die vierte richtig angegeben ist, wir das "klassische normale lineare Regressionsmodell" erhalten, das nur eine (obwohl historisch die erste) Variante von multiplen Regressionsmodellen ist.

Alecos Papadopoulos
quelle
3
Kleinere Erläuterungen, die einigen Lesern helfen könnten: Beim linearen Regressionsmodell ist der lineare Prädiktor (und damit die Erwartung der Antwort) in den Spalten von notwendigerweise genauso linear wie in . Was bei elementareren Behandlungen häufig übersehen wird, ist, dass die Spalten von in der ursprünglichen Sammlung unabhängiger Variablen im Datensatz nicht unbedingt linear sind. X β XXβXβX
Glen_b -Reinstate Monica
2
Und der Frage fehlt die absolut fundamentale Annahme, dass die bedingte Erwartung der Fehlerausdrücke Null ist!
Matthew Gunn
1
@MatthewGunn Nun, ... dies eröffnet eine sehr große Diskussion darüber, was wir mit diesem Modell machen: Wenn wir die Ansicht "deterministisch / technisch" vertreten, brauchen wir diese Annahme, um sicherzustellen, dass die Spezifität tatsächlich die uderierende deterministische ist. Wenn wir die bedingte Erwartungsfunktion in Bezug auf die spezifischen Regressoren schätzen wollen , dann ist die Codierung automatisch erfüllt (oder zumindest ihre schwächere Form, Orthogonalität).
Alecos Papadopoulos
1
@AlecosPapadopoulos Ja, gewöhnliche kleinste Quadrate geben Ihnen immer eine Schätzung von etwas! Aber es ist vielleicht nicht das, was Sie wollen. Wenn das OP lediglich eine lineare, bedingte Erwartungsfunktion in Bezug auf die spezifischen Regressoren wünscht, stimme ich zu, dass die Bedingung automatisch angenommen wird. Wenn das OP jedoch versucht, einen Parameter abzuschätzen, ist die Rechtfertigung der Orthogonalitätsbedingung von entscheidender Bedeutung!
Matthew Gunn
@MatthewGunn In der Tat ist dies sicherlich so.
Alecos Papadopoulos
3

Antoni Parellada hatte eine perfekte Antwort mit einer schönen grafischen Darstellung.

Ich möchte nur einen Kommentar hinzufügen, um den Unterschied zwischen zwei Aussagen zusammenzufassen

  1. Die Reste des Modells sind fast normal

  2. Die Variabilität der Residuen ist nahezu konstant

  • Aussage 1 gibt die "Form" des Rests "glockenförmige Kurve" an .
  • Aussage 2 verfeinert die Streuung der "Form" (ist konstant), in Antoni Parelladas Darstellung 3 gibt es 3 glockenförmige Kurven, aber sie sind unterschiedlich verteilt.
Haitao Du
quelle
1

Es gibt keinen einzigen Satz von Regressionsannahmen, aber es gibt verschiedene Variationen. Einige dieser Annahmen sind strenger, dh enger als andere. In den meisten Fällen benötigen Sie auch keine und können in vielen Fällen nicht wirklich davon ausgehen, dass die Verteilung normal ist.

Die Annahmen, die Sie zitiert haben, sind strenger als die meisten, sie sind jedoch in unnötig loser Sprache formuliert. Was ist zum Beispiel genau fast ? Außerdem sind es nicht die Residuen, denen wir die Annahmen auferlegen, sondern Fehler . Die Residuen sind Schätzungen von Fehlern, die nicht beobachtbar sind. Dies sagt mir, dass Sie aus einer armen Quelle zitieren. Schmeiss es weg.

Die kurze Antwort auf Ihre Frage lautet: Wenn Sie für Ihre Fehler eine Verteilung in Betracht ziehen, z. B. Schülerverteilung (in meiner Antwort verwende ich den richtigen Begriff), können Sie erkennen, dass die Fehler "nahezu konstante" Schwankungen aufweisen können ohne Normalverteilung zu sein, und wie eine "nahezu konstante" Varianz keine Normalverteilung erfordert. Mit anderen Worten, nein, Sie können eine Annahme nicht ohne eine zusätzliche Anforderung von einer anderen ableiten.

Eine solche Anforderung kann aus einer gängigen Formulierung des Regressionsmodells wie folgt stammen: In der zweiten Formel geben wir hier fast Regression an Annahmen auf einmal:

yi=Xiβ+εiεiN(0,σ2)
  1. "Die Residuen des Modells sind fast normal" - das ist die Tatsache, dass wir in der Formel verwendet haben, die für die normale (Gaußsche) Verteilung stehtN(.)
  2. "Die Variabilität der Residuen ist nahezu konstant" - dabei wird eine Konstante für alle Fehlerε iσεi
  3. "Die Residuen sind unabhängig" - dies ergibt sich aus der Verwendung von , das von nichts abhängt, was mit Fehlern oder Regressoren korreliert ist XNX
  4. „jede Variable linear auf das Ergebnis bezogen ist“ , - dies ist Formy=Xβ

Wenn wir also alle Annahmen auf diese Weise in einer oder zwei Gleichungen bündeln, scheint es, als wären sie alle voneinander abhängig, was nicht der Fall ist. Ich werde dies als nächstes demonstrieren.

Beispiel 1

Stellen Sie sich vor, dass anstelle des obigen Modells Folgendes angegeben wird: Hier stelle ich mir vor, dass die Fehler aus der Verteilung von Student t mit Freiheitsgraden stammen. Die Fehler haben natürlich eine konstante Varianz und sind keine Gaußschen. ν

yi=Xiβ+εiεitν
ν

Beispiel 2

i

yi=Xiβ+εiεiN(0,σ2i)
Hier ist die Fehlerverteilung normal, aber die Varianz ist nicht konstant, sondern nimmt mit .i
Aksakal
quelle
1

Ich habe versucht, der Diskussion eine neue Dimension hinzuzufügen und sie allgemeiner zu gestalten. Bitte entschuldigen Sie, wenn es zu rudimentär war.

Ein Regressionsmodell ist ein formales Mittel, um die beiden wesentlichen Bestandteile einer statistischen Beziehung auszudrücken:

  1. Eine Tendenz der Antwortvariablen , systematisch mit der Prädiktorvariablen zu variieren .XYX
  2. Eine Streuung von Punkten um die Kurve der statistischen Beziehung.

Wie bekommen wir die Antwortvariable Griff ?Y

Indem Sie folgendes postulieren:

  1. Es ist eine Wahrscheinlichkeitsverteilung vonY für jede Ebene der .X

  2. Die Mittel dieser Wahrscheinlichkeitsverteilungen unterscheiden sich in einigen systematische Art und Weise mit .X

Regressionsmodelle können sich in Form der Regressionsfunktion (linear, krummlinig) , in Form der Wahrscheinlichkeitsverteilungen vonY (symmetrisch, schief) und auf andere Weise unterscheiden.

Unabhängig von der Variation ist das Konzept einer Wahrscheinlichkeitsverteilung von für jedes gegebene das formale Gegenstück zur empirischen Streuung in einer statistischen Beziehung.XYX

In ähnlicher Weise ist die Regressionskurve , die die Beziehung zwischen dem Mittel der Wahrscheinlichkeitsverteilungen von und der Ebene von , das Gegenstück zur allgemeinen Tendenz von , sich in einer statistischen Beziehung systematisch mit zu verändern .X Y XYXYX

Quelle: Angewandte lineare statistische Modelle, KNNL

Im Normal Error Regression-Modell versuchen wir, die bedingte Verteilung des Mittelwerts von gegebenem wie folgt zu schätzen :XYX

Yi=β0 +β1Xi+ϵ
wobei:

X iYi ist die beobachtete Antwort. ist eine bekannte Konstante, der Pegel der PrädiktorvariablenXi

β0 und sind Parameterβ1

ϵ sind unabhängigeN(O,σ2)

i = 1, ..., n

Um also abzuschätzen, müssen wir die drei folgenden Parameter abschätzen: , und . Wir können das herausfinden, indem wir die partielle Ableitung der Wahrscheinlichkeitsfunktion wrt , und und gleich Null setzen. Dies wird unter der Annahme der Normalität relativ einfach.β 0E(Y|X)β0β1β 0σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Wie unterscheiden sich 1 und 2?

Kommen wir zur Frage

Die von Ihnen angegebene erste und zweite Annahme sind zwei Teile derselben Normalitätsannahme mit einem Mittelwert von Null und einer konstanten Varianz. Ich denke, die Frage sollte gestellt werden, was die Implikationen der beiden Annahmen für ein normales Fehlerregressionsmodell sind und nicht die Differenz zwischen den beiden Annahmen. Ich sage das, weil es den Anschein hat, als würde man Äpfel mit Orangen vergleichen, weil man versucht, einen Unterschied zwischen Annahmen über die Verteilung einer Streuung von Punkten und Annahmen über ihre Variabilität zu finden. Variabilität ist eine Eigenschaft einer Verteilung. Daher werde ich versuchen, eine relevantere Frage nach den Auswirkungen der beiden Annahmen zu beantworten.

Unter der Annahme der Normalität sind die Maximum-Likelihood-Schätzer (MLEs) dieselben wie die Schätzer der kleinsten Quadrate, und die MLEs haben die Eigenschaft, UMVUE zu sein, was bedeutet, dass sie unter allen Schätzern eine minimale Varianz aufweisen.

Bei Annahme der Homoskedastizität können die Intervallschätzungen für die Parameter und und Signifikanztests durchgeführt werden. test wird die statistische Signifikanz überprüft, die gegenüber geringfügigen Abweichungen von der Normalität robust ist.β0β1t

naiv
quelle
1
Dies ist eine hervorragende Darstellung der Regression. Aber wie beantwortet es die spezielle Frage in diesem Thread?
Whuber