Ich habe gelesen, dass dies die Bedingungen für die Verwendung des multiplen Regressionsmodells sind:
- die Reste des Modells sind fast normal,
- Die Variabilität der Residuen ist nahezu konstant
- die Residuen sind unabhängig und
- Jede Variable ist linear mit dem Ergebnis verknüpft.
Wie unterscheiden sich 1 und 2?
Sie können einen hier rechts sehen:
Das obige Diagramm sagt also, dass der Rest, der 2 Standardabweichungen entfernt ist, 10 von Y-Hat entfernt ist. Das heißt, die Residuen folgen einer Normalverteilung. Können Sie daraus nicht 2 ableiten? Dass die Variabilität der Residuen nahezu konstant ist?
Antworten:
1. Normalverteilung der Residuen :
Dieses Diagramm versucht, die Verteilung der Punkte in der Bevölkerung in Blau (mit der Populationsregressionslinie als durchgezogene Cyan-Linie) zu veranschaulichen, die einem Beispieldatensatz in großen gelben Punkten überlagert ist (wobei die geschätzte Regressionslinie als gestrichelte gelbe Linie dargestellt ist). Dies gilt offensichtlich nur für den konzeptuellen Verbrauch, da es für jeden Wert von Unendlichkeitspunkte geben würde. Es handelt sich also um eine grafische ikonografische Diskretisierung des Konzepts der Regression als kontinuierliche Verteilung von Werten um einen Mittelwert (entsprechend dem vorhergesagten Wert) der "unabhängigen" Variablen) bei jedem gegebenen Wert des Regressors oder der erklärenden Variablen.X=x
Wenn wir diagnostische R-Diagramme für die simulierten "Populations" -Daten durchführen, erhalten wir ...
Die Varianz der Residuen ist über alle Werte von konstant.X.
Die typische Handlung wäre:
Konzeptionell ändert die Einführung mehrerer Regressoren oder erklärender Variablen nichts an der Idee. Ich finde das praktische Tutorial des Pakets
swirl()
äußerst hilfreich, um zu verstehen, wie multiple Regression wirklich einen Prozess der Regression abhängiger Variablen gegeneinander darstellt, wobei die verbleibende, ungeklärte Variation im Modell fortgeführt wird. oder einfacher gesagt, eine vektorielle Form der einfachen linearen Regression :2. Die Variabilität der Residuen ist nahezu konstant (Homoskedastizität) :
Das Problem bei der Verletzung dieser Bedingung ist:
In diesem Diagramm steigt die Varianz mit den Werten des Regressors (erklärende Variable), anstatt konstant zu bleiben. In diesem Fall sind die Residuen normalverteilt, aber die Varianz dieser Normalverteilung ändert sich (erhöht sich) mit der erklärenden Variablen.
Beachten Sie, dass sich die "wahre" (Populations-) Regressionslinie in Bezug auf die Populations-Regressionslinie unter Homoskedastizität im ersten Diagramm (durchgehend dunkelblau) nicht ändert, aber es ist intuitiv klar, dass Schätzungen unsicherer werden.
Die Diagnosediagramme im Datensatz sind ...
Dies entspricht einer Verteilung mit "schwerem Schwanz". Sinnvollerweise sollten wir alle "nebeneinander liegenden" vertikalen Gaußschen Kurven zu einer einzigen teleskopieren, die ihre Glockenform beibehält, aber sehr lange Schwänze aufweist.
Die Residuen sind stark verzerrt und die Varianz steigt mit den Werten der erklärenden Variablen.
Dies wären die diagnostischen Diagramme ...
entsprechend markierter rechter Schräglage.
Um die Schleife zu schließen, würden wir in einem homoskedastischen Modell mit nicht-gaußscher Fehlerverteilung auch eine Verzerrung sehen:
mit Diagnoseplots als ...
quelle
Es ist nicht die Schuld des OP, aber ich fange an, müde zu werden, solche Fehlinformationen zu lesen.
Das "multiple Regressionsmodell" ist nur eine Bezeichnung, die angibt, dass eine Variable als Funktion anderer Variablen ausgedrückt werden kann.
Weder der wahre Fehlerterm noch die Residuen des Modells müssen etwas Bestimmtes sein - wenn die Residuen normal aussehen, ist dies gut für eine spätere statistische Inferenz.
Die Variabilität (Varianz) des Fehlerterms muss nicht annähernd konstant sein - wenn nicht, haben wir ein Modell mit Heteroskedastizität, das heutzutage ziemlich einfach zu handhaben ist.
Die Residuen sind in keinem Fall unabhängig, da jede eine Funktion der gesamten Stichprobe ist. Die wahren Fehlerterme müssen nicht unabhängig sein - wenn sie es nicht sind, haben wir ein Modell mit Autokorrelation, das, obwohl es schwieriger als die Heteroskedastizität ist, bis zu einem gewissen Grad behandelt werden kann.
Jede Variable muss nicht linear mit dem Ergebnis verknüpft sein. Tatsächlich hat die Unterscheidung zwischen "linearer" und "nichtlinearer" Regression nichts mit der Beziehung zwischen den Variablen zu tun - sondern damit, wie die unbekannten Koeffizienten in die Beziehung eingehen.
Was man sagen könnte ist, dass, wenn die ersten drei zutreffend sind und die vierte richtig angegeben ist, wir das "klassische normale lineare Regressionsmodell" erhalten, das nur eine (obwohl historisch die erste) Variante von multiplen Regressionsmodellen ist.
quelle
Antoni Parellada hatte eine perfekte Antwort mit einer schönen grafischen Darstellung.
Ich möchte nur einen Kommentar hinzufügen, um den Unterschied zwischen zwei Aussagen zusammenzufassen
quelle
Es gibt keinen einzigen Satz von Regressionsannahmen, aber es gibt verschiedene Variationen. Einige dieser Annahmen sind strenger, dh enger als andere. In den meisten Fällen benötigen Sie auch keine und können in vielen Fällen nicht wirklich davon ausgehen, dass die Verteilung normal ist.
Die Annahmen, die Sie zitiert haben, sind strenger als die meisten, sie sind jedoch in unnötig loser Sprache formuliert. Was ist zum Beispiel genau fast ? Außerdem sind es nicht die Residuen, denen wir die Annahmen auferlegen, sondern Fehler . Die Residuen sind Schätzungen von Fehlern, die nicht beobachtbar sind. Dies sagt mir, dass Sie aus einer armen Quelle zitieren. Schmeiss es weg.
Die kurze Antwort auf Ihre Frage lautet: Wenn Sie für Ihre Fehler eine Verteilung in Betracht ziehen, z. B. Schülerverteilung (in meiner Antwort verwende ich den richtigen Begriff), können Sie erkennen, dass die Fehler "nahezu konstante" Schwankungen aufweisen können ohne Normalverteilung zu sein, und wie eine "nahezu konstante" Varianz keine Normalverteilung erfordert. Mit anderen Worten, nein, Sie können eine Annahme nicht ohne eine zusätzliche Anforderung von einer anderen ableiten.
Eine solche Anforderung kann aus einer gängigen Formulierung des Regressionsmodells wie folgt stammen: In der zweiten Formel geben wir hier fast Regression an Annahmen auf einmal:
Wenn wir also alle Annahmen auf diese Weise in einer oder zwei Gleichungen bündeln, scheint es, als wären sie alle voneinander abhängig, was nicht der Fall ist. Ich werde dies als nächstes demonstrieren.
Beispiel 1
Stellen Sie sich vor, dass anstelle des obigen Modells Folgendes angegeben wird: Hier stelle ich mir vor, dass die Fehler aus der Verteilung von Student t mit Freiheitsgraden stammen. Die Fehler haben natürlich eine konstante Varianz und sind keine Gaußschen. ν
Beispiel 2
i
quelle
Ich habe versucht, der Diskussion eine neue Dimension hinzuzufügen und sie allgemeiner zu gestalten. Bitte entschuldigen Sie, wenn es zu rudimentär war.
Ein Regressionsmodell ist ein formales Mittel, um die beiden wesentlichen Bestandteile einer statistischen Beziehung auszudrücken:
Wie bekommen wir die Antwortvariable Griff ?Y
Indem Sie folgendes postulieren:
Es ist eine Wahrscheinlichkeitsverteilung vonY für jede Ebene der .X
Die Mittel dieser Wahrscheinlichkeitsverteilungen unterscheiden sich in einigen systematische Art und Weise mit .X
Regressionsmodelle können sich in Form der Regressionsfunktion (linear, krummlinig) , in Form der Wahrscheinlichkeitsverteilungen vonY (symmetrisch, schief) und auf andere Weise unterscheiden.
Unabhängig von der Variation ist das Konzept einer Wahrscheinlichkeitsverteilung von für jedes gegebene das formale Gegenstück zur empirischen Streuung in einer statistischen Beziehung.XY X
In ähnlicher Weise ist die Regressionskurve , die die Beziehung zwischen dem Mittel der Wahrscheinlichkeitsverteilungen von und der Ebene von , das Gegenstück zur allgemeinen Tendenz von , sich in einer statistischen Beziehung systematisch mit zu verändern .X Y XY X Y X
Quelle: Angewandte lineare statistische Modelle, KNNL
Im Normal Error Regression-Modell versuchen wir, die bedingte Verteilung des Mittelwerts von gegebenem wie folgt zu schätzen :XY X
X iYi ist die beobachtete Antwort.
ist eine bekannte Konstante, der Pegel der PrädiktorvariablenXi
Um also abzuschätzen, müssen wir die drei folgenden Parameter abschätzen: , und . Wir können das herausfinden, indem wir die partielle Ableitung der Wahrscheinlichkeitsfunktion wrt , und und gleich Null setzen. Dies wird unter der Annahme der Normalität relativ einfach.β 0E(Y|X) β0 β1 β 0σ2 β0 β1 σ2
Kommen wir zur Frage
Die von Ihnen angegebene erste und zweite Annahme sind zwei Teile derselben Normalitätsannahme mit einem Mittelwert von Null und einer konstanten Varianz. Ich denke, die Frage sollte gestellt werden, was die Implikationen der beiden Annahmen für ein normales Fehlerregressionsmodell sind und nicht die Differenz zwischen den beiden Annahmen. Ich sage das, weil es den Anschein hat, als würde man Äpfel mit Orangen vergleichen, weil man versucht, einen Unterschied zwischen Annahmen über die Verteilung einer Streuung von Punkten und Annahmen über ihre Variabilität zu finden. Variabilität ist eine Eigenschaft einer Verteilung. Daher werde ich versuchen, eine relevantere Frage nach den Auswirkungen der beiden Annahmen zu beantworten.
Unter der Annahme der Normalität sind die Maximum-Likelihood-Schätzer (MLEs) dieselben wie die Schätzer der kleinsten Quadrate, und die MLEs haben die Eigenschaft, UMVUE zu sein, was bedeutet, dass sie unter allen Schätzern eine minimale Varianz aufweisen.
Bei Annahme der Homoskedastizität können die Intervallschätzungen für die Parameter und und Signifikanztests durchgeführt werden. test wird die statistische Signifikanz überprüft, die gegenüber geringfügigen Abweichungen von der Normalität robust ist.β0 β1 t
quelle