Regression, wenn die OLS-Residuen nicht normal verteilt sind

43

Auf dieser Site befinden sich mehrere Threads, in denen erläutert wird, wie ermittelt werden kann, ob die OLS-Residuen asymptotisch normal verteilt sind. Eine weitere Möglichkeit, die Normalität der Residuen mit R-Code zu bewerten, bietet diese hervorragende Antwort . Dies ist eine weitere Diskussion über den praktischen Unterschied zwischen standardisierten und beobachteten Residuen.

Angenommen, die Residuen sind definitiv nicht normalverteilt, wie in diesem Beispiel . Hier haben wir einige tausend Beobachtungen und müssen die Annahme normalverteilter Residuen eindeutig ablehnen. Eine Möglichkeit, das Problem anzugehen, besteht darin, eine Art robusten Schätzer zu verwenden, wie in der Antwort erläutert. Ich bin jedoch nicht auf OLS beschränkt und möchte die Vorteile anderer glm- oder nichtlinearer Methoden verstehen.

Was ist der effizienteste Weg, um Daten zu modellieren, die gegen die OLS-Normalität der Residuenannahme verstoßen? Oder zumindest, was sollte der erste Schritt sein, um eine solide Regressionsanalysemethode zu entwickeln?

Robert Kubrick
quelle
5
Es gibt auch mehrere Diskussionsfäden, in denen diskutiert wird, dass Normalität für viele Zwecke im Wesentlichen irrelevant ist. Wenn Sie unabhängige Beobachtungen und zumindest eine moderate Stichprobengröße haben, ist das einzige, was für die OLS-Schlussfolgerung wichtig ist, dass alle Residuen die gleiche Varianz haben. Nicht Normalität. Wenn Sie robuste / heteroskedastizitätskonsistente / Sandwich / Huber-Eicker-White-Schätzungen des Standardfehlers verwenden, ist nicht einmal die konstante Varianzanforderung erforderlich.
Gast
@guest Ich lese nur über die Effizienz des Normalitätstests in diesem Thread. Die Regressionsanalyse ist nicht einmal markiert.
Robert Kubrick
Probieren Sie diesen aus . Hier ist ein externer Link . Und siehe die OLS-Kapitel von z. B. Stock und Watson, Einführung in die Ökonometrie . Ich schwöre, ich erfinde dieses Zeug nicht!
Gast
@guest Die beiden Links befassen sich mit der Normalverteilung der Ergebnisse, nicht mit den Residuen.
Robert Kubrick
1
Nein, tun sie nicht. Autoren bezeichnen die "Verteilung von Y" häufig als Abkürzung für die "Verteilung von Y unter der Bedingung von X". Um zu Ihrer ursprünglichen Frage zurückzukehren; Sofern Sie nicht über eine kleine Stichprobe oder massiv schwerwiegende Daten verfügen, ist die Verwendung von OLS mit zuverlässigen Standardfehlern ein guter erster Schritt. In diesen Fällen ist Normalität kein Thema.
Gast

Antworten:

53

Die gewöhnliche Schätzung der kleinsten Quadrate ist angesichts nicht normaler Fehler immer noch ein vernünftiger Schätzer. Insbesondere besagt das Gauß-Markov-Theorem , dass die gewöhnliche Schätzung der kleinsten Quadrate der beste lineare unverzerrte Schätzer (BLAU) der Regressionskoeffizienten ist ("Beste" bedeutet Optimum hinsichtlich der Minimierung des mittleren quadratischen Fehlers ), solange die Fehler bestehen

(1) haben den Mittelwert Null

(2) sind nicht korreliert

(3) haben konstante Varianz

Beachten Sie, dass hier keine Bedingung der Normalität vorliegt (oder dass es sich bei den Fehlern sogar um IID handelt ).

Die Normalitätsbedingung kommt ins Spiel, wenn Sie versuchen, Konfidenzintervalle und / oder Werte zu erhalten. Wie @MichaelChernick erwähnt (+1, btw), können Sie robuste Inferenz verwenden, wenn die Fehler nicht normal sind, solange die Abweichung von der Normalität von der Methode behandelt werden kann - zum Beispiel (wie wir in diesem Thread besprochen haben ) der Huber -estimator kann robuste Schlussfolgerungen liefern, wenn die wahre Fehlerverteilung die Mischung aus normaler und langschwänziger Verteilung ist (wie Ihr Beispiel aussieht), aber möglicherweise nicht hilfreich für andere Abweichungen von der Normalität ist. Eine interessante Möglichkeit, auf die Michael anspielt, ist das Bootstrapping , um Konfidenzintervalle für die OLS-Schätzungen zu erhalten und zu sehen, wie sich dies mit der auf Huber basierenden Folgerung vergleichen lässt.MpM

Edit: Ich höre oft, dass man sich auf den zentralen Grenzwertsatz verlassen kann, um nicht normale Fehler zu beheben - dies ist nicht immer der Fall (ich spreche nicht nur über Gegenbeispiele, bei denen der Satz versagt). In dem Beispiel mit den realen Daten, auf das sich das OP bezieht, haben wir eine große Stichprobe, können jedoch Hinweise auf eine langschwänzige Fehlerverteilung sehen - in Situationen, in denen Sie langschwänzige Fehler haben, können Sie sich nicht unbedingt auf den zentralen Grenzwertsatz verlassen Sie erhalten eine ungefähre Folgerung für realistische endliche Stichprobengrößen. Zum Beispiel, wenn die Fehler einer Verteilung mit Freiheitsgraden folgen (was nicht eindeutig mehr ist2,01t2.01 Die Koeffizientenschätzungen sind asymptotisch normalverteilt, es dauert jedoch viel länger als bei anderen Verteilungen mit kürzerem Schwanz, bis sie "eintreten".

Im Folgenden zeige ich mit einer groben Simulation, Rdass bei , wobei die Stichprobenverteilung von ist immer noch ziemlich lang, auch wenn die Stichprobengröße :ε i ~ t 2,01 β 1 n = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

Bildbeschreibung hier eingeben

Makro
quelle
2
+1, das ist ein wirklich toller Überblick über das Thema. Ich schätze besonders die Bearbeitung. Gibt es etwas Besonderes an ? Das scheint furchtbar spezifisch. df=2.01
gung - Reinstate Monica
2
@gung, Danke - Ich habe da die Varianz einer verteilten Zufallsvariablen nicht existiert, wenn und daher der zentrale Grenzwertsatz nicht anwendbar wäre. t d f 2df=2.01tdf2
Makro
1
@guest, dies war ein ausgedachtes Beispiel, um zu zeigen, dass Sie dem CLT nicht blind vertrauen können, wenn Sie lange Fehler haben. Ich bin damit einverstanden, dass dies für viele Anwendungen extrem ist, aber in dem Beispiel ( stats.stackexchange.com/questions/29636/… ), auf das sich das OP bezieht, zeigen die Daten eine sehr lange Schwanzfehlerverteilung - die Form unterscheidet sich ein wenig von der Verteilung, aber es ist nicht deutlich weniger langwierig, und es ergab sich aus realen Daten. Ich habe mein "Bearbeiten" bearbeitet, um dies hervorzuheben. t2.01
Makro
2
@Macro, ich bin damit einverstanden, dass die CLT blind verwendet wird. Das Erfordernis normaler Daten für Konfidenzintervalle und Werte - und nicht nur das Erfordernis schwacher Daten - ist jedoch ein erheblicher Overkill und ermutigt z. B. zu Umkehr-Normal-Transformationen, die nur die Interpretation der Ausgabe erschweren. Das Gleichgewicht zu schlagen ist zwischen der Beantwortung der richtigen Frage ungefähr gegen die falsche genau; Wenn es um den Vergleich der Bevölkerungsmittel geht, ist der Einsatz von OLS der richtige Weg. p
Gast
2
@guest, ich habe nie gegen OLS gestritten. Tatsächlich denke ich, dass ein großer Teil meiner Antwort war, dass OLS eine vernünftige Sache war, unabhängig von irgendwelchen Verteilungsannahmen. Ich habe auch nie argumentiert, dass strenge Normalität eingehalten werden muss, um Schlussfolgerungen zu ziehen. Ich sage, wenn Sie lange Fehler haben, können Schlussfolgerungen auf der Grundlage der normalen Annäherung irreführend sein (ich bin mir nicht sicher, wie / ob dies widerspricht) alles mit dem, was du sagst) und man wäre gut beraten, eine Alternative (zB Bootstrap) in Betracht zu ziehen. .
Makro
10

Ich denke, Sie möchten sich alle Eigenschaften der Residuen ansehen.

  1. Normalität
  2. konstante Varianz
  3. korreliert mit einer Kovariate.
  4. Kombinationen der oben genannten

Wenn es nur 1 ist und es sich um einen schweren Schwanz oder eine Schräglage aufgrund eines schweren Schwanzes handelt, ist eine robuste Regression möglicherweise ein guter Ansatz oder eine Transformation zur Normalität. Wenn es sich um eine nicht konstante Varianz handelt, versuchen Sie eine Varianzstabilisierungstransformation oder versuchen Sie, die Varianzfunktion zu modellieren. Wenn es nur 3 sind, lässt dies auf eine andere Modellform schließen, die diese Kovariate einbezieht. Was auch immer das Problem ist, die Vektoren oder Reiduals zu booten, ist immer eine Option.

Michael Chernick
quelle
Können Sie für 1 ein wenig über die Transformation zur Normalität für Residuen mit schwerem Schwanz herausarbeiten?
Robert Kubrick
2
log Transformation oder Box-Cox mit kleinem Lambda schrumpfen die Schwänze. Das kann bei starker und verzerrter Verbreitung funktionieren. Ich weiß nicht, was passiert, wenn Transformationen für sehr schwerfällige Distributionen funktionieren.
Michael Chernick
3
Schöne Antworten Michael. Ich habe damit begonnen, den Bootstrap routinemäßig für Konfidenzintervalle zu verwenden, die Regressionsschätzungen und allgemeine Kontraste umfassen, und habe dies in meinem R- rmsPaket vereinfacht . Aber wie Sie vorgeschlagen haben, hat das Finden einer Transformation, die die Varianzstabilität und manchmal die Normalität von Residuen verbessert, oft mehrere Vorteile, selbst wenn wir booten. Schätzungen der kleinsten Quadrate unter Verwendung der "falschen" Transformation können sehr ineffizient sein und zu großen mittleren absoluten und mittleren absoluten Fehlern in Vorhersagen führen. Ich verwende auch gerne semiparametrische Regressionsmodelle.
Frank Harrell
2

Meine Erfahrung stimmt voll und ganz mit Michael Chernick überein. Durch das Anwenden einer Datentransformation wird der Modellierungsfehler nicht nur zuweilen normalverteilt, sondern es kann auch die Heteroskedastizität korrigiert werden.

Es tut uns leid, aber es ist meiner Meinung nach falsch, diese Wissenschaft / Kunst zu praktizieren, wenn man vorschlägt, eine verrückte Menge an Daten zu sammeln oder weniger effiziente robuste Regressionsmethoden anzuwenden.

Ajkoer
quelle
1

Macro (siehe oben) gab die richtige Antwort an. Nur etwas Präzision, weil ich die gleiche Frage hatte

Die Bedingung der Normalität der Residuen ist nützlich, wenn die Residuen auch homoskedastisch sind. Das Ergebnis ist dann, dass OLS die kleinste Varianz zwischen allen Schätzern aufweist (linear ODER nicht linear).

Die erweiterten OLS-Annahmen:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n, sind iid
  3. Große Ausreißer sind selten
  4. Du bist homoskedastisch
  5. u ist verteiltN(0,σ2)

Wenn 1-5 verifiziert ist, hat OLS die kleinste Varianz zwischen allen Schätzern (linear ODER nicht linear) .

Wenn nur 1-4 verifiziert sind, ist OLS nach Gauß-Markov der beste lineare (nur!) Schätzer (BLAU).

Quelle: Stock and Watson, Ökonometrie + mein Kurs (EPFL, Ökonometrie)

Feuerschale
quelle
Normalität für gewöhnliche kleinste Quadrate in y-Residuen ist nicht erforderlich, obwohl Normalität einige wünschenswerte Eigenschaften verleiht, z. B. für die Maximum-Likelihood-Analyse. Letzteres wird häufig als Akaike-Informationskriterium verwendet. Dies ist jedoch unnötig einschränkend, und das formalere Erfordernis ist Homoskedastizität, nicht Normalität, was vorteilhaft ist, da im gegenteiligen Fall gewöhnliche kleinste Quadrate in y wenig Verwendung finden würden.
Carl
@Carl: Streng genommen gibt es für OLS keinerlei Anforderungen, nicht einmal 1 oder 2 (fragen Sie Excel nach einer Regression, und es werden keine Fragen gestellt): Normalität ist eine von mehreren Eigenschaften, die Rückschlüsse sinnvoll machen, z. B. Vorhersage, Vertrauen Intervalle, Tests.
PatrickT
@PatrickT Die Fähigkeit, etwas zu berechnen, verleiht keine Bedeutung. Beispielsweise erhöht die lineare OLS-Regression über eine Linie mit Cauchy-verteilten Wert-Fehlern die CIs der Steigung und fängt ab, praktisch alles zuzulassen, und gibt nicht die ursprüngliche Linie oder Steigung zurück. Man könnte dies eine pyrrhische Berechnung nennen. y
Carl
Wir müssen dasselbe sagen. Vielleicht hat mich die Formulierung Ihres ersten Kommentars verwirrt.
PatrickT
1

Bei nicht normalen Bedingungen greift man manchmal auf eine robuste Regression zurück , insbesondere wenn man die Links zu Methoden verwendet .

Um den Kontext für die Nicht-Normalität darzustellen, kann es hilfreich sein, die folgenden Annahmen für die lineare OLS-Regression zu überprüfen :

  • Schwache Exogenität . Dies bedeutet im Wesentlichen, dass die Prädiktorvariablen x als feste Werte und nicht als Zufallsvariablen behandelt werden können. Dies bedeutet beispielsweise, dass die Prädiktorvariablen als fehlerfrei angenommen werden, dh nicht mit Messfehlern belastet sind. Diese Annahme ist diejenige, die am häufigsten verletzt wird und zu Fehlern führt, die anhand dieser Annahmenliste aufgelistet werden.
  • Linearität. Dies bedeutet, dass der Mittelwert der Antwortvariablen eine lineare Kombination der Parameter (Regressionskoeffizienten) und der Prädiktorvariablen ist. Beachten Sie, dass diese Annahme viel weniger einschränkend ist, als es zunächst scheinen mag. Da die Prädiktorvariablen als feste Werte behandelt werden (siehe oben), ist Linearität eigentlich nur eine Einschränkung der Parameter. Die Prädiktorvariablen selbst können beliebig transformiert werden, und tatsächlich können mehrere Kopien derselben zugrunde liegenden Prädiktorvariablen hinzugefügt werden, von denen jede unterschiedlich transformiert wird.
  • Konstante Varianz (auch Homoskedastizität genannt). Dies bedeutet, dass unterschiedliche Werte der Antwortvariablen unabhängig von den Werten der Prädiktorvariablen die gleiche Varianz in ihren Fehlern aufweisen. In der Praxis ist diese Annahme ungültig (dh die Fehler sind heteroskedastisch), wenn die Antwortvariable über einen weiten Bereich variieren kann. Zur Überprüfung auf heterogene Fehlervarianz oder wenn ein Residuenmuster gegen die Modellannahmen der Homoskedastizität verstößt (der Fehler ist für alle Punkte von x um die „bestangepasste Linie“ gleich variabel)) ist es ratsam, nach einem "Fanning-Effekt" zwischen Restfehler und vorhergesagten Werten zu suchen. Dies bedeutet, dass sich die absoluten oder quadratischen Residuen systematisch ändern, wenn sie gegen die Vorhersagevariablen aufgetragen werden. Fehler werden nicht gleichmäßig über die Regressionsgerade verteilt. Heteroskedastizität führt zur Mittelung unterscheidbarer Abweichungen um die Punkte, um eine einzelne Abweichung zu erhalten, die alle Abweichungen der Linie ungenau darstellt. Tatsächlich erscheinen Residuen auf ihren vorhergesagten Plots für größere und kleinere Werte für Punkte entlang der linearen Regressionslinie gruppiert und verteilt, und der mittlere quadratische Fehler für das Modell ist falsch.
  • Unabhängigkeit von Fehlern. Dies setzt voraus, dass die Fehler der Antwortvariablen nicht miteinander korreliert sind. (Tatsächliche statistische Unabhängigkeit ist eine stärkere Bedingung als nur mangelnde Korrelation und wird häufig nicht benötigt, obwohl sie genutzt werden kann, wenn bekannt ist, dass sie gilt. Letztere kann mit Clusteranalyse und Korrektur auf Interaktion untersucht werden.) Einige Methoden (z. B. verallgemeinert Least Squares) sind in der Lage, korrelierte Fehler zu behandeln, obwohl sie in der Regel wesentlich mehr Daten erfordern, es sei denn, es wird eine Art Regularisierung verwendet, um das Modell auf die Annahme nicht korrelierter Fehler abzustimmen. Die Bayes'sche lineare Regression ist eine allgemeine Methode, um dieses Problem zu lösen.
  • Die statistische Beziehung zwischen den Fehlertermen und den Regressoren spielt eine wichtige Rolle bei der Bestimmung, ob ein Schätzverfahren wünschenswerte Stichprobeneigenschaften aufweist, beispielsweise objektive und konsistente Eigenschaften.

  • Die Anordnung oder Wahrscheinlichkeitsverteilung der Prädiktorvariablen x hat einen großen Einfluss auf die Genauigkeit der Schätzungen von β. Probenahme und Versuchsplanung sind hochentwickelte statistische Teilgebiete, die als Anleitung für die Datenerfassung dienen, um eine genaue Schätzung von β zu erhalten.

Da diese Antwort zeigt, simulierte Student's- verteilte Fehler von einer Linie führen zu OLS Regressionsgeraden mit Konfidenzintervalle für Steigung und Schnitt daß Zunahme der Größe als die Freiheitsgrade (-Achse ) abnehmen. Für ist Student's eine Cauchy-Verteilung und die Konfidenzintervalle für die Steigung werden .tydfdf=1t(,+)

Es ist willkürlich, die Cauchy-Verteilung in Bezug auf Residuen in dem Sinne aufzurufen, dass, wenn die Erzeugungsfehler Cauchy-verteilt sind, die OLS-Residuen von einer fehlerhaften Linie durch die Daten noch weniger zuverlässig wären, dh Müll in Müll heraus. In diesen Fällen kann man die Theil-Sen- Regressionsregression verwenden. Theil-Sen ist sicherlich robuster als OLS für nicht normale Residuen, z. B. würde ein verteilter Cauchy-Fehler die Konfidenzintervalle nicht verschlechtern und ist im Gegensatz zu OLS auch eine bivariate Regression, im bivariaten Fall ist sie jedoch immer noch voreingenommen. Die Passing-Bablok-Regression kann bivariater sein, gilt jedoch nicht für negative Regressionssteigungen. Es wird am häufigsten für Methodenvergleichsstudien verwendet. Man sollte Deming Regression erwähnenIm Gegensatz zu den Theil-Sen- und Passing-Bablok-Regressionen ist dies hier eine tatsächliche Lösung für das bivariate Problem, aber es fehlt die Robustheit dieser anderen Regressionen. Die Robustheit kann durch Abschneiden der Daten auf die zentraleren Werte erhöht werden. Beispiel: Der Zufallsstichproben-Konsens (RANSAC) ist eine iterative Methode zum Schätzen von Parametern eines mathematischen Modells aus einem Satz beobachteter Daten, die Ausreißer enthalten.

Was ist dann bivariate Regression? Mangelnde Tests auf bivariate Natur von Problemen sind die häufigste Ursache für die Verdünnung der OLS- Regression und wurden an anderer Stelle auf dieser Website vorgestellt. Das Konzept der OLS-Verzerrung in diesem Zusammenhang ist nicht gut bekannt, siehe zum Beispiel Frost und Thompson, wie sie von Longford et al. (2001), die den Leser auf andere Methoden verweist und das Regressionsmodell erweitert, um die Variabilität in der Variablen zu berücksichtigen , so dass keine Verzerrung entsteht . Mit anderen Worten, die bivariate Regression von Groß- und Kleinschreibung kann manchmal nicht ignoriert werden, wenn sowohl - als auchx1 x y x y y 2 x y x y = f ( x )1xy-Werte sind zufällig verteilt. Die Notwendigkeit einer bivariaten Regression kann getestet werden, indem eine OLS-Regressionslinie an die Residuen einer OLS-Regression der Daten angepasst wird. Wenn die OLS-Residuen eine Steigung ungleich Null aufweisen, ist das Problem bivariat und die OLS-Regression der Daten weist eine Steigungsgröße auf, die zu gering ist, und einen Abschnitt, dessen Größe zu groß ist, um für die funktionale Beziehung repräsentativ zu sein zwischen und . In diesen Fällen würde der linearen Schätzer für den kleinsten Fehler der Werte tatsächlich immer noch aus der OLS-Regression stammen, und sein R Wert wird auf einem maximal möglichen Wert liegen, aber die OLS-Regressionslinie wird nicht die tatsächliche Linienfunktion darstellen, die sich bezieht das undxyy2xy Zufallsvariablen. Als ein Gegenbeispiel, wenn, wie unter anderen Problemen in einer Zeitreihe mit äquidistanten Werten, OLS der Rohdaten nicht immer unangemessen ist, es die beste -Linie darstellen kann, aber immer noch unterliegt Variablentransformation, zum Beispiel für Zählungsdaten, würde man die Quadratwurzel der Zählungen nehmen, um die Fehler für verteilte Poisson-Fehler in normalere Bedingungen umzuwandeln, und man sollte immer noch nach einer Steigung der Residuen suchen, die nicht Null ist. xy=f(x)

  1. Longford, NT (2001). "Korrespondenz". Journal of the Royal Statistical Society, Reihe A. 164: 565. doi: 10.1111 / 1467-985x.00219
Carl
quelle