Auf dieser Site befinden sich mehrere Threads, in denen erläutert wird, wie ermittelt werden kann, ob die OLS-Residuen asymptotisch normal verteilt sind. Eine weitere Möglichkeit, die Normalität der Residuen mit R-Code zu bewerten, bietet diese hervorragende Antwort . Dies ist eine weitere Diskussion über den praktischen Unterschied zwischen standardisierten und beobachteten Residuen.
Angenommen, die Residuen sind definitiv nicht normalverteilt, wie in diesem Beispiel . Hier haben wir einige tausend Beobachtungen und müssen die Annahme normalverteilter Residuen eindeutig ablehnen. Eine Möglichkeit, das Problem anzugehen, besteht darin, eine Art robusten Schätzer zu verwenden, wie in der Antwort erläutert. Ich bin jedoch nicht auf OLS beschränkt und möchte die Vorteile anderer glm- oder nichtlinearer Methoden verstehen.
Was ist der effizienteste Weg, um Daten zu modellieren, die gegen die OLS-Normalität der Residuenannahme verstoßen? Oder zumindest, was sollte der erste Schritt sein, um eine solide Regressionsanalysemethode zu entwickeln?
quelle
Antworten:
Die gewöhnliche Schätzung der kleinsten Quadrate ist angesichts nicht normaler Fehler immer noch ein vernünftiger Schätzer. Insbesondere besagt das Gauß-Markov-Theorem , dass die gewöhnliche Schätzung der kleinsten Quadrate der beste lineare unverzerrte Schätzer (BLAU) der Regressionskoeffizienten ist ("Beste" bedeutet Optimum hinsichtlich der Minimierung des mittleren quadratischen Fehlers ), solange die Fehler bestehen
(1) haben den Mittelwert Null
(2) sind nicht korreliert
(3) haben konstante Varianz
Beachten Sie, dass hier keine Bedingung der Normalität vorliegt (oder dass es sich bei den Fehlern sogar um IID handelt ).
Die Normalitätsbedingung kommt ins Spiel, wenn Sie versuchen, Konfidenzintervalle und / oder Werte zu erhalten. Wie @MichaelChernick erwähnt (+1, btw), können Sie robuste Inferenz verwenden, wenn die Fehler nicht normal sind, solange die Abweichung von der Normalität von der Methode behandelt werden kann - zum Beispiel (wie wir in diesem Thread besprochen haben ) der Huber -estimator kann robuste Schlussfolgerungen liefern, wenn die wahre Fehlerverteilung die Mischung aus normaler und langschwänziger Verteilung ist (wie Ihr Beispiel aussieht), aber möglicherweise nicht hilfreich für andere Abweichungen von der Normalität ist. Eine interessante Möglichkeit, auf die Michael anspielt, ist das Bootstrapping , um Konfidenzintervalle für die OLS-Schätzungen zu erhalten und zu sehen, wie sich dies mit der auf Huber basierenden Folgerung vergleichen lässt.Mp M
Edit: Ich höre oft, dass man sich auf den zentralen Grenzwertsatz verlassen kann, um nicht normale Fehler zu beheben - dies ist nicht immer der Fall (ich spreche nicht nur über Gegenbeispiele, bei denen der Satz versagt). In dem Beispiel mit den realen Daten, auf das sich das OP bezieht, haben wir eine große Stichprobe, können jedoch Hinweise auf eine langschwänzige Fehlerverteilung sehen - in Situationen, in denen Sie langschwänzige Fehler haben, können Sie sich nicht unbedingt auf den zentralen Grenzwertsatz verlassen Sie erhalten eine ungefähre Folgerung für realistische endliche Stichprobengrößen. Zum Beispiel, wenn die Fehler einer Verteilung mit Freiheitsgraden folgen (was nicht eindeutig mehr ist2,01t 2.01 Die Koeffizientenschätzungen sind asymptotisch normalverteilt, es dauert jedoch viel länger als bei anderen Verteilungen mit kürzerem Schwanz, bis sie "eintreten".
Im Folgenden zeige ich mit einer groben Simulation,yi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
dass bei , wobei die Stichprobenverteilung von ist immer noch ziemlich lang, auch wenn die Stichprobengröße :ε i ~ t 2,01 β 1 n = 4000quelle
Ich denke, Sie möchten sich alle Eigenschaften der Residuen ansehen.
Wenn es nur 1 ist und es sich um einen schweren Schwanz oder eine Schräglage aufgrund eines schweren Schwanzes handelt, ist eine robuste Regression möglicherweise ein guter Ansatz oder eine Transformation zur Normalität. Wenn es sich um eine nicht konstante Varianz handelt, versuchen Sie eine Varianzstabilisierungstransformation oder versuchen Sie, die Varianzfunktion zu modellieren. Wenn es nur 3 sind, lässt dies auf eine andere Modellform schließen, die diese Kovariate einbezieht. Was auch immer das Problem ist, die Vektoren oder Reiduals zu booten, ist immer eine Option.
quelle
rms
Paket vereinfacht . Aber wie Sie vorgeschlagen haben, hat das Finden einer Transformation, die die Varianzstabilität und manchmal die Normalität von Residuen verbessert, oft mehrere Vorteile, selbst wenn wir booten. Schätzungen der kleinsten Quadrate unter Verwendung der "falschen" Transformation können sehr ineffizient sein und zu großen mittleren absoluten und mittleren absoluten Fehlern in Vorhersagen führen. Ich verwende auch gerne semiparametrische Regressionsmodelle.Meine Erfahrung stimmt voll und ganz mit Michael Chernick überein. Durch das Anwenden einer Datentransformation wird der Modellierungsfehler nicht nur zuweilen normalverteilt, sondern es kann auch die Heteroskedastizität korrigiert werden.
Es tut uns leid, aber es ist meiner Meinung nach falsch, diese Wissenschaft / Kunst zu praktizieren, wenn man vorschlägt, eine verrückte Menge an Daten zu sammeln oder weniger effiziente robuste Regressionsmethoden anzuwenden.
quelle
Macro (siehe oben) gab die richtige Antwort an. Nur etwas Präzision, weil ich die gleiche Frage hatte
Die Bedingung der Normalität der Residuen ist nützlich, wenn die Residuen auch homoskedastisch sind. Das Ergebnis ist dann, dass OLS die kleinste Varianz zwischen allen Schätzern aufweist (linear ODER nicht linear).
Die erweiterten OLS-Annahmen:
Wenn 1-5 verifiziert ist, hat OLS die kleinste Varianz zwischen allen Schätzern (linear ODER nicht linear) .
Wenn nur 1-4 verifiziert sind, ist OLS nach Gauß-Markov der beste lineare (nur!) Schätzer (BLAU).
Quelle: Stock and Watson, Ökonometrie + mein Kurs (EPFL, Ökonometrie)
quelle
Bei nicht normalen Bedingungen greift man manchmal auf eine robuste Regression zurück , insbesondere wenn man die Links zu Methoden verwendet .
Um den Kontext für die Nicht-Normalität darzustellen, kann es hilfreich sein, die folgenden Annahmen für die lineare OLS-Regression zu überprüfen :
Die statistische Beziehung zwischen den Fehlertermen und den Regressoren spielt eine wichtige Rolle bei der Bestimmung, ob ein Schätzverfahren wünschenswerte Stichprobeneigenschaften aufweist, beispielsweise objektive und konsistente Eigenschaften.
Die Anordnung oder Wahrscheinlichkeitsverteilung der Prädiktorvariablen x hat einen großen Einfluss auf die Genauigkeit der Schätzungen von β. Probenahme und Versuchsplanung sind hochentwickelte statistische Teilgebiete, die als Anleitung für die Datenerfassung dienen, um eine genaue Schätzung von β zu erhalten.
Da diese Antwort zeigt, simulierte Student's- verteilte Fehler von einer Linie führen zu OLS Regressionsgeraden mit Konfidenzintervalle für Steigung und Schnitt daß Zunahme der Größe als die Freiheitsgrade (-Achse ) abnehmen. Für ist Student's eine Cauchy-Verteilung und die Konfidenzintervalle für die Steigung werden .t y df df=1 t (−∞,+∞)
Es ist willkürlich, die Cauchy-Verteilung in Bezug auf Residuen in dem Sinne aufzurufen, dass, wenn die Erzeugungsfehler Cauchy-verteilt sind, die OLS-Residuen von einer fehlerhaften Linie durch die Daten noch weniger zuverlässig wären, dh Müll in Müll heraus. In diesen Fällen kann man die Theil-Sen- Regressionsregression verwenden. Theil-Sen ist sicherlich robuster als OLS für nicht normale Residuen, z. B. würde ein verteilter Cauchy-Fehler die Konfidenzintervalle nicht verschlechtern und ist im Gegensatz zu OLS auch eine bivariate Regression, im bivariaten Fall ist sie jedoch immer noch voreingenommen. Die Passing-Bablok-Regression kann bivariater sein, gilt jedoch nicht für negative Regressionssteigungen. Es wird am häufigsten für Methodenvergleichsstudien verwendet. Man sollte Deming Regression erwähnenIm Gegensatz zu den Theil-Sen- und Passing-Bablok-Regressionen ist dies hier eine tatsächliche Lösung für das bivariate Problem, aber es fehlt die Robustheit dieser anderen Regressionen. Die Robustheit kann durch Abschneiden der Daten auf die zentraleren Werte erhöht werden. Beispiel: Der Zufallsstichproben-Konsens (RANSAC) ist eine iterative Methode zum Schätzen von Parametern eines mathematischen Modells aus einem Satz beobachteter Daten, die Ausreißer enthalten.
Was ist dann bivariate Regression? Mangelnde Tests auf bivariate Natur von Problemen sind die häufigste Ursache für die Verdünnung der OLS- Regression und wurden an anderer Stelle auf dieser Website vorgestellt. Das Konzept der OLS-Verzerrung in diesem Zusammenhang ist nicht gut bekannt, siehe zum Beispiel Frost und Thompson, wie sie von Longford et al. (2001), die den Leser auf andere Methoden verweist und das Regressionsmodell erweitert, um die Variabilität in der Variablen zu berücksichtigen , so dass keine Verzerrung entsteht . Mit anderen Worten, die bivariate Regression von Groß- und Kleinschreibung kann manchmal nicht ignoriert werden, wenn sowohl - als auchx 1 x y x y y 2 x y x y = f ( x )1 x y -Werte sind zufällig verteilt. Die Notwendigkeit einer bivariaten Regression kann getestet werden, indem eine OLS-Regressionslinie an die Residuen einer OLS-Regression der Daten angepasst wird. Wenn die OLS-Residuen eine Steigung ungleich Null aufweisen, ist das Problem bivariat und die OLS-Regression der Daten weist eine Steigungsgröße auf, die zu gering ist, und einen Abschnitt, dessen Größe zu groß ist, um für die funktionale Beziehung repräsentativ zu sein zwischen und . In diesen Fällen würde der linearen Schätzer für den kleinsten Fehler der Werte tatsächlich immer noch aus der OLS-Regression stammen, und sein R Wert wird auf einem maximal möglichen Wert liegen, aber die OLS-Regressionslinie wird nicht die tatsächliche Linienfunktion darstellen, die sich bezieht das undx y y 2 x y Zufallsvariablen. Als ein Gegenbeispiel, wenn, wie unter anderen Problemen in einer Zeitreihe mit äquidistanten Werten, OLS der Rohdaten nicht immer unangemessen ist, es die beste -Linie darstellen kann, aber immer noch unterliegt Variablentransformation, zum Beispiel für Zählungsdaten, würde man die Quadratwurzel der Zählungen nehmen, um die Fehler für verteilte Poisson-Fehler in normalere Bedingungen umzuwandeln, und man sollte immer noch nach einer Steigung der Residuen suchen, die nicht Null ist. x y=f(x)
quelle