Regression: warum Test Normalität Gesamt Residuen, statt Residuen auf bedingten

10

Ich verstehe, dass bei der linearen Regression angenommen wird, dass die Fehler normal verteilt sind, abhängig vom vorhergesagten Wert von y. Dann betrachten wir die Residuen als eine Art Proxy für die Fehler.

Es wird oft empfohlen, eine Ausgabe wie folgt zu generieren : Geben Sie hier die Bildbeschreibung ein. Ich verstehe jedoch nicht, worum es geht, den Rest für jeden Datenpunkt zu erhalten und diesen in einem einzigen Plot zusammenzufügen.

Ich verstehe, dass es unwahrscheinlich ist, dass wir über ausreichende Datenpunkte verfügen, um richtig beurteilen zu können, ob wir bei jedem vorhergesagten Wert von y normale Residuen haben.

Ist die Frage, ob wir insgesamt normale Residuen haben, nicht eine separate Frage, die sich nicht eindeutig auf die Modellannahme normaler Residuen bei jedem vorhergesagten Wert von y bezieht? Könnten wir nicht bei jedem vorhergesagten Wert von y normale Residuen haben, während wir insgesamt nicht ganz normale Residuen haben?

user1205901 - Monica wiederherstellen
quelle
1
Das Konzept kann einen gewissen Wert haben - vielleicht könnte hier Bootstrapping helfen (um die Replikation von Residuen zu erhalten)
Wahrscheinlichkeitslogik
2
Könnten Sie eine Referenz für die lineare Regression angeben, bei der angenommen wird, dass die Fehler normal verteilt sind, abhängig vom vorhergesagten Wert von y (falls vorhanden)?
Richard Hardy
Ich hatte keine bestimmte Quelle im Sinn, als ich die Frage stellte, aber wie wäre es mit "der Modellannahme ist, dass die Antwortvariable normalerweise mit konstanter Varianz um die Regressionslinie verteilt ist (was eine Schätzung des bedingten Mittelwerts ist)". von hier . Würde mich über weiteres Feedback freuen, wenn ich mich irre.
user1205901

Antworten:

17

Könnten wir nicht bei jedem vorhergesagten Wert von y normale Residuen haben, während wir insgesamt nicht ganz normale Residuen haben?

Nein - zumindest nicht unter der Standardannahme, dass die Varianz der Fehler konstant ist.

y^

Daraus können wir einen kleinen Syllogismus bilden. Wenn die einzelnen Verteilungen bei den Werten des Prädiktors X normal sind (und ihre Varianzen gleich sind), ist die Verteilung der Gesamtreste normal. Wenn wir also beobachten, dass die Verteilung der Gesamtreste anscheinend nicht normal ist, impliziert dies, dass die Verteilungen mit X bei gleicher Varianz nicht normal sind. Welches ist eine Verletzung der Standardannahmen.

Jake Westfall
quelle
1
p(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
Ist es angebracht zu sagen, dass nicht normale Randbedingungen es uns ermöglichen, nicht normale Bedingungen "abzulehnen", aber dass normale Randbedingungen es uns nicht erlauben, normale Bedingungen "zu akzeptieren"?
Shadowtalker
6
p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Bill
1
ε | XN(0,σ2)εN(0,σ2)
@ssdecontrol Aus der Antwort: " Wenn die einzelnen Verteilungen bei den Werten des Prädiktors X normal sind (und ihre Varianzen gleich sind), ist die Verteilung der Gesamtreste normal. " Sie sind sich nicht sicher, wie viel klarer ich sein könnte?
Jake Westfall
3

Es wurde gesagtdass gewöhnliche kleinste Quadrate in y (OLS) in der Klasse der linearen unverzerrten Schätzer optimal sind, wenn die Fehler homoskedastisch und seriell unkorreliert sind. In Bezug auf homoskedastische Residuen ist die Varianz der Residuen gleich, unabhängig davon, wo wir die Variation der Residuengröße auf der x-Achse messen würden. Nehmen wir zum Beispiel an, dass der Fehler unserer Messung mit zunehmenden y-Werten proportional zunimmt. Wir könnten dann den Logarithmus dieser y-Werte nehmen, bevor wir eine Regression durchführen. In diesem Fall erhöht sich die Qualität der Anpassung im Vergleich zur Anpassung eines proportionalen Fehlermodells ohne Logarithmus. Um Homoskedastizität zu erhalten, müssen wir im Allgemeinen möglicherweise den Kehrwert der Daten der y- oder x-Achse, den Logarithmus (e), das Quadrat oder die Quadratwurzel verwenden oder ein Exponential anwenden. Eine Alternative dazu ist die Verwendung einer Gewichtungsfunktion.(ymodel)2y2(ymodel)2

Trotzdem kommt es häufig vor, dass die Homoskedastik durch Residuen normaler verteilt wird, aber häufig ist die homoskedastische Eigenschaft wichtiger. Letzteres würde davon abhängen, warum wir die Regression durchführen. Wenn beispielsweise die Quadratwurzel der Daten normaler verteilt ist als der Logarithmus, der Fehler jedoch vom proportionalen Typ ist, ist das t-Testen des Logarithmus hilfreich, um einen Unterschied zwischen Populationen oder Messungen festzustellen, aber um den erwarteten Wert zu ermitteln Wert sollten wir die Quadratwurzel der Daten verwenden, da nur die Quadratwurzel der Daten eine symmetrische Verteilung ist, für die Mittelwert, Modus und Median gleich sein sollen.

Darüber hinaus kommt es häufig vor, dass wir keine Antwort wünschen, die uns einen Prädiktor für den geringsten Fehler der y-Achsenwerte liefert, und diese Regressionen können stark verzerrt sein. Zum Beispiel möchten wir manchmal den kleinsten Fehler in x zurückführen. Oder manchmal möchten wir die Beziehung zwischen y und x aufdecken, was dann kein routinemäßiges Regressionsproblem ist. Wir könnten dann Theil, dh Median Steigung, Regression, als einfachsten Kompromiss zwischen x und y kleinster Fehlerregression verwenden. Oder wenn wir wissen, wie unterschiedlich die Wiederholungsmessungen für x und y sind, können wir die Deming-Regression verwenden. Die Regression ist besser, wenn wir weit entfernte Ausreißer haben, die schreckliche Dinge mit gewöhnlichen Regressionsergebnissen anstellen. Für die Regression der mittleren Steigung spielt es keine Rolle, ob die Residuen normal verteilt sind oder nicht.

Übrigens liefert die Normalität der Residuen nicht unbedingt nützliche lineare Regressionsinformationen.Angenommen, wir führen Wiederholungsmessungen von zwei unabhängigen Messungen durch. Da wir unabhängig sind, ist die erwartete Korrelation Null, und die Steigung der Regressionslinie kann dann eine beliebige Zufallszahl ohne nützliche Steigung sein. Wir wiederholen Messungen, um eine Schätzung des Ortes zu erstellen, dh den Mittelwert (oder Median (Cauchy- oder Beta-Verteilung mit einem Peak) oder allgemein den erwarteten Wert einer Population) und daraus eine Varianz in x und eine Varianz zu berechnen in y, das dann für die Deming-Regression verwendet werden kann, oder was auch immer. Darüber hinaus führt die Annahme, dass die Überlagerung bei demselben Mittelwert normal ist, wenn die ursprüngliche Population normal ist, zu keiner nützlichen linearen Regression. Um dies weiter zu tragen, Angenommen, ich ändere dann die Anfangsparameter und erstelle eine neue Messung mit verschiedenen Monte-Carlo-X- und -Y-Wert-Erzeugungsorten und sammle diese Daten mit dem ersten Lauf. Dann sind die Residuen bei jedem x-Wert in y-Richtung normal, aber in x-Richtung hat das Histogramm zwei Peaks, die nicht mit den OLS-Annahmen übereinstimmen, und unsere Steigung und unser Achsenabschnitt werden durch einen verzerrt hat keine gleichen Intervalldaten auf der x-Achse. Die Regression der gesammelten Daten hat jetzt jedoch eine bestimmte Steigung und einen bestimmten Schnittpunkt, während dies zuvor nicht der Fall war. Da wir nur zwei Punkte mit wiederholter Abtastung testen, können wir außerdem nicht auf Linearität testen. In der Tat wird der Korrelationskoeffizient aus demselben Grund keine zuverlässige Messung sein.

Umgekehrt wird manchmal zusätzlich angenommen, dass die Fehler eine Normalverteilung haben, die von den Regressoren abhängig ist. Diese Annahme wird für die Gültigkeit der OLS-Methode nicht benötigt, obwohl in diesem Fall bestimmte zusätzliche Eigenschaften für endliche Stichproben festgelegt werden können (insbesondere im Bereich der Prüfung von Hypothesen), siehe hier. Wann ist OLS dann in Ihrer korrekten Regression? Wenn wir zum Beispiel die Aktienkurse messen, wenn wir jeden Tag genau zur gleichen Zeit schließen, gibt es keine Varianz der t-Achse (Think x-Achse). Die Zeit des letzten Handels (Abrechnung) würde jedoch zufällig verteilt, und die Regression, um die BEZIEHUNG zwischen den Variablen zu ermitteln, müsste beide Varianzen berücksichtigen. Unter diesen Umständen würde OLS in y nur den geringsten Fehler im y-Wert schätzen, was eine schlechte Wahl für die Extrapolation des Handelspreises für eine Abrechnung wäre, da der Zeitpunkt selbst dieser Abrechnung ebenfalls vorhergesagt werden muss. Darüber hinaus kann ein normalverteilter Fehler einem Gamma-Preismodell unterlegen sein .

Was macht das schon? Nun, einige Aktien werden mehrmals pro Minute gehandelt, andere nicht jeden Tag oder sogar jede Woche, und dies kann einen ziemlich großen numerischen Unterschied bewirken. Es kommt also darauf an, welche Informationen wir wünschen. Wenn wir fragen wollen, wie sich der Markt morgen beim Closing verhalten wirdDies ist eine OLS-Typ-Frage, aber die Antwort kann nichtlinear und nicht normal sein und eine Anpassungsfunktion mit Formkoeffizienten erfordern, die mit der Anpassung der Ableitungen (und / oder höheren Momenten) übereinstimmen, um die richtige Krümmung für die Extrapolation zu ermitteln . (Man kann sowohl Derivate als auch eine Funktion anpassen, beispielsweise mit kubischen Splines. Daher sollte das Konzept der Derivatvereinbarung nicht überraschen, auch wenn es selten untersucht wird.) Wenn wir wissen wollen, ob wir Geld verdienen oder nicht Für eine bestimmte Aktie verwenden wir dann kein OLS, da das Problem dann bivariat ist.

Carl
quelle
1
Würden Sie sagen, dass Normalität ausreichend, aber für eine gültige Schlussfolgerung nicht notwendig ist? Warum nicht einfach gezielt auf Heteroskedastizität testen? Sicherlich bedeutet eine (zum Beispiel) starke Schwanzverteilung der Residuen nicht unbedingt, dass die Annahme der bedingten Normalität falsch ist, oder? Schwerwiegende Residuen würden jedoch einen Normalitätstest für die Residuen konstruktionsbedingt nicht bestehen.
Shadowtalker
Für T-Tests ist Homoskedastizität oft wichtiger. Ausreißer machen 1.359 SD >> IQR, wodurch die Leistung von T-Tests reduziert wird. Versuchen Sie dann entweder eine Neuparametrisierung oder einen Wilcoxon-Test, der unter den meisten Umständen (möglicherweise nicht bei r> 0,9999) funktioniert, unabhängig vom Verteilungstyp oder dem Grad der Heteroskedastizität. Wenn man mehrere ähnliche Parameter testet, funktionieren entweder Wilcoxon- oder T-Tests besser, um die niedrigen und hohen Wahrscheinlichkeiten zu sortieren, sodass die Daten selbst häufig erklären, was nützlicher ist.
Carl
Machen Sie das 1.349 SD >> IQR. 1,349 ist die Anzahl der SD, die eine Normalverteilung für einen Interquartilbereich (IQR) hat. Einige Verteilungen, wie die Cauchy-Verteilung oder ein Student's t mit zwei Freiheitsgraden, haben keine SDs, die Ausreißer töten das, aber sie haben IQRs, und dann verwendet man Wilcoxon oder einen anderen nichtparametrischen Test als Standorttests.
Carl
Nach weiteren Überlegungen (siehe neues Material in Antwort) ist die Normalität der Residuen der y-Achse schön, aber unzureichend.
Carl
Schwere Schwanzverteilungen machen schreckliche Dinge mit Regressionsgleichungen. Wenn man zum Beispiel alle möglichen Steigungen in einem Datensatz untersucht, erhält man normalerweise eine Cauchy-Verteilung der Steigungen, AKA Student's t mit einem Freiheitsgrad. Für die Cauchy-Verteilung gibt es keine Momente. Das heißt, man kann einen Mittelwert und eine Standardabweichung berechnen und je mehr Daten man hat, desto unregelmäßiger werden Mittelwert und Standardabweichung. Der erwartete Wert einer Cauchy-Verteilung ist der Median, und um einen Mittelwert zu berechnen, müsste man die Extremwerte zensieren.
Carl