Warum Normalitätsannahme in linearer Regression

14

Meine Frage ist sehr einfach: Warum wählen wir Normal als Verteilung, der der Fehlerterm bei der Annahme der linearen Regression folgt? Warum wählen wir nicht andere wie Uniform, t oder was auch immer?

Meister Shi
quelle
5
Wir wählen nicht die normale Annahme. Zufällig folgen die Modellkoeffizienten bei normalem Fehler genau einer Normalverteilung, und mit einem exakten F-Test können Hypothesen darüber überprüft werden.
AdamO
10
Weil die Mathematik leicht genug funktioniert, dass die Leute sie vor modernen Computern benutzen könnten.
Nat
1
@AdamO Ich verstehe nicht; Sie haben nur die Gründe genannt, warum wir uns für dieses Produkt entschieden haben.
JiK
2
@JiK Wenn ich Distributionen wählen könnte, gäbe es überhaupt keine Notwendigkeit für Statistiken. Die ganze Welt wäre Wahrscheinlichkeit.
AdamO
1
@AdamO Sie können Annahmen für Ihr Modell auswählen, wenn Sie statistische Inferenzen durchführen. Ich denke also nicht, dass es keine Statistiken gibt.
JiK

Antworten:

29

Wir wählen andere Fehlerverteilungen. Sie können dies in vielen Fällen ziemlich einfach tun; Wenn Sie die Maximum-Likelihood-Schätzung verwenden, ändert sich dadurch die Verlustfunktion. Dies wird sicherlich in der Praxis gemacht.

Laplace (doppelt exponentielle Fehler) entsprechen der Regression der kleinsten absoluten Abweichungen / L1 -Regression (die in zahlreichen Beiträgen vor Ort erörtert wird). Regressionen mit t-Fehlern werden gelegentlich verwendet (in einigen Fällen, weil sie robuster gegenüber groben Fehlern sind), obwohl sie einen Nachteil haben können - die Wahrscheinlichkeit (und daher das Negativ des Verlusts) kann mehrere Modi haben.

Gleichmäßige Fehler entsprechen einem L -Verlust (minimieren Sie die maximale Abweichung); Eine solche Regression wird manchmal Chebyshev-Approximation genannt (Vorsicht, da es eine andere Sache mit im Wesentlichen demselben Namen gibt). Wiederum geschieht dies manchmal (tatsächlich ist die Anpassung für einfache Regression und kleinere Datensätze mit begrenzten Fehlern bei konstanter Streuung oft leicht genug, um von Hand direkt auf einem Plot gefunden zu werden, obwohl in der Praxis lineare Programmiermethoden oder andere Algorithmen verwendet werden können , ja, L und L1 sind Regressionsprobleme duals voneinander, die manchmal bequem Abkürzungen für einige Probleme führen kann).

In der Tat ist hier ein Beispiel eines "Uniform Error" -Modells, das von Hand an Daten angepasst wird:

L-Infinity-Regression von Hand angepasst.  Die beiden "niedrigsten" Punkte unter dem Datenstreifen sind markiert, und die beiden "höchsten" Punkte über dem Datenstreifen sind markiert.

Es ist leicht zu erkennen (indem Sie ein Lineal in Richtung der Daten schieben), dass die vier markierten Punkte die einzigen Kandidaten für den aktiven Satz sind. drei von ihnen bilden tatsächlich die aktive Menge (und eine kleine Überprüfung identifiziert bald, welche drei zu dem schmalsten Band führen, das alle Daten umfasst). Die Linie in der Mitte dieses Bandes (rot markiert) ist dann die maximale Wahrscheinlichkeitsschätzung der Linie.

Viele andere Modellwahlen sind möglich und einige wurden in der Praxis verwendet.

Beachten Sie, dass bei additiven, unabhängigen, konstant verteilten Fehlern mit einer Dichte der Form kexp(c.g(ε)) Maximierung der Wahrscheinlichkeit der Minimierung vonig(ei) , wobeiei die ISi - te Rest.

Es gibt jedoch eine Reihe von Gründen, aus denen die kleinsten Quadrate eine beliebte Wahl sind, von denen viele keine Normalitätsannahme erfordern.

Glen_b - Setzen Sie Monica wieder ein
quelle
2
Gute Antwort. Würde es Ihnen etwas ausmachen, einige Links hinzuzufügen, die nähere Informationen zur praktischen Verwendung dieser Variationen enthalten?
rgk
(+1) Gute Antwort. Würde es Ihnen etwas ausmachen , den R-Code zu teilen, der für die Anpassung der -Regressionslinie verwendet wird? L
COOLSerdash
1
Wie ich im Text erklärt habe, habe ich es von Hand angepasst, ganz ähnlich wie ich es beschrieben habe. Obwohl es mit Code problemlos möglich ist, habe ich den Plot in MS Paint buchstäblich geöffnet und die drei Punkte in der aktiven Gruppe identifiziert (durch Verbinden von zwei wurde die Steigung ermittelt) - und dann die Linie zur Hälfte in Richtung des dritten Punkts verschoben (Durch Halbieren des vertikalen Abstandes in Pixeln und Verschieben der Linie um so viele Pixel). Einem Kind könnte das beigebracht werden.
Glen_b
@ Glen_b In der Tat war ich ein Teenager, als mir beigebracht wurde, genau das im Labor für Studienanfänger zu tun.
Peter Leopold
9

Die normale / Gaußsche Annahme wird oft verwendet, weil sie die rechnerisch bequemste Wahl ist. Die Berechnung der Maximum-Likelihood-Schätzung der Regressionskoeffizienten ist ein quadratisches Minimierungsproblem, das mit Hilfe der reinen linearen Algebra gelöst werden kann. Andere Auswahlmöglichkeiten für Rauschverteilungen führen zu komplizierteren Optimierungsproblemen, die typischerweise numerisch gelöst werden müssen. Insbesondere kann das Problem nicht konvex sein, was zu zusätzlichen Komplikationen führt.

Normalität ist im Allgemeinen nicht unbedingt eine gute Annahme. Die Normalverteilung hat sehr leichte Schwänze, und dies macht die Regressionsschätzung für Ausreißer sehr empfindlich. Alternativen wie die Laplace- oder Student-t-Verteilung sind oftmals überlegen, wenn Messdaten Ausreißer enthalten.

Weitere Informationen finden Sie in Peter Hubers wegweisendem Buch Robust Statistics.

Martin L
quelle
2

Wenn Sie mit dieser Hypothese arbeiten, bieten Ihnen die auf Quadratfehlern basierende Regression und die maximale Wahrscheinlichkeit dieselbe Lösung. Sie können auch einfache F-Tests für die Koeffizientensignifikanz sowie Konfidenzintervalle für Ihre Vorhersagen erhalten.

Fazit: Der Grund, warum wir uns oft für die Normalverteilung entscheiden, sind ihre Eigenschaften, die die Sache oftmals einfacher machen. Dies ist auch keine sehr restriktive Annahme, da sich viele andere Datentypen "normal" verhalten.

Wie bereits in einer früheren Antwort erwähnt, gibt es jedoch die Möglichkeit, Regressionsmodelle für andere Verteilungen zu definieren. Das Normale ist einfach das am häufigsten vorkommende

David
quelle
2

Glen_b hat erklärt , schön , dass OLS Regression kann verallgemeinert werden (Wahrscheinlichkeit zu maximieren , anstatt die Summe der Quadrate der Minimierung) und wir tun andere Distributionen wählen.

Warum wird die Normalverteilung jedoch so oft gewählt ?

Der Grund ist, dass die Normalverteilung an vielen Stellen natürlich vorkommt. Es ist ein bisschen dasselbe, wie wir es oft sehen, wenn der goldene Schnitt oder die Fibonacci-Zahlen "spontan" an verschiedenen Stellen in der Natur auftreten.

Die Normalverteilung ist die Grenzverteilung für eine Summe von Variablen mit endlicher Varianz (oder es sind auch weniger strenge Einschränkungen möglich). Und ohne die Grenze zu nehmen, ist es auch eine gute Annäherung für eine Summe einer endlichen Anzahl von Variablen. Da also viele beobachtete Fehler als Summe vieler kleiner, nicht beobachteter Fehler auftreten, ist die Normalverteilung eine gute Annäherung.

Siehe auch hier Bedeutung der Normalverteilung

wo Galtons Bohnenmaschinen das Prinzip intuitiv zeigen

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

Sextus Empiricus
quelle
-1

Warum wählen wir keine anderen Distributionen aus?

yiRxiRnxi

y^i=wxi.

Der überraschende Verlust ist normalerweise der vernünftigste Verlust:

L=logP(yixi).

Sie können sich eine lineare Regression vorstellen, indem Sie eine normale Dichte mit fester Varianz in der obigen Gleichung verwenden:

L=logP(yixi)(yiy^i)2.

Dies führt zur Gewichtsaktualisierung:

wL=(y^iyi)xi


Wenn Sie eine andere exponentielle Familienverteilung verwenden, wird dieses Modell im Allgemeinen als verallgemeinertes lineares Modell bezeichnet . Die unterschiedliche Verteilung entspricht einer unterschiedlichen Dichte, kann jedoch durch Ändern der Vorhersage, des Gewichts und des Ziels leichter formalisiert werden.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk .

η

f(z)=h(z)exp(ηT(z)g(η)).

Lassen Sie die natürlichen Parameter η Sein wxichund bewerten Sie die Dichte am beobachteten Ziel z=yich. Dann ist der Verlustgradient

WL=W-Logf(x)=(G(Wxich))xich-T(yich)xich=(u^ich-uich)xich,
Das hat die gleiche schöne Form wie die lineare Regression.


Soweit ich weiß, kann der Gradienten-Log-Normalisierer jede monotone analytische Funktion sein, und jede monotone analytische Funktion ist der Gradienten-Log-Normalisierer einer exponentiellen Familie.

Neil G
quelle
This is very short and too cryptic for our standards, please also explain surprisal.
kjetil b halvorsen
1
"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.
Sextus Empiricus
1
The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation f and a normalizing transformation g" I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.
Sextus Empiricus
1
Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.
Sextus Empiricus
1
@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy
kjetil b halvorsen