Titel sagt alles. Ich verstehe, dass die kleinsten Quadrate und die maximale Wahrscheinlichkeit das gleiche Ergebnis für Regressionskoeffizienten liefern, wenn die Fehler des Modells normal verteilt sind. Aber was passiert, wenn die Fehler nicht normal verteilt sind? Warum sind die beiden Methoden nicht mehr gleichwertig?
11
Antworten:
Kurze Antwort
Die Wahrscheinlichkeitsdichte eines multivariaten gaußverteiltes variablex=(x1,x2,...,xn) , mit einem Mittelwert μ=(μ1,μ2,...,μn) zu dem Quadrat der verwandte der euklidische Abstand zwischen dem Mittelwert und der Variablen ( |μ−x|22 ) oder mit anderen Worten die Summe der Quadrate.
Lange Antwort
Wenn Sie mehrere Gaußsche Verteilungen für Ihren Fehler multiplizieren , wobei Sie gleiche Abweichungen annehmen, erhalten Sie eine Summe von Quadraten.
oder in der bequemen logarithmischen Form:
Die Optimierung desμ zur Minimierung der Quadratsumme entspricht also der Maximierung der (logarithmischen) Wahrscheinlichkeit (dh des Produkts mehrerer Gaußscher Verteilungen oder der multivariaten Gaußschen Verteilung).
Es ist dieses verschachtelte Quadrat der Differenz( μ - x ) innerhalb der Exponentialstruktur e x p [ ( xich- μ )2]] , das andere Verteilungen nicht haben.
Vergleichen Sie zum Beispiel mit dem Fall für Poisson-Verteilungen
Das hat ein Maximum, wenn Folgendes minimiert wird:
Das ist ein anderes Tier.
Zusätzlich (Geschichte)
Die Historie der Normalverteilung (wobei deMoivre ignoriert wird, um diese Verteilung als Annäherung für die Binomialverteilung zu erhalten) ist tatsächlich die Entdeckung der Verteilung, die die MLE der Methode der kleinsten Quadrate entspricht (und nicht der Methode der kleinsten Quadrate als Methode das kann die MLE der Normalverteilung ausdrücken, zuerst kam die Methode der kleinsten Quadrate, zweitens kam die Gaußsche Verteilung)
Beachten Sie, dass Gauß, der die 'Methode der maximalen Wahrscheinlichkeit' mit der 'Methode der kleinsten Quadrate' verbindet, die 'Gaußsche Verteilung'e−x2 als einzige Fehlerverteilung gefunden hat, die uns dazu führt, diese Verbindung zwischen herzustellen die beiden Methoden.
Aus der Übersetzung von Charles Henry Davis (Theorie der Bewegung der Himmelskörper, die sich in konischen Abschnitten um die Sonne bewegen. Eine Übersetzung von Gauß '"Theoria motus" mit Anhang) ...
Gauß definiert:
Und fährt fort ( in Abschnitt 177, S. 258 ):
Geschrieben von StackExchangeStrike
quelle
Weil die MLE aus der Annahme eines normalverteilten Residuums abgeleitet wird.
Beachten Sie, dass
Woher das Konzept von Wahrscheinlichkeit und Wahrscheinlichkeit kommt, nehmen wir an
quelle
Die kleinsten Quadrate und die maximale (Gaußsche) Wahrscheinlichkeitsanpassung sind immer äquivalent. Das heißt, sie werden durch denselben Satz von Koeffizienten minimiert.
Wenn Sie die Annahme der Fehler ändern, ändert sich Ihre Wahrscheinlichkeitsfunktion (das Maximieren der Wahrscheinlichkeit eines Modells entspricht dem Maximieren der Wahrscheinlichkeit des Fehlerterms), und daher wird die Funktion nicht mehr durch denselben Koeffizientensatz minimiert.
In der Praxis sind die beiden also gleich, aber wenn Sie theoretisch eine andere Wahrscheinlichkeit maximieren, erhalten Sie eine andere Antwort als die kleinsten Quadrate
quelle
Ein konkretes Beispiel: Nehmen wir an, wir nehmen eine einfache Fehlerfunktion p (1) =. 9, p (-9) = .10. Wenn wir zwei Punkte nehmen, wird LS nur die Linie durch sie ziehen. ML hingegen geht davon aus, dass beide Punkte eine Einheit zu hoch sind, und nimmt daher die Linie durch die auf der Einheit nach unten verschobenen Punkte.
quelle