Lineare Regression: Gibt es eine nicht normale Verteilung, die die Identität von OLS und MLE angibt?

13

Diese Frage ist inspiriert von der langen Diskussion in den Kommentaren hier: Wie verwendet die lineare Regression die Normalverteilung?

In dem üblichen linearen Regressionsmodell wird hier der Einfachheit halber mit nur einem Prädiktor geschrieben: wobei bekannte Konstanten sind und unabhängige Fehlerterme mit dem Mittelwert Null sind. Wenn wir zusätzlich Normalverteilungen für die Fehler übernehmen, dann die üblichen kleinsten Quadrate Schätzer und die Maximum - Likelihood - Schätzer von sind identisch.x i ϵ i β 0 , β 1

Yi=β0+β1xi+ϵi
xiϵiβ0,β1

Also meine einfache Frage: Gibt es eine andere Verteilung für die Fehlerausdrücke, so dass die mle mit dem gewöhnlichen Kleinstquadratschätzer identisch sind? Die eine Implikation ist leicht zu zeigen, die andere nicht.

kjetil b halvorsen
quelle
1
(+1) Es müsste eine Verteilung sein, die um Null zentriert ist, und es scheint, als ob es hilfreich wäre, wenn es eine symmetrische Verteilung wäre. Einige Kandidaten, die mir in den Sinn kommen, wie die t- oder die Laplace-Verteilung, scheinen den Trick nicht zu machen, da die MLE selbst im Einzelfall nicht in geschlossener Form verfügbar ist oder vom Median angegeben wird.
Christoph Hanck
siehe auch stats.stackexchange.com/questions/99014/… , es scheint, dass nur so viel zu finden ist
Christoph Hanck
Ich bin sicher, die Antwort ist nein. Es kann jedoch schwierig sein, einen strengen Beweis zu schreiben.
Gordon Smyth

Antworten:

11

Bei der Maximum-Likelihood-Schätzung berechnen wir

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

Die letzte Beziehung berücksichtigt die Linearitätsstruktur der Regressionsgleichung.

Im Vergleich dazu ist der OLS-Schätzer zufriedenstellend

ϵixi=0

Um identische algebraische Ausdrücke für die Steigungskoeffizienten zu erhalten, müssen wir eine Dichte für den Fehlerterm haben, so dass

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

Dies sind Differentialgleichungen der Form , die Lösungen habeny=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

Jede Funktion, die diesen Kernel hat und über eine geeignete Domäne zu einer Einheit integriert wird, macht MLE und OLS für die Steigungskoeffizienten identisch. Wir suchen nämlich

g(x)=Aexp{±12cx2}:abg(x)dx=1

Gibt es ein solches , das nicht die normale Dichte (oder die Halbnormale oder die Ableitung der Fehlerfunktion) ist? g

Bestimmt. Aber man muss noch Folgendes berücksichtigen: Wenn man das Pluszeichen im Exponenten und eine symmetrische Unterstützung um beispielsweise Null verwendet, erhält man eine Dichte mit einem eindeutigen Minimum in der Mitte und zwei lokalen Maxima bei die Grenzen der Unterstützung.

Alecos Papadopoulos
quelle
Tolle Antwort (+1), aber wenn man in der Funktion ein Pluszeichen verwendet, ist es überhaupt eine Dichte? Es scheint dann, dass die Funktion ein unendliches Integral hat und daher nicht auf eine Dichtefunktion normiert werden kann. In diesem Fall bleibt uns nur die Normalverteilung.
Setzen Sie Monica am
1
@ Ben Danke. Es scheint, dass Sie implizit davon ausgehen, dass der Bereich der Zufallsvariablen plus / minus unendlich sein wird. Wir können aber einen rv definieren, der in einem begrenzten Intervall liegt. In diesem Fall können wir das Pluszeichen sehr gut verwenden. Deshalb habe ich in meinen Ausdrücken als Grenzen der Integration . (a,b)
Alecos Papadopoulos
Das stimmt - das habe ich angenommen.
Setzen Sie Monica am
5

Wenn wir definieren die OLS als Lösung beliebige Dichte f ( y | x , β 0 , β 1 ) , so dass arg β 0 , β 1 min n i = 1 log { f (

argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1) ist akzeptabel. Dies bedeutet zum Beispiel, dass Dichten der Form f ( y | x , β 0 , β 1 ) = f 0 (
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
sind akzeptabel, da der Faktor f 0 ( y | x ) nicht von dem Parameter ( & bgr; 0 , & bgr ; 1 ) abhängt. Es gibt also unendlich viele solcher Verteilungen.
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
f0(y|x)(β0,β1)

y

h(||yXβ||)
h()ϵi
Xi'an
quelle
1
Das sieht für mich nicht richtig aus. Wenn Sie eine andere kugelsymmetrische Verteilung verwenden, würde dies dann nicht zu einer Minimierung einer anderen Funktion der Norm als des Quadrats führen (also keine Schätzung der kleinsten Quadrate)?
Setzen Sie Monica am
1

Ich wusste nichts über diese Frage, bis @ Xi'an eine Antwort erhielt. Es gibt eine allgemeinere Lösung. Exponentielle Familienverteilungen mit einigen Parametern ergaben einen festen Ertrag für Bregman-Divergenzen. Für solche Verteilungen ist Mittelwert der Minimierer. OLS-Minimierer ist auch der Mittelwert. Daher sollten sie für alle derartigen Verteilungen übereinstimmen, wenn die lineare Funktion mit dem mittleren Parameter verknüpft ist.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

enter image description here

Cagdas Ozgenc
quelle