Lineare Regression: Gibt es eine nicht normale Verteilung, die die Identität von OLS und MLE angibt?

13

Diese Frage ist inspiriert von der langen Diskussion in den Kommentaren hier: Wie verwendet die lineare Regression die Normalverteilung?

In dem üblichen linearen Regressionsmodell wird hier der Einfachheit halber mit nur einem Prädiktor geschrieben: wobei bekannte Konstanten sind und unabhängige Fehlerterme mit dem Mittelwert Null sind. Wenn wir zusätzlich Normalverteilungen für die Fehler übernehmen, dann die üblichen kleinsten Quadrate Schätzer und die Maximum - Likelihood - Schätzer von sind identisch.

Y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

x_{i}

$x_i$

ϵ_{i}

$\epsilon_i$

β_{0}, β_{1}

$\beta_0, \beta_1$

Also meine einfache Frage: Gibt es eine andere Verteilung für die Fehlerausdrücke, so dass die mle mit dem gewöhnlichen Kleinstquadratschätzer identisch sind? Die eine Implikation ist leicht zu zeigen, die andere nicht.

regression normal-distribution mathematical-statistics maximum-likelihood least-squares kjetil b halvorsen
quelle

1

(+1) Es müsste eine Verteilung sein, die um Null zentriert ist, und es scheint, als ob es hilfreich wäre, wenn es eine symmetrische Verteilung wäre. Einige Kandidaten, die mir in den Sinn kommen, wie die t- oder die Laplace-Verteilung, scheinen den Trick nicht zu machen, da die MLE selbst im Einzelfall nicht in geschlossener Form verfügbar ist oder vom Median angegeben wird.

Christoph Hanck

siehe auch stats.stackexchange.com/questions/99014/… , es scheint, dass nur so viel zu finden ist

Christoph Hanck

Ich bin sicher, die Antwort ist nein. Es kann jedoch schwierig sein, einen strengen Beweis zu schreiben.

Gordon Smyth

11

Bei der Maximum-Likelihood-Schätzung berechnen wir

{\hat{β}}_{M L} : \sum \frac{\partial \ln f (ϵ_{i})}{\partial β} = 0 ⟹ \sum \frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} x_{i} = 0

$\hat \beta_{ML}: \sum \frac {\partial \ln f(\epsilon_i)}{\partial \beta} = \mathbf 0 \implies \sum \frac {f'(\epsilon_i)}{f(\epsilon_i)}\mathbf x_i = \mathbf 0$

Die letzte Beziehung berücksichtigt die Linearitätsstruktur der Regressionsgleichung.

Im Vergleich dazu ist der OLS-Schätzer zufriedenstellend

\sum ϵ_{i} x_{i} = 0

$\sum \epsilon_i\mathbf x_i = \mathbf 0$

Um identische algebraische Ausdrücke für die Steigungskoeffizienten zu erhalten, müssen wir eine Dichte für den Fehlerterm haben, so dass

\frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} = \pm c ϵ_{i} ⟹ f^{'} (ϵ_{i}) = \pm c ϵ_{i} f (ϵ_{i})

$\frac {f'(\epsilon_i)}{f(\epsilon_i)} = \pm \;c\epsilon_i \implies f'(\epsilon_i)= \pm \;c\epsilon_if(\epsilon_i)$

Dies sind Differentialgleichungen der Form , die Lösungen haben $y' = \pm\; xy$

\int \frac{1}{y} d y = \pm \int x d x ⟹ \ln y = \pm \frac{1}{2} x^{2}

$\int \frac 1 {y}dy = \pm \int x dx\implies \ln y = \pm\;\frac 12 x^2$

⟹ y = f (ϵ) = \exp {\pm \frac{1}{2} c ϵ^{2}}

$\implies y = f(\epsilon) = \exp\left \{\pm\;\frac 12 c\epsilon^2\right\}$

Jede Funktion, die diesen Kernel hat und über eine geeignete Domäne zu einer Einheit integriert wird, macht MLE und OLS für die Steigungskoeffizienten identisch. Wir suchen nämlich

g (x) = A \exp {\pm \frac{1}{2} c x^{2}} : \int_{a}^{b} g (x) d x = 1

$g(x)= A\exp\left \{\pm\;\frac 12 cx^2\right\} : \int_a^b g(x)dx =1$

Gibt es ein solches , das nicht die normale Dichte (oder die Halbnormale oder die Ableitung der Fehlerfunktion) ist? $g$

Bestimmt. Aber man muss noch Folgendes berücksichtigen: Wenn man das Pluszeichen im Exponenten und eine symmetrische Unterstützung um beispielsweise Null verwendet, erhält man eine Dichte mit einem eindeutigen Minimum in der Mitte und zwei lokalen Maxima bei die Grenzen der Unterstützung.

Alecos Papadopoulos
quelle

Tolle Antwort (+1), aber wenn man in der Funktion ein Pluszeichen verwendet, ist es überhaupt eine Dichte? Es scheint dann, dass die Funktion ein unendliches Integral hat und daher nicht auf eine Dichtefunktion normiert werden kann. In diesem Fall bleibt uns nur die Normalverteilung.

Setzen Sie Monica am

1

@ Ben Danke. Es scheint, dass Sie implizit davon ausgehen, dass der Bereich der Zufallsvariablen plus / minus unendlich sein wird. Wir können aber einen rv definieren, der in einem begrenzten Intervall liegt. In diesem Fall können wir das Pluszeichen sehr gut verwenden. Deshalb habe ich in meinen Ausdrücken als Grenzen der Integration

.

(a, b)

$(a,b)$

Alecos Papadopoulos

Das stimmt - das habe ich angenommen.

Setzen Sie Monica am

5

Wenn wir definieren die OLS als Lösung beliebige Dichte , so dass

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

f (y | x, β_{0}, β_{1})

$f(y|x,\beta_0,\beta_1)$

ist akzeptabel. Dies bedeutet zum Beispiel, dass Dichten der Form

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} \log {f (y_{i} | x_{i}, β_{0}, β_{1})} = \arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n \log\{f(y_i|x_i,\beta_0,\beta_1)\}=\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

sind akzeptabel, da der Faktor

nicht von dem Parameter

abhängt. Es gibt also unendlich viele solcher Verteilungen.

f (y | x, β_{0}, β_{1}) = f_{0} (y | x) \exp {- ω (y_{i} - β_{0} - β_{1} x_{i})^{2}}

$f(y|x,\beta_0,\beta_1)=f_0(y|x)\exp\{-\omega(y_i-\beta_0-\beta_1x_i)^2\}$

f_{0} (y | x)

$f_0(y|x)$

(β_{0}, β_{1})

$(\beta_0,\beta_1)$

$\mathbf{y}$

h (| | y - X β | |)

$h(||\mathbf{y}-\mathbf{X}\beta||)$

h (\cdot)

$h(\cdot)$

ϵ_{i}

$\epsilon_i$

Xi'an
quelle

1

Das sieht für mich nicht richtig aus. Wenn Sie eine andere kugelsymmetrische Verteilung verwenden, würde dies dann nicht zu einer Minimierung einer anderen Funktion der Norm als des Quadrats führen (also keine Schätzung der kleinsten Quadrate)?

Setzen Sie Monica am

1

Ich wusste nichts über diese Frage, bis @ Xi'an eine Antwort erhielt. Es gibt eine allgemeinere Lösung. Exponentielle Familienverteilungen mit einigen Parametern ergaben einen festen Ertrag für Bregman-Divergenzen. Für solche Verteilungen ist Mittelwert der Minimierer. OLS-Minimierer ist auch der Mittelwert. Daher sollten sie für alle derartigen Verteilungen übereinstimmen, wenn die lineare Funktion mit dem mittleren Parameter verknüpft ist.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

Cagdas Ozgenc
quelle

Lineare Regression: Gibt es eine nicht normale Verteilung, die die Identität von OLS und MLE angibt?

Antworten: