Äquivalenz zwischen kleinsten Quadraten und MLE im Gaußschen Modell

26

Ich bin neu im maschinellen Lernen und versuche es selbst zu lernen. Kürzlich las ich einige Vorlesungsunterlagen durch und hatte eine grundlegende Frage.

Folie 13 besagt, dass "Least-Square-Schätzung mit Maximum-Likelihood-Schätzung nach einem Gaußschen Modell identisch ist". Es scheint etwas Einfaches zu sein, aber ich kann das nicht sehen. Kann mir bitte jemand erklären, was hier los ist? Ich bin daran interessiert, die Mathematik zu sehen.

Ich werde später versuchen, den probabilistischen Standpunkt der Ridge- und Lasso-Regression ebenfalls zu sehen. Wenn es also Vorschläge gibt, die mir helfen, wird dies auch sehr geschätzt.

Andy
quelle
4
Die Zielfunktion am Ende von p. 13 ist nur ein konstantes Vielfaches ( ) der Zielfunktion am unteren Rand von p. 10. MLE minimiert das erstere, während die kleinsten Quadrate das letztere, QED, minimieren. n
Whuber
@whuber: Danke für deine Antwort. Nun, ich wollte wissen, wie es ist, dass MLE die Minimierung vornimmt.
Andy
Meinen Sie die Mechanik oder konzeptionell?
Whuber
@whuber: Beides! Wenn ich diese Mathematik sehen könnte, würde das auch helfen.
Andy
1
Die Verbindung ist unterbrochen. Das Fehlen einer vollständigen Referenz und mehr Kontext für das Zitat macht es schwierig, die Referenz einfach zu entfernen oder eine alternative Quelle dafür zu finden. Reicht Folie 13 dieses Links aus? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b - Monica

Antworten:

29

Im Modell

Y.=Xβ+ϵ

wo , die loglikelihood von Y | X für eine Stichprobe von n Probanden ist (bis zu einer additiven Konstante)ϵN(0,σ2)Y.|Xn

-n2Log(σ2)-12σ2ich=1n(yich-xichβ)2

nur als Funktion von , ist der Maximierer genau der, der minimiertβ

ich=1n(yich-xichβ)2

macht dies die Äquivalenz klar?

Makro
quelle
Genau das steht in den Folien, auf die im OP
Bezug genommen wird
3
Ja, ich verstehe das, aber sie schreiben die Gaußsche Log-Wahrscheinlichkeit auf Seite 13 nicht wirklich, was darauf hinweist, dass ihr Argmax mit dem Argmin des OLS-Kriteriums übereinstimmt, und ich fand, dass dies eine lohnende Ergänzung war.
Makro
guter punkt: die folie ist ein wenig lückenhaft mit den details.
Whuber
7
βL2
1
Die additive Konstante istn/2 log(2 *pi)
SmallChess