Ausfall in der linearen Regression

9

Ich habe das Originalpapier über Dropout ( https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf ) gelesen und im Abschnitt über lineare Regression heißt es:

E.R.B.ernÖullich(p)[y - -(R.X.)w2]]

reduziert zu:

ypXw2+p(1p)Γw2

Ich habe Probleme zu verstehen, wie sie zu diesem Ergebnis gekommen sind. Kann jemand helfen?

Doug
quelle
Was ist hier? Γ
The Laconic
3
Ich schrieb einen langen Aufsatz zu diesem Thema: madrury.github.io/jekyll/update/statistics/2017/08/12/…
Matthew Drury

Antworten:

7

Lassen Sie uns zunächst für die Bequemlichkeit. Wenn wir den Verlust erweitern, haben wir Nehmen wir die Erwartung für so haben wir Der erwartete Wert einer Matrix ist die Matrix der erwarteten Werte, also also Für den letzten Term gilt daher WennR.X.=M.

y- -M.w2=yT.y- -2wT.M.T.y+wT.M.T.M.w.
R.
E.R.(y- -M.w2)=yT.y- -2wT.(E.M.)T.y+wT.E.(M.T.M.)w.
(E.R.M.)ichj=E.R.((R.X.)ichj)=X.ichjE.R.(R.ichj)=pX.ichj
2wT.(E.M.)T.y=2pwT.X.T.y.
(MTM)ij=k=1NMkiMkj=k=1NRkiRkjXkiXkj
(ERMTM)ij=k=1NER(RkiRkj)XkiXkj.
ijdann sind sie unabhängig, so dass die nicht diagonalen Elemente zu . Für die diagonalen Elemente haben wir p2(XTX)ij
k=1NER(Rki2)Xki2=p(XTX)ii.

Wenn wir dies , können wir feststellen, dass und wir haben In ich gezeigt, dass jedes nicht diagonale Element Null ist, so dass das Ergebnis Das Papier definiert also was bedeutet, dass wir sind fertig.

y- -pX.w2=yT.y- -2pwT.X.T.y+p2wT.X.T.X.w
E.R.y- -M.w2=yT.y- -2pwT.X.T.y+wT.E.R.(M.T.M.)w=y- -pX.w2- -p2wT.X.T.X.w+wT.E.R.(M.T.M.)w=y- -pX.w2+wT.(E.R.(M.T.M.)- -p2X.T.X.)w.
E.R.(M.T.M.)- -p2X.T.X.
E.R.(M.T.M.)- -p2X.T.X.=p(1- -p)diag(X.T.X.).
Γ=diag(X.T.X.)1/.2Γw2=wT.diag(X.T.X.)w

jld
quelle