Analytische Lösung für lineare Regressionskoeffizientenschätzungen

9

Ich versuche, die Matrixnotation zu verstehen und mit Vektoren und Matrizen zu arbeiten.

Im Moment möchte ich verstehen, wie der Vektor der Koeffizientenschätzungen in der multiplen Regression berechnet wird.β^

Die Grundgleichung scheint zu sein

ddβ(yXβ)(yXβ)=0.

Wie würde ich hier nach einem Vektor β suchen?

Edit : Warte, ich stecke fest. Ich bin jetzt hier und weiß nicht, wie ich weitermachen soll:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Mit für alles, was der bin:ixi0=1i

ddβi=1n(yik=0pxikβk)2

Kannst du mich in die richtige Richtung weisen?

Alexander Engelhardt
quelle
@GaBorgulya, danke für die Bearbeitung, wusste nichts davon, smallmatrixversuchte also nicht zu bearbeiten, da die übliche Lösung, die Formel in mehrere Zeilen zu brechen, hier nicht funktioniert hätte.
mpiktas

Antworten:

12

Wir haben

ddβ(yXβ)(yXβ)=2X(yXβ) .

Dies kann gezeigt werden, indem die Gleichung explizit mit Komponenten geschrieben wird. Schreiben Sie beispielsweise anstelle von . Nehmen Sie dann Derivate in Bezug auf , , ..., und stapeln Sie alles, um die Antwort zu erhalten. Für eine schnelle und einfache Darstellung können Sie mit . β β 1 β 2 β p p = 2(β1,,βp)ββ1β2βpp=2

Mit der Erfahrung entwickelt man allgemeine Regeln, von denen einige zB in diesem Dokument angegeben sind .

Bearbeiten, um den hinzugefügten Teil der Frage zu führen

Mit haben wirp=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

Die Ableitung in Bezug auf istβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Ähnlich ist die Ableitung in Bezug auf istβ2

- -2x12(y1- -x11β1- -x12β2)- -2x22(y2- -x21β1- -x22β2)

Daher ist die Ableitung in Bezug istβ=(β1,β2)'

(- -2x11(y1- -x11β1- -x12β2)- -2x21(y2- -x21β1- -x22β2)- -2x12(y1- -x11β1- -x12β2)- -2x22(y2- -x21β1- -x22β2))

Beachten Sie nun, dass Sie den letzten Ausdruck als neu schreiben können

- -2(x11x21x12x22)(y1- -x11β1- -x12β2y2- -x21β1- -x22β2)=- -2X.'(y- -X.β)

Natürlich wird bei einem größeren alles auf die gleiche Weise gemacht .p

ocram
quelle
Genial, ich habe genau diese Art von PDF gesucht. Danke vielmals!
Alexander Engelhardt
Oh, ich dachte, ich könnte es jetzt selbst tun, aber ich kann nicht. Können Sie mir sagen, ob meine Schritte richtig sind oder ob ich "einen anderen Weg" gehen sollte, um dies zu lösen?
Alexander Engelhardt
@Alexx Hardt: Meine erste Gleichung in der Bearbeitung ist dieselbe wie Ihre allerletzte Gleichung in dem speziellen Fall, in dem p = 2. Sie können also meine Berechnungen für die Komponenten 3, 4, ..., p nachahmen.
Ocram
Nochmals vielen Dank :) Ich denke, ich werde tatsächlich alle drei Vorschläge verwenden. Ich erstelle eine PDF-Datei, die die Matrix-Algebra für grundlegende Statistiken erklärt und zusammenfasst, weil ich sie irgendwie nie lernen wollte, als ich sie in meinen Klassen gelernt habe. Ich hoffe, es auf drei verschiedene Arten zu lösen, wird mir helfen, es besser zu verstehen.
Alexander Engelhardt
Oh, aber das ist für p = 2 und n = 2, richtig? Ich werde es mit n = 3 aufschreiben, denke ich.
Alexander Engelhardt
13

Sie können auch Formeln aus dem Matrix-Kochbuch verwenden . Wir haben

(y- -X.β)'(y- -X.β)=y'y- -β'X.'y- -y'X.β+β'X.'X.β

Nehmen Sie nun Ableitungen von jedem Term. Vielleicht möchten Sie feststellen, dass . Die Ableitung des Terms in Bezug auf ist Null. Die verbleibende Laufzeity ' y ββ'X.'y=y'X.βy'yβ

β'X.'X.β- -2y'X.β

ist von Form der Funktion

f(x)=x'EINx+b'x,

in Formel (88) im Buch auf Seite 11 mit , und . Die Ableitung ist in der Formel (89) angegeben:A = X ' X b = - 2 X ' yx=βEIN=X.'X.b=- -2X.'y

fx=(EIN+EIN')x+b

so

β(y- -X.β)'(y- -X.β)=(X.'X.+(X.'X.)')β- -2X.'y

Da nun wir die gewünschte Lösung:(X.'X.)'=X.'X.

X.'X.β=X.'y
mpiktas
quelle
+1 mpiktas: Ihre Lösung ist genialer als meine und ich denke, sie sollte in komplexeren praktischen Situationen verwendet werden.
Ocram
1
@ocram, danke. Ich würde es nicht genial nennen, es ist eine Standardanwendung bestehender Formeln. Sie müssen nur die Formeln kennen :)
mpiktas
8

Hier ist eine Technik zum Minimieren der Summe der Quadrate in der Regression, die tatsächlich Anwendungen auf allgemeinere Einstellungen hat und die ich nützlich finde.

Versuchen wir, die Vektormatrixrechnung insgesamt zu vermeiden.

Angenommen, wir wobei , und . Der Einfachheit halber nehmen wir an, dass und .YR n XR n × p & bgr; R p p n r a n k ( X ) = p

E.=(y- -X.β)T.(y- -X.β)=y- -X.β22,
yR.nX.R.n×pβR.ppnreinnk(X.)=p

Für jedes wir E=y-X β +X β -Xβ 2 2 =y-Xβ^R.p

E.=y- -X.β^+X.β^- -X.β22=y- -X.β^22+X.(β- -β^)22- -2(β- -β^)T.X.T.(y- -X.β^).

Wenn wir einen Vektor so auswählen (finden!) Können, dass der letzte Term auf der rechten Seite für jede Null ist , dann wären wir fertig, da dies bedeuten würde, dass .β^ βMindestβE.y- -X.β^22

Aber für alle genau dann, wenn und Diese letzte Gleichung ist genau dann wahr, wenn . So wird berechnet, indem minimiert .(β- -β^)T.X.T.(y- -X.β^)=0βX.T.(y- -X.β^)=0X.T.X.β^=X.T.yE.β^=(X.T.X.)- -1X.T.y


Während dies wie ein "Trick" erscheint, um Kalkül zu vermeiden, hat es tatsächlich eine breitere Anwendung und es gibt einige interessante Geometrien im Spiel.

Ein Beispiel, bei dem diese Technik eine Ableitung viel einfacher macht als jeder Matrix-Vektor-Kalkül-Ansatz, ist die Verallgemeinerung auf den Matrixfall. Lassen Sie , und . Angenommen, wir möchten über die gesamte Matrix von Parametern . Hier ist eine Kovarianzmatrix.Y.R.n×pX.R.n×qB.R.q×p

E.=tr((Y.- -X.B.)Σ- -1(Y.- -X.B.)T.)
B.Σ

Ein völlig analoger Ansatz zu dem stellt schnell fest, dass das Minimum von erreicht wird, indem Das heißt, in einer Regressionseinstellung, in der die Antwort ein Vektor mit Kovarianz und die Beobachtungen unabhängig sind, wird die OLS-Schätzung erreicht, indem separate lineare Regressionen für die Komponenten der Antwort durchgeführt werden.E.

B.^=(X.T.X.)- -1X.T.Y..
Σp
Kardinal
quelle
Glücklicherweise erlauben die Forumregeln das Hinzufügen von +1 zu jeder Antwort. Danke für die Ausbildung, Leute!
DWin
@ DWin, wolltest du das unter den Kommentaren zur Frage posten?
Kardinal
Ich denke ich könnte haben. Ich hatte die Frage nacheinander durchgesehen und dann alle Antworten (nachdem die Verarbeitung des MathML aufgehört hatte zu ruckeln) und fand jede der Antworten informativ. Ich habe gerade meinen Kommentar zu Ihrem veröffentlicht, weil ich dort aufgehört habe zu lesen.
DWin
1
@ DWin, ja, das Rendering ist ein bisschen funky. Ich dachte, Sie hätten den Kommentar möglicherweise für einen anderen Beitrag vorgesehen, da dieser keine Stimmen (nach oben oder unten) hat und der Kommentar daher fehl am Platz zu sein schien. Prost.
Kardinal
1
@ Kardinal +1, nützlicher Trick. Diese Frage erwies sich als ziemlich gute Referenz.
mpiktas
6

Eine Möglichkeit, die Ihnen beim Verständnis helfen kann, besteht darin, keine Matrixalgebra zu verwenden und in Bezug auf jede Komponente zu differenzieren und die Ergebnisse dann in einem Spaltenvektor zu "speichern". Also haben wir:

βkich=1N.(Y.ich- -j=1pX.ichjβj)2=0

Jetzt haben Sie dieser Gleichungen, eine für jede Beta. Dies ist eine einfache Anwendung der Kettenregel:p

ich=1N.2(Y.ich- -j=1pX.ichjβj)1(βk[Y.ich- -j=1pX.ichjβj]])=0
- -2ich=1N.X.ichk(Y.ich- -j=1pX.ichjβj)=0

Jetzt können wir die Summe in der Klammer als neu schreiben So erhalten Sie:j=1pX.ichjβj=xichT.β

ich=1N.X.ichkY.ich- -ich=1N.X.ichkxichT.β=0

Jetzt haben wir dieser Gleichungen und werden sie in einem Spaltenvektor "stapeln". Beachten Sie, dass der einzige Term ist, der von abhängt. Wir können diesen also in den Vektor stapeln und erhalten:pX.ichkkxich

ich=1N.xichY.ich=ich=1N.xichxichT.β

Jetzt können wir die Beta außerhalb der Summe nehmen (müssen aber auf RHS der Summe bleiben) und dann die Umkehrung nehmen:

(ich=1N.xichxichT.)- -1ich=1N.xichY.ich=β
Wahrscheinlichkeitslogik
quelle