Ich versuche, die Matrixnotation zu verstehen und mit Vektoren und Matrizen zu arbeiten.
Im Moment möchte ich verstehen, wie der Vektor der Koeffizientenschätzungen in der multiplen Regression berechnet wird.
Die Grundgleichung scheint zu sein
Wie würde ich hier nach einem Vektor suchen?
Edit : Warte, ich stecke fest. Ich bin jetzt hier und weiß nicht, wie ich weitermachen soll:
Mit für alles, was der bin:i
Kannst du mich in die richtige Richtung weisen?
regression
Alexander Engelhardt
quelle
quelle
smallmatrix
versuchte also nicht zu bearbeiten, da die übliche Lösung, die Formel in mehrere Zeilen zu brechen, hier nicht funktioniert hätte.Antworten:
Wir haben
Dies kann gezeigt werden, indem die Gleichung explizit mit Komponenten geschrieben wird. Schreiben Sie beispielsweise anstelle von . Nehmen Sie dann Derivate in Bezug auf , , ..., und stapeln Sie alles, um die Antwort zu erhalten. Für eine schnelle und einfache Darstellung können Sie mit . β β 1 β 2 β p p = 2( β1, … , Βp)' β β1 β2 βp p = 2
Mit der Erfahrung entwickelt man allgemeine Regeln, von denen einige zB in diesem Dokument angegeben sind .
Bearbeiten, um den hinzugefügten Teil der Frage zu führen
Mit haben wirp = 2
Die Ableitung in Bezug auf istβ1
Ähnlich ist die Ableitung in Bezug auf istβ2
Daher ist die Ableitung in Bezug istβ= ( β1, β2)'
Beachten Sie nun, dass Sie den letzten Ausdruck als neu schreiben können
Natürlich wird bei einem größeren alles auf die gleiche Weise gemacht .p
quelle
Sie können auch Formeln aus dem Matrix-Kochbuch verwenden . Wir haben
Nehmen Sie nun Ableitungen von jedem Term. Vielleicht möchten Sie feststellen, dass . Die Ableitung des Terms in Bezug auf ist Null. Die verbleibende Laufzeity ' y ββ'X.'y= y'X.β y'y β
ist von Form der Funktion
in Formel (88) im Buch auf Seite 11 mit , und . Die Ableitung ist in der Formel (89) angegeben:A = X ' X b = - 2 X ' yx = β A = X.'X. b = - 2 X.'y
so
Da nun wir die gewünschte Lösung:( X.'X.)'= X.'X.
quelle
Hier ist eine Technik zum Minimieren der Summe der Quadrate in der Regression, die tatsächlich Anwendungen auf allgemeinere Einstellungen hat und die ich nützlich finde.
Versuchen wir, die Vektormatrixrechnung insgesamt zu vermeiden.
Angenommen, wir wobei , und . Der Einfachheit halber nehmen wir an, dass und .Y ∈ R n X ∈ R n × p & bgr; ∈ R p p ≤ n r a n k ( X ) = p
Für jedes wir E=‖y-X β +X β -Xβ‖ 2 2 =‖y-Xβ^∈ R.p
Wenn wir einen Vektor so auswählen (finden!) Können, dass der letzte Term auf der rechten Seite für jede Null ist , dann wären wir fertig, da dies bedeuten würde, dass .β^ β MindestβE.≥ ∥ y - X β^∥22
Aber für alle genau dann, wenn und Diese letzte Gleichung ist genau dann wahr, wenn . So wird berechnet, indem minimiert .(β- β^)T.X.T.( y - X β^) = 0 β X.T.( y - X β^) = 0 X.T.X β^= X.T.y E. β^= ( X.T.X )- 1X.T.y
Während dies wie ein "Trick" erscheint, um Kalkül zu vermeiden, hat es tatsächlich eine breitere Anwendung und es gibt einige interessante Geometrien im Spiel.
Ein Beispiel, bei dem diese Technik eine Ableitung viel einfacher macht als jeder Matrix-Vektor-Kalkül-Ansatz, ist die Verallgemeinerung auf den Matrixfall. Lassen Sie , und . Angenommen, wir möchten über die gesamte Matrix von Parametern . Hier ist eine Kovarianzmatrix.Y ∈ R.n × p X ∈ R.n × q B ∈ R.q× p
Ein völlig analoger Ansatz zu dem stellt schnell fest, dass das Minimum von erreicht wird, indem Das heißt, in einer Regressionseinstellung, in der die Antwort ein Vektor mit Kovarianz und die Beobachtungen unabhängig sind, wird die OLS-Schätzung erreicht, indem separate lineare Regressionen für die Komponenten der Antwort durchgeführt werden.E.
quelle
Eine Möglichkeit, die Ihnen beim Verständnis helfen kann, besteht darin, keine Matrixalgebra zu verwenden und in Bezug auf jede Komponente zu differenzieren und die Ergebnisse dann in einem Spaltenvektor zu "speichern". Also haben wir:
Jetzt haben Sie dieser Gleichungen, eine für jede Beta. Dies ist eine einfache Anwendung der Kettenregel:p
Jetzt können wir die Summe in der Klammer als neu schreiben So erhalten Sie:∑pj = 1X.i jβj= xT.ichβ
Jetzt haben wir dieser Gleichungen und werden sie in einem Spaltenvektor "stapeln". Beachten Sie, dass der einzige Term ist, der von abhängt. Wir können diesen also in den Vektor stapeln und erhalten:p X.ich k k xich
Jetzt können wir die Beta außerhalb der Summe nehmen (müssen aber auf RHS der Summe bleiben) und dann die Umkehrung nehmen:
quelle