In Andrew Ngs maschinellem Lernkurs verwendet er diese Formel:
und er macht einen schnellen Beweis, der unten gezeigt wird:
Der Beweis scheint ohne Kommentare sehr dicht zu sein und ich habe Probleme, ihn zu verstehen. Was genau ist von der zweiten bis zur dritten Gleichheit passiert?
machine-learning
matrix
derivative
MoneyBall
quelle
quelle
Antworten:
Es gibt einen subtilen, aber starken Missbrauch der Notation, der viele der Schritte verwirrend macht. Gehen wir dieses Problem an, indem wir zu den Definitionen von Matrixmultiplikation, Transposition, Spuren und Ableitungen zurückkehren. Wenn Sie die Erklärungen weglassen möchten, gehen Sie einfach zum letzten Abschnitt "Alles zusammenfügen", um zu sehen, wie kurz und einfach eine strenge Demonstration sein kann.
Notation und Konzepte
Maße
Damit der Ausdruck Sinn macht, wenn A eine m × n- Matrix ist, muss B eine (quadratische) n × n- Matrix sein und C muss eine m × p- Matrix sein, woher das Produkt eine m × p- Matrix ist . Um die Spur zu nehmen (die die Summe der diagonalen Elemente ist, ist Tr ( X ) = ∑ i X i i ), dann ist p = m , was C ergibtABA′C A m×n B n×n C m×p m×p Tr(X)=∑iXii p=m C eine quadratische Matrix.
Derivate
Die Notation " " scheint sich auf die Ableitung eines Ausdrucks in Bezug auf A zu beziehen . Normalerweise ist die Differenzierung eine Operation, die für die Funktionen f : R N → R M ausgeführt wird . Die Ableitung an einer Stelle x ∈ R N für einen linearen Transformation D f ( x ) : R N → R M . Bei Auswahl der Basen für diese Vektorräume kann eine solche Transformation als M × N- Matrix dargestellt werden. Das ist hier nicht der Fall!∇A A f:RN→RM x∈RN Df(x):RN→RM M×N
Matrizen als Vektoren
Stattdessen wird als ein Element von R m n betrachtet : Seine Koeffizienten werden (normalerweise zeilenweise oder spaltenweise) in einen Vektor der Länge N = m n abgewickelt . Die Funktion f ( A ) = Tr ( A B A ' C ) hat reelle Werte, woraus M = 1 ist . Folglich muss D f ( x ) eine 1 × m n -Matrix sein: Es ist ein Zeilenvektor, der eine lineare Form darstelltA Rmn N=mn f(A)=Tr(ABA′C) M=1 Df(x) 1×mn . Die Berechnungen in der Frage verwenden jedoch eineandereArt der Darstellung linearer Formen: Ihre Koeffizienten werden inm×nMatrizen zurückgerollt.Rmn m×n
Die Spur als lineare Form
Sei eine konstante m × n- Matrix. Dann wird durch Definition der Spur und der Matrixmultiplikationω m×n
Dies drückt die allgemeinste mögliche lineare Kombination der Koeffizienten von : ω ist eine Matrix mit der gleichen Form wie A und ihr Koeffizient in Zeile i und Spalte j ist der Koeffizient von A i j in der linearen Kombination. Da ω i j A i j = A i j ω i j ist , können die Rollen von ω und A vertauscht werden, was den äquivalenten Ausdruck ergibtA ω A i j Aij ωijAij=Aijωij ω A
Indem wir eine konstante Matrix mit einer der Funktionen A → Tr ( A ω ' ) oder A → Tr ( ω A ' ) identifizieren , können wir lineare Formen im Raum von m × n Matrizen als m × n Matrizen darstellen. (Verwechseln Sie diese nicht mit Ableitungen von Funktionen von R n bis R m !)ω A→Tr(Aω′) A→Tr(ωA′) m×n m×n Rn Rm
Berechnung eines Derivats
Die Definition
Ableitungen vieler der in der Statistik vorkommenden Matrixfunktionen lassen sich am einfachsten und zuverlässigsten aus der Definition berechnen: Sie müssen nicht wirklich auf komplizierte Regeln der Matrixdifferenzierung zurückgreifen. Diese Definition besagt, dass genau dann bei x differenzierbar ist, wenn es eine lineare Transformation L gibt, so dassf x L
für beliebig kleine Verschiebungen . Die Little-Oh-Notation bedeutet, dass der Fehler, der bei der Approximation der Differenz f ( x + h ) - f ( x ) durch L h gemacht wird, willkürlich kleiner ist als die Größe von h für ausreichend kleines h . Insbesondere können wir Fehler, die proportional zu | sind , immer ignorieren h | 2 .h∈RN f(x+h)−f(x) Lh h h |h|2
Die Berechnung
Wenden wir die Definition auf die betreffende Funktion an. Multiplizieren, Erweitern und Ignorieren des Begriffs mit einem Produkt von zwei darin,h
Alles zusammenfügen
Hier ist also eine Komplettlösung.
Da dies nur etwa die Hälfte der Arbeit in Anspruch nimmt und nur die grundlegendsten Manipulationen von Matrizen und Spuren (Multiplikation und Transposition) umfasst, muss dies als einfachere - und wohl übersichtlichere - Demonstration des Ergebnisses angesehen werden. Wenn Sie die einzelnen Schritte in der ursprünglichen Demonstration wirklich verstehen möchten, ist es möglicherweise hilfreich, sie mit den hier gezeigten Berechnungen zu vergleichen.
quelle