Was rechtfertigt diese Berechnung der Ableitung einer Matrixfunktion?

Es gibt einen subtilen, aber starken Missbrauch der Notation, der viele der Schritte verwirrend macht. Gehen wir dieses Problem an, indem wir zu den Definitionen von Matrixmultiplikation, Transposition, Spuren und Ableitungen zurückkehren. Wenn Sie die Erklärungen weglassen möchten, gehen Sie einfach zum letzten Abschnitt "Alles zusammenfügen", um zu sehen, wie kurz und einfach eine strenge Demonstration sein kann.

Notation und Konzepte

Maße

Damit der Ausdruck Sinn macht, wenn eine Matrix ist, muss eine (quadratische) Matrix sein und muss eine Matrix sein, woher das Produkt eine Matrix ist . Um die Spur zu nehmen (die die Summe der diagonalen Elemente ist, ist ), dann ist , was ergibt $ABA^\prime C$ $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times p$ $m\times p$ $\operatorname{Tr}(X)=\sum_i X_{ii}$ $p=m$ $C$ eine quadratische Matrix.

Derivate

Die Notation " " scheint sich auf die Ableitung eines Ausdrucks in Bezug auf zu beziehen . Normalerweise ist die Differenzierung eine Operation, die für die Funktionen . Die Ableitung an einer Stelle für einen linearen Transformation . Bei Auswahl der Basen für diese Vektorräume kann eine solche Transformation als Matrix dargestellt werden. Das ist hier nicht der Fall! $\nabla_A$ $A$ $f:\mathbb{R}^N\to\mathbb{R}^M$ $x\in \mathbb{R}^N$ $Df(x):\mathbb{R}^N\to\mathbb{R}^M$ $M\times N$

Matrizen als Vektoren

Stattdessen wird als ein Element von : Seine Koeffizienten werden (normalerweise zeilenweise oder spaltenweise) in einen Vektor der Länge . Die Funktion hat reelle Werte, woraus . Folglich muss eine -Matrix sein: Es ist ein Zeilenvektor, der eine lineare Form darstellt $A$ $\mathbb{R}^{mn}$ $N=mn$ $f(A)=\operatorname{Tr}(ABA^\prime C)$ $M=1$ $Df(x)$ $1\times mn$ . Die Berechnungen in der Frage verwenden jedoch eineandereArt der Darstellung linearer Formen: Ihre Koeffizienten werden inMatrizen zurückgerollt. $\mathbb{R}^{mn}$ $m\times n$

Die Spur als lineare Form

Sei eine konstante Matrix. Dann wird durch Definition der Spur und der Matrixmultiplikation $\omega$ $m\times n$

\begin{aligned} Tr (A ω^{'}) & = \sum_{i = 1}^{m} (A ω^{'})_{i i} = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i j} (ω^{'})_{j i}) = \sum_{i, j} ω_{i j} A_{i j} \end{aligned}

$\eqalign{ \operatorname{Tr}(A\omega^\prime) &= \sum_{i=1}^m(A\omega^\prime)_{ii} = \sum_{i=1}^m\left(\sum_{j=1}^n A_{ij}(\omega^\prime)_{ji}\right) = \sum_{i,j} \omega_{ij}A_{ij} }$

Dies drückt die allgemeinste mögliche lineare Kombination der Koeffizienten von : ist eine Matrix mit der gleichen Form wie und ihr Koeffizient in Zeile und Spalte ist der Koeffizient von in der linearen Kombination. Da , können die Rollen von und vertauscht werden, was den äquivalenten Ausdruck ergibt $A$ $\omega$ $A$ $i$ $j$ $A_{ij}$ $\omega_{ij}A_{ij}=A_{ij}\omega_{ij}$ $\omega$ $A$

\begin{matrix} (1) & \sum_{i, j} ω_{i j} A_{i j} = Tr (A ω^{'}) = Tr (ω A^{'}) . \end{matrix}

$\sum_{i,j} \omega_{ij}A_{ij} = \operatorname{Tr}(A\omega^\prime) = \operatorname{Tr}(\omega A^\prime).\tag{1}$

Indem wir eine konstante Matrix mit einer der Funktionen oder identifizieren , können wir lineare Formen im Raum von Matrizen als Matrizen darstellen. (Verwechseln Sie diese nicht mit Ableitungen von Funktionen von bis !) $\omega$ $A\to \operatorname{Tr}(A \omega^\prime)$ $A\to \operatorname{Tr}(\omega A^\prime)$ $m\times n$ $m\times n$ $\mathbb{R}^n$ $\mathbb{R}^m$

Berechnung eines Derivats

Die Definition

Ableitungen vieler der in der Statistik vorkommenden Matrixfunktionen lassen sich am einfachsten und zuverlässigsten aus der Definition berechnen: Sie müssen nicht wirklich auf komplizierte Regeln der Matrixdifferenzierung zurückgreifen. Diese Definition besagt, dass genau dann bei differenzierbar ist, wenn es eine lineare Transformation so dass $f$ $x$ $L$

f (x + h) - f (x) = L h + o (| h |)

$f(x+h) - f(x) = Lh + o(|h|)$

für beliebig kleine Verschiebungen . Die Little-Oh-Notation bedeutet, dass der Fehler, der bei der Approximation der Differenz durch wird, willkürlich kleiner ist als die Größe von für ausreichend kleines . Insbesondere können wir Fehler, die proportional zu sind , immer ignorieren . $h\in \mathbb{R}^N$ $f(x+h)-f(x)$ $Lh$ $h$ $h$ $|h|^2$

Die Berechnung

Wenden wir die Definition auf die betreffende Funktion an. Multiplizieren, Erweitern und Ignorieren des Begriffs mit einem Produkt von zwei darin, $h$

\begin{matrix} (2) & \begin{aligned} f (A + h) - f (A) & = Tr ((A + h) B (A + h)^{'} C) - Tr (A B A^{'} C) \\ = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) . \end{aligned} \end{matrix}

$\eqalign{ f(A+h)-f(A) &= \operatorname{Tr}((A+h)B(A+h)^\prime C) - \operatorname{Tr}(ABA^\prime C) \\ &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|).\tag{2} }$

$L=Df(A)$ $(1)$ $\omega = BA^\prime C$ $\operatorname{Tr}(Xh^\prime C)$ $X=AB$

\begin{matrix} (3) & Tr (X h^{'} C) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \sum_{k = 1}^{m} X_{i j} h_{k j} C_{k i} = \sum_{i, j, k} h_{k j} (C_{k i} X_{i j}) = Tr ((C X) h^{'}) . \end{matrix}

$\operatorname{Tr}(Xh^\prime C) = \sum_{i=1}^m\sum_{j=1}^n\sum_{k=1}^m X_{ij} h_{kj} C_{ki} = \sum_{i,j,k}h_{kj} \left(C_{ki}X_{ij}\right) =\operatorname{Tr}((CX)h^\prime).\tag{3}$

$X=AB$ $(2)$

f (A + h) - f (A) = Tr (h B A^{'} C) + Tr (C A B h^{'}) + o (| h |) .

$f(A+h) - f(A) = \operatorname{Tr}(h\, BA^\prime C\,) + \operatorname{Tr}(CAB\, h^\prime\,)+o(|h|).$

$f$ $A$

D f (A) = (B A^{'} C)^{'} + C A B = C^{'} A B^{'} + C A B,

$Df(A) = (BA^\prime C)^\prime + CAB = C^\prime A B^\prime + CAB,$

ω

$\omega$

(1)

$(1)$

Alles zusammenfügen

Hier ist also eine Komplettlösung.

$A$ $m\times n$ $B$ $n\times n$ $C$ $m\times m$ $f(A) = \operatorname{Tr}(ABA^\prime C)$ $h$ $m\times n$ $(3)$
$\begin{aligned} f (A + h) - f (A) & = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) \\ = Tr (h (C^{'} A B^{'})^{'} + (C A B) h^{'}) + o (| h |), \end{aligned}$ $\eqalign{f(A+h) - f(A) &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|) \\ &=\operatorname{Tr}(h(C^\prime A B^\prime)^\prime + (CAB)h^\prime) + o(|h|),}$ $f$ $C^{'} A B^{'} + C A B .$ $C^\prime A B^\prime + CAB.$

Da dies nur etwa die Hälfte der Arbeit in Anspruch nimmt und nur die grundlegendsten Manipulationen von Matrizen und Spuren (Multiplikation und Transposition) umfasst, muss dies als einfachere - und wohl übersichtlichere - Demonstration des Ergebnisses angesehen werden. Wenn Sie die einzelnen Schritte in der ursprünglichen Demonstration wirklich verstehen möchten, ist es möglicherweise hilfreich, sie mit den hier gezeigten Berechnungen zu vergleichen.

whuber
quelle

tr (A B C) = tr (C A B)

$\mbox{tr}(ABC)=\mbox{tr}(CAB)$

(1)

$(1)$

Mat (m, n)

$\operatorname{Mat}(m,n)$

m \times n

$m\times n$

f : Mat (m, n) \to R

$f:\operatorname{Mat}(m,n)\to\mathbb{R}$

A

$A$

ω

$\omega$

D f (A)

$Df(A)$

X :\to Tr (X ω^{'})

$X:\to\operatorname{Tr}(X\omega^{\,\prime})$

@Amoeba Das ist genau richtig - es rechtfertigt die Behauptungen in der ersten Zeile dieser Antwort. Deshalb habe ich "in diesem Sinne" geschrieben und später in der Zusammenfassung den Ausdruck "bestimmt durch" anstelle von "gleich" verwendet. Ich werde nicht leugnen, dass die Erklärung herausfordernd war; Ich werde darüber nachdenken, wie ich es klären kann, und ich freue mich über all Ihre Kommentare und Vorschläge.

whuber

@ user10324 Das meiste, was ich auf dieser Site poste, ist meine eigene Formulierung - ich konsultiere selten Quellen (und dokumentiere sie, wenn ich das tue). Diese Beiträge sind Destillationen aus dem Lesen vieler Bücher und Zeitungen. Einige der besten Bücher waren nicht diejenigen, die vollständig mathematisch streng sind, sondern die zugrunde liegenden Ideen wunderschön erklärt und illustriert haben. Die ersten, die mir in der Reihenfolge ihrer Raffinesse in den Sinn kommen, sind Freedman, Pisani & Purves, Statistics (jede Ausgabe); Jack Kiefer, Einführung in die statistische Inferenz ; und Steven Shreve, Stochastic Calculus for Finance II .