Randomisierte Trace-Technik

10

Ich habe die folgende randomisierte Trace-Technik in M. Seeger kennengelernt : „Aktualisierungen mit niedrigem Rang für die Cholesky-Zerlegung“, University of California in Berkeley, Tech. Rep, 2007.

tr(A)=E[xTAx]

Dabei ist .xN(0,I)

Als Person ohne tiefgreifenden mathematischen Hintergrund frage ich mich, wie diese Gleichheit erreicht werden kann. Wie können wir außerdem beispielsweise geometrisch interpretieren ? Wo soll ich suchen, um zu verstehen, was es bedeutet, das innere Produkt eines Vektors und seinen Bereichswert zu nehmen? Warum ist der Mittelwert gleich der Summe der Eigenwerte? Welche praktische Bedeutung hat sie neben der theoretischen Eigenschaft?xTAx

Ich habe ein MATLAB-Code-Snippet geschrieben, um zu sehen, ob es funktioniert

#% tr(A) == E[x'Ax], x ~ N(0,I)

N = 100000;
n = 3;
x = randn([n N]); % samples
A = magic(n); % any n by n matrix A

y = zeros(1, N);
for i = 1:N
    y(i) = x(:,i)' * A * x(:,i);
end
mean(y)
trace(A)

Die Kurve ist 15, wobei die Annäherung 14.9696 ist.

Petrichor
quelle

Antworten:

12

NB Das angegebene Ergebnis hängt nicht von der Annahme der Normalität oder sogar der Unabhängigkeit der Koordinaten von . Es hängt auch nicht davon ab , ob positiv bestimmt ist. Nehmen wir in der Tat nur an, dass die Koordinaten von Mittelwert Null und die Varianz Eins haben und nicht korreliert sind (aber nicht unbedingt unabhängig). das heißt, , und für alle .xAxExi=0Exi2=1Exixj=0ij

Ansatz mit bloßen Händen

Sei eine beliebige Matrix. Per Definition . Dann ist und so sind wir fertig.A=(aij)n×ntr(A)=i=1naii

tr(A)=i=1naii=i=1naiiExi2=i=1naiiExi2+ijaijExixj,

Falls dies nicht ganz offensichtlich ist, beachten Sie, dass die rechte Seite aufgrund der Linearität der Erwartung

i=1naiiExi2+ijaijExixj=E(i=1nj=1naijxixj)=E(xTAx)

Beweis über Trace-Eigenschaften

Es gibt eine andere Möglichkeit, dies zu schreiben, die suggestiv ist, sich jedoch konzeptionell auf etwas fortgeschrittenere Tools stützt. Wir brauchen, dass sowohl die Erwartung als auch der Trace-Operator linear sind und dass für zwei beliebige Matrizen und mit geeigneten Dimensionen . Dann haben wir , da und so ABtr(AB)=tr(BA)xTAx=tr(xTAx)

E(xTAx)=E(tr(xTAx))=E(tr(AxxT))=tr(E(AxxT))=tr(AExxT),
E(xTAx)=tr(AI)=tr(A).

Quadratische Formen, innere Produkte und Ellipsoide

Wenn positiv definitiv ist, kann ein inneres Produkt auf über und definiert ein Ellipsoid in das am Ursprung zentriert ist.ARnx,yA=xTAyEA={x:xTAx=1}Rn

Kardinal
quelle
Es ist ziemlich verwirrend, fetten und mormalcase Variablen zu folgen . Ich denke, das sind skalare Werte. Ich verstehe klarer, wenn ich von der Erwartungsform ausgehe, wie Sie es im letzten Teil getan haben. Also ist mir jetzt sehr klar. xixi
E[(xTAx)]=E[(i=1nj=1naijxixj)]=i=1naiiE[xi2]+ijaijE[xixj]
Petrichor
xi ist die te Koordinate des Vektors . Die anderen sind einfach Tippfehler. Das tut mir leid. Ich habe versucht, Ihrer Notation so genau wie möglich zu folgen. Normalerweise würde ich mit als Koordinaten der Zufallsvariablen . Aber ich wollte nicht (möglicherweise) verwirren. ixX=(Xi)XiX
Kardinal
Tatsächlich ist es innerhalb der Antwort konsistent. Ich wollte nur sicherstellen, dass die tiefgestellten Variablen die Elemente des Vektors sind. Jetzt ist es klar.
Petrichor
Nun, es ist (jetzt) ​​konsistent, weil ich es bearbeitet habe! :) Danke, dass du auf die Tippfehler hingewiesen hast. Ich werde versuchen, in den nächsten Tagen irgendwann etwas mehr über die Geometrie hinzuzufügen.
Kardinal
3

Wenn symmetrisch positiv definit ist, dann ist mit orthonormal und diagonal mit Eigenwerten auf der Diagonale. Da eine Identitätskovarianzmatrix hat und orthonormal ist, hat auch eine Identitätskovarianzmatrix. Wenn wir also schreiben , haben wir . Da der Erwartungsoperator linear ist, ist dies nur . Jedes ist ein Chi-Quadrat mit 1 Freiheitsgrad, hat also den erwarteten Wert 1. Daher ist die Erwartung die Summe der Eigenwerte.AA=UtDUUDxUUxy=UxE[xTAx]=E[ytDy]i=0nλiE[yi2]yi

Geometrisch entsprechen symmetrische positive definitive Matrizen 1-1 Ellipsoiden - gegeben durch die Gleichung . Die Längen der Ellipsoidachsen sind durch wobei die Eigenwerte sind.AxTAx=11/λiλi

Wenn wobei die Kovarianzmatrix ist, ist dies das Quadrat der Mahalanobis-Distanz .A=C1C

aprokopiw
quelle
1

Lassen Sie mich auf den Teil "Was ist seine praktische Bedeutung?" Der Frage eingehen. Es gibt viele Situationen, in denen wir Matrixvektorprodukte effizient berechnen können, selbst wenn wir keine gespeicherte Kopie der Matrix oder nicht genügend Speicher, um eine Kopie von zu speichern . Zum Beispiel könnte eine Größe von 100.000 mal 100.000 haben und vollständig dicht sein - es würde 80 Gigabyte RAM erfordern, um eine solche Matrix im Gleitkommaformat mit doppelter Genauigkeit zu speichern. AxAAA

Zufällige Algorithmen wie dieser können verwendet werden, um die Spur von oder (unter Verwendung eines verwandten Algorithmus) einzelne diagonale Einträge von zu schätzen . AA

Einige Anwendungen dieser Technik auf große geophysikalische Inversionsprobleme werden in diskutiert

JK MacCarthy, B. Borchers und RC Aster. Effiziente stochastische Schätzung der Diagonale der Modellauflösungsmatrix und verallgemeinerte Kreuzvalidierung für große geophysikalische inverse Probleme. Journal of Geophysical Research, 116, B10304, 2011. Link zum Artikel

Brian Borchers
quelle
+1 Ich habe mich in diesem Semester mit randomisierten Algorithmen getroffen und war fasziniert von ihnen. Lassen Sie mich noch einen schönen Artikel hinzufügen. Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp, "Struktur mit Zufälligkeit finden: Probabilistische Algorithmen zur Konstruktion von ungefähren Matrixzerlegungen", 2010, arxiv.org/abs/0909.4061
petrichor