Ableiten der bedingten Verteilungen einer multivariaten Normalverteilung

114

Wir haben einen multivariaten normalen Vektor . Partitionieren Sie und in YN(μ,Σ)μY

μ=[μ1μ2]
Y=[y1y2]

mit einer ähnlichen Partition von in Dann , die bedingte Verteilung der ersten Partition bei der zweiten, ist mit mittlerer und Kovarianzmatrix Σ

[Σ11Σ12Σ21Σ22]
(y1|y2=a)N(μ¯,Σ¯)
μ¯=μ1+Σ12Σ221(aμ2)
Σ¯=Σ11Σ12Σ221Σ21

Eigentlich werden diese Ergebnisse auch in Wikipedia bereitgestellt, aber ich habe keine Ahnung, wie die und abgeleitet werden. Diese Ergebnisse sind von entscheidender Bedeutung, da sie eine wichtige statistische Formel für die Ableitung von Kalman-Filtern darstellen . Würde mir jemand Ableitungsschritte zum Ableiten von und ? Vielen Dank!μ¯Σ¯μ¯Σ¯

Fliegende Schweine
quelle
24
Die Idee ist, die Definition der bedingten Dichte . Sie wissen, dass das Gelenk eine bivariate Normalität ist und dass das Rand- eine Normalität ist, dann müssen Sie nur die Werte ersetzen und die unangenehme Algebra . Diese Notizen könnten hilfreich sein. Hier ist der vollständige Beweis. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2
1
Ihr zweiter Link beantwortet die Frage (+1). Warum nicht als Antwort @Procrastinator setzen?
gui11aume
1
Ich hatte es nicht bemerkt, aber ich glaube, ich habe diese Gleichung implizit in einem bedingten PCA verwendet. Die bedingte PCA erfordert eine Transformation , die die bedingte Kovarianzmatrix bei einer Auswahl von A effektiv berechnet.(IA(AA)1A)Σ
John
@Procrastinator - Ihr Ansatz erfordert tatsächlich die Kenntnis der Woodbury-Matrixidentität und die Kenntnis der blockweisen Matrixinversion. Dies führt zu unnötig komplizierter Matrixalgebra.
Wahrscheinlichkeitslogik
2
@probabilityislogic Tatsächlich ist das Ergebnis in dem von mir angegebenen Link belegt. Aber es ist respektabel, wenn Sie es komplizierter finden als andere Methoden. Außerdem habe ich in meinem Kommentar nicht versucht, eine optimale Lösung zu finden . Außerdem war mein Kommentar vor der Antwort von Macro (die ich, wie Sie sehen können, positiv bewertet habe).

Antworten:

111

Sie können dies beweisen, indem Sie die bedingte Dichte explizit mit roher Gewalt berechnen, wie in Procrastinators Link (+1) in den Kommentaren. Es gibt jedoch auch einen Satz, der besagt, dass alle bedingten Verteilungen einer multivariaten Normalverteilung normal sind. Daher müssen Sie nur den Mittelwert aus Vektor und Kovarianzmatrix berechnen. Ich erinnere mich, dass wir dies in einer Zeitreihenklasse im College durch geschickte Definition einer dritten Variablen und Verwendung ihrer Eigenschaften abgeleitet haben, um das Ergebnis einfacher als die Brute-Force-Lösung im Link abzuleiten (sofern Sie mit Matrixalgebra vertraut sind). Ich werde aus der Erinnerung, aber es war so etwas:


Sei die erste Partition und die zweite. Definieren Sie nun wobei . Jetzt können wir schreibenx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Daher sind und nicht korreliert und, da sie gemeinsam normal sind, unabhängig . Nun ist klar , daher folgt darauszx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

was den ersten Teil beweist. Beachten Sie für die Kovarianzmatrix Folgendes

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Jetzt sind wir fast fertig:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

was den zweiten Teil beweist.

Hinweis: Für diejenigen, die mit der hier verwendeten Matrixalgebra nicht sehr vertraut sind, ist dies eine hervorragende Ressource .

Bearbeiten: Eine Eigenschaft, die hier verwendet wird, befindet sich nicht im Matrixkochbuch (good catch @FlyingPig). Eigenschaft 6 auf der Wikipedia-Seite über Kovarianzmatrizen: Dies ist die für zwei Zufallsvektoren , Für Skalare gilt natürlich aber für Vektoren sind sie unterschiedlich, sofern die Matrizen unterschiedlich angeordnet sind.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)
Makro
quelle
Danke für diese geniale Methode! Es gibt eine Matrixalgebra, die mir nicht vertraut erscheint. Wo finde ich die Formel zum Öffnen von ? Ich habe es auf dem von Ihnen gesendeten Link nicht gefunden. var(x1+Ax2)
Fliegendes Schwein
@Flyingpig, gerne geschehen. Ich glaube, dies ist ein Ergebnis der Gleichungen , kombiniert mit einer zusätzlichen Eigenschaft der Varianz der Summe der Zufallsvektoren, die nicht in das Matrix-Kochbuch geschrieben wurden - ich habe diese Tatsache zu meiner Antwort hinzugefügt - danke für den Fang Das! (291),(292)
Makro
13
Dies ist eine sehr gute Antwort (+1), könnte aber in Bezug auf die Reihenfolge des Ansatzes verbessert werden. Wir beginnen mit der Aussage, dass wir eine lineare Kombination des gesamten Vektors wollen, die unabhängig von . Dies liegt daran, dass wir die Tatsache verwenden können, dass was und . Diese führen wiederum zu Ausdrücken für und . Das heißt, wir sollten . Jetzt benötigen wir . Wenn invertierbar ist, haben wirz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
Wahrscheinlichkeit
1
@jakeoung - es beweist nicht, dass , es setzt es auf diesen Wert, so dass wir einen Ausdruck erhalten, der die Variablen enthält, über die wir wissen wollen. C1=I
Wahrscheinlichkeitsrechnung
1
@jakeoung Ich verstehe diese Aussage auch nicht ganz. Ich verstehe auf diese Weise: Wenn , dann ist . Der Wert von ist also irgendwie eine willkürliche Skala. Der Einfachheit halber setzen wircov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Ken T
6

Die Antwort von Macro ist großartig, aber hier ist eine noch einfachere Möglichkeit, bei der Sie keinen externen Satz verwenden müssen, der die bedingte Verteilung behauptet. Es geht darum, den Mahanalobis-Abstand in einer Form zu schreiben, die die Argumentvariable für die Konditionierungsanweisung trennt, und dann die normale Dichte entsprechend zu faktorisieren.


Umschreiben der Mahanalobis-Distanz für einen bedingten Vektor: Diese Herleitung verwendet eine Matrixinversionsformel, die das Schur-Komplement . Wir verwenden zuerst die blockweise Inversionsformel , um die inverse Varianzmatrix wie folgt zu schreiben:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

wo:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Mit dieser Formel können wir nun die Mahanalobis-Distanz wie folgt schreiben:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

wo:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Beachten Sie, dass dieses Ergebnis ein allgemeines Ergebnis ist, das keine Normalität der Zufallsvektoren voraussetzt. Es gibt eine nützliche Möglichkeit, den Mahanalobis-Abstand so umzuformen, dass er eine quadratische Form in Bezug auf nur einen der Vektoren in der Zerlegung ist (wobei der andere in der mittleren Vektor- und Varianzmatrix absorbiert ist).


Ableiten der bedingten Verteilung: Nachdem wir nun die obige Form für die Mahanalobis-Distanz haben, ist der Rest einfach. Wir haben:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Dies stellt fest, dass die bedingte Verteilung auch eine multivariate Normalverteilung mit dem angegebenen bedingten Mittelwertvektor und der angegebenen bedingten Varianzmatrix ist.

Ben
quelle