Wie ist die Verteilung des euklidischen Abstandes zwischen zwei normalverteilten Zufallsvariablen?

41

Angenommen, Sie erhalten zwei Objekte, deren genaue Position unbekannt ist, die jedoch gemäß Normalverteilungen mit bekannten Parametern verteilt sind (z. B. einN(m,s) und bN(v,t)) . Wir können annehmen, dass dies beide bivariate Normalen sind, so dass die Positionen durch eine Verteilung über (X,y) Koordinaten beschrieben werden (dh m und v sind Vektoren, die die erwarteten (X,y) Koordinaten für einbzw. b ). Wir gehen auch davon aus, dass die Objekte unabhängig sind.

Weiß jemand, ob die Verteilung des quadratischen euklidischen Abstands zwischen diesen beiden Objekten eine bekannte parametrische Verteilung ist? Oder wie kann man das PDF / CDF für diese Funktion analytisch ableiten?

Nick
quelle
4
Sie sollten ein Vielfaches einer nicht zentralen Chi-Quadrat-Verteilung erhalten, vorausgesetzt, alle vier Koordinaten sind nicht korreliert. Ansonsten sieht das Ergebnis viel komplizierter aus.
whuber
@ Über alle Details / Hinweise, die Sie zur Verfügung stellen könnten, wie die Parameter der resultierenden nicht-zentralen Chi-Quadrat-Verteilung mit denen der Objekte a, b in Beziehung stehen, wäre fantastisch
Nick
4
@Klicken Sie auf die ersten Absätze des Wikipedia-Artikels, um Einzelheiten zu erfahren . Anhand der charakteristischen Funktionen können Sie feststellen, dass ein ähnliches Ergebnis nicht verfügbar ist, wenn nicht alle Abweichungen gleich sind oder einige Korrelationen bestehen.
Whuber
@Nick, nur um zu verdeutlichen, sind sowohl ein als auch b Zufallsvektoren mit Werten in R2 ?
mpiktas
1
@Nick, wenn und b gemeinsam normal sind, dann ist der Unterschied a - b auch normal. Dann besteht Ihr Problem darin, die Verteilung des zufälligen Normalenvektors zu finden. Googeln Ich habe diesen Link gefunden . Das Papier beschreibt ein viel komplexeres Problem, das in ganz bestimmten Fällen mit Ihrem übereinstimmt. Dies gibt einige Hoffnung, dass es eine eindeutige Antwort auf Ihre Frage gibt. Referenzen geben Ihnen möglicherweise weitere Ideen, wo Sie suchen können. einbein-b
mpiktas

Antworten:

24

Die Antwort auf diese Frage findet sich im Buch Quadratische Formen in Zufallsvariablen von Mathai und Provost (1992, Marcel Dekker, Inc.).

Wie die Kommentare verdeutlichen, müssen Sie die Verteilung von wobei z = a - b einer bivariaten Normalverteilung mit mittlerem μ und Kovarianzmatrix Σ folgt . Dies ist eine quadratische Form in der bivariaten Zufallsvariablen z .Q.=z12+z22z=ein-bμΣz

Kurz gesagt, ein schönes allgemeines Ergebnis für den dimensionalen Fall, in dem z N p ( μ , Σ ) und Q = p j = 1 z 2 j ist, dass die Momenterzeugungsfunktion E ( e t Q ) = e t ∑ ist p j = 1 b 2 j λ jpzNp(μ,Σ)

Q.=j=1pzj2
wobeiλ1,...,λPdie Eigenwert vonΣundbist eine lineare Funktion vonμ. Siehe Satz 3.2a.2 (Seite 42) in dem oben zitierten Buch (wir nehmen hier an, dassΣnicht singulär ist). Eine weitere nützliche Darstellung ist 3.1a.1 (Seite 29) Q=pj=1
E(etQ.)=etj=1pbj2λj1-2tλjj=1p(1-2tλj)-1/2
λ1,,λpΣbμΣ wobei u 1 , , u p iid N ( 0 , 1 ) sind .
Q.=j=1pλj(uj+bj)2
u1,,upN(0,1)

Das gesamte Kapitel 4 des Buches ist der Darstellung und Berechnung von Dichten und Verteilungsfunktionen gewidmet, was keineswegs trivial ist. Ich bin mit dem Buch nur oberflächlich vertraut, aber ich habe den Eindruck, dass alle allgemeinen Darstellungen in Form von unendlichen Reihenerweiterungen vorliegen.

In gewisser Weise lautet die Antwort auf die Frage also Ja, die Verteilung des quadratischen euklidischen Abstandes zwischen zwei bivariaten Normalenvektoren gehört zu einer bekannten (und gut untersuchten) Klasse von Verteilungen, die durch die vier Parameter parametrisiert werden und b 1 , b 2R . Ich bin mir jedoch ziemlich sicher, dass Sie diese Distribution nicht in Ihren Standardlehrbüchern finden werden.λ1,λ2>0b1,b2R

Beachten Sie außerdem, dass und b nicht unabhängig sein müssen. Eine gemeinsame Normalität ist ausreichend (was automatisch ist, wenn sie unabhängig und normal sind), dann folgt die Differenz a - b einer Normalverteilung.einbein-b

NRH
quelle
1
Vielen Dank für den Hinweis, ich habe das Buch gefunden und versuche langsam, mich darin
Nick,
@NRH Ich habe die MGF im symmetrischen Fall ( ) mit p = 2 selbst durchgearbeitet und anstelle von b 2 j λ j in der Summe habe ich μ 2 j . Die Simulation überprüft den ersten Moment. Es ist möglich, dass dies die "lineare Funktion" ist, die Sie erwähnen, und dass dies dem symmetrischen Fall eigen ist, aber ich dachte, ich würde darauf hinweisen, falls ein Fehler auftritt. λj=σ2p=2bj2λjμj2
Kyle
bjμj2
7

μd=μ1-μ2Σd=Σ1+Σ2 Σd=JΣ12JTΣ12=[Σ1Σ2]J=[+ich,-ich]

Suchen Sie zweitens nach der Verteilung der Differenzvektorlänge oder des radialen Abstands vom Ursprung, der nach Hoyt verteilt ist :

Der Radius um den wahren Mittelwert in einer bivariaten korrelierten normalen Zufallsvariablen mit ungleichen Varianzen, umgeschrieben in Polarkoordinaten (Radius und Winkel), folgt einer Hoyt-Verteilung. Das pdf und das cdf sind in geschlossener Form definiert, die numerische Wurzelfindung wird verwendet, um cdf ^ −1 zu finden. Reduziert sich auf die Rayleigh-Verteilung, wenn die Korrelation 0 ist und die Varianzen gleich sind.

Eine allgemeinere Verteilung ergibt sich, wenn Sie eine voreingenommene Differenz (verschobener Ursprung) aus Ballistipedia berücksichtigen : Verteilungen von xy-Koordinaten und der daraus resultierende radiale Fehler

Felipe G. Nievinski
quelle
2
+1, aber ich denke, es ist erwähnenswert, dass sich die Frage mit dem befasst, was Ihre Figur den "allgemeinen Fall" nennt.
Amöbe sagt Reinstate Monica
1

Warum testen Sie es nicht aus?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Grundstück 1 Grundstück 2 Grundstück 3 Grundstück 4

Brandon Bertelsen
quelle
2
Wie es aussehen würde, wenn die Varianzen gleich und die Variablen unkorreliert wären, haben Whubers Kommentare zur ursprünglichen Frage bereits ausgeführt. Vielleicht wäre es aufschlussreicher, ein Beispiel dafür zu nennen, wo dies nicht der Fall ist.
Andy W
Können Sie ein solches Beispiel nennen?
Brandon Bertelsen
Sie müssen lediglich die x- und y-Werte generieren, die entweder korreliert sind oder unterschiedliche Varianzen aufweisen. Die verschiedenen Abweichungen können direkt im Code vorgenommen werden. Sie können mit mvrnorm aus dem MASS-Paket Werte aus einer angegebenen Kovarianzmatrix generieren. Ich bin mir auch nicht sicher, welche Funktion "Zahnarzt" im obigen Code hat, sollte es vielleicht "Dichte" sein.
Andy W
1
Abgesehen davon ist es wahrscheinlich genauso aufschlussreich, die Mathematik zu durcharbeiten, um festzustellen, warum dies der Fall ist (und wie die Manipulation der Varianz / Kovarianzen die Verteilung verändert). Es ist für mich nicht ganz klar, warum dies der Fall ist, wenn ich nur die von whuber erwähnte charakteristische Funktion betrachte. Es sieht so aus, als ob ein einfaches Verständnis der Regeln zum Hinzufügen, Subtrahieren und Multiplizieren von Zufallsvariablen Sie dahingehend bringt, zu verstehen, warum dies so ist.
Andy W