Stichprobenverteilung des Radius der 2D-Normalverteilung

11

Die bivariate Normalverteilung mit Mittelwert μ und Kovarianzmatrix Σ kann in Polarkoordinaten mit Radius r und Winkel umgeschrieben werdenθ . Meine Frage lautet: Was ist die Stichprobenverteilung von r , dass der Abstand von einem Punkt x zu der geschätzten Mitte ˉ x gegeben , um die Probe Kovarianzmatrix S ?r^xx¯S

Hintergrund: Der wahre Abstand r von einem Punkt x zum Mittelwert μ folgt einer Hoyt-Verteilung . Mit den Eigenwerten λ1,λ2 von Σ und λ1>λ2 ist sein Formparameter q=1(λ1+λ2)/λ2)1 , und sein Skalierungsparameter istω=λ1+λ2 . Es ist bekannt, dass die kumulative Verteilungsfunktion die symmetrische Differenz zwischen zwei Marcum-Q-Funktionen ist.

Die Simulation legt nahe, dass das Einfügen von Schätzungen und S für μ und Σ in das echte cdf für große Stichproben funktioniert, nicht jedoch für kleine Stichproben. Das folgende Diagramm zeigt die Ergebnisse von 200 Malx¯SμΣ

  • simulating 20 2D normal vectors for each combination of given q (x-axis), ω (rows), and quantile (columns)
  • for each sample, calculating the given quantile of the observed radius r^ to x¯
  • for each sample, calculating the quantile from the theoretical Hoyt (2D normal) cdf, and from the theoretical Rayleigh cdf after plugging in the sample estimates x¯ and S.

enter image description here

Wenn sich 1 nähert (die Verteilung wird kreisförmig), nähern sich die geschätzten Hoyt-Quantile den geschätzten Rayleigh-Quantilen, die von q nicht beeinflusst werden . Wenn ω wächst, nimmt die Differenz zwischen den empirischen und den geschätzten Quantilen zu, insbesondere im Ende der Verteilung.qqω

Karakal
quelle
1
Was ist die Frage?
John
@ John Ich habe die Frage hervorgehoben: "Wie ist die Stichprobenverteilung von [Radius] , dh der Abstand von einem Punkt x zum geschätzten Zentrum ˉ x bei gegebener Stichprobenkonvarianzmatrix S ?" rxx¯S
Caracal
Warum r im Gegensatz zu ^ r 2 ? r^r2^
SomeEE
@MathEE r , nur weil die Literatur , die ich kenne mit der Verteilung von (true) betreffen r , nicht (true) r 2 . Beachten Sie, dass dies anders ist als bei der in dieser Frage diskutierten Mahalanobis-Distanz . Natürlich Ergebnisse für die Verteilung von r 2 wären sehr willkommen. r^rr2r^2
Caracal

Antworten:

7

Wie Sie in Ihrem Beitrag erwähnt haben, kennen wir die Verteilung der Schätzung von wenn wir μ erhalten, damit wir die Verteilung der Schätzung von ^ r 2 t r u e des wahren r 2 kennen .rtrue^μrtrue2^r2

Wir wollen die Verteilung von wobeixi

r2^=1Ni=1N(xix¯)T(xix¯)
xi are expressed as column vectors.

Wir machen jetzt den Standardtrick

rtrue2^=1Ni=1N(xiμ)T(xiμ)=1Ni=1N(xix¯+x¯μ)T(xix¯+x¯μ)=[1Ni=1N(xix¯)T(xix¯)]+(x¯μ)T(x¯μ)(1)=r2^+(x¯μ)T(x¯μ)
where (1) arises from the equation
1Ni=1N(xix¯)T(x¯μ)=(x¯x¯)T(x¯μ)=0
and its transpose.

r2^S(x¯μ)T(x¯μ)x¯

rtrue2^=r2^+(x¯μ)T(x¯μ)
as the sum of two independent random variables. We know the distributions of the rtrue2^ and (x¯μ)T(x¯μ) and so we are done via the standard trick using that characteristic functions are multiplicative.

Edited to add:

||xiμ|| is Hoyt so it has pdf

f(ρ)=1+q2qωρe(1+q2)24q2ωρ2IO(1q44q2ωρ2)
where I0 is the 0th modified Bessel function of the first kind.

This means that the pdf of ||xiμ||2 is

f(ρ)=121+q2qωe(1+q2)24q2ωρI0(1q44q2ωρ).

To ease notation set a=1q44q2ω, b=(1+q2)24q2ω and c=121+q2qω.

The moment generating function of ||xiμ||2 is

{c(sb)2a2(sb)>a0 else

Thus the moment generating function of rtrue2^ is

{cN((s/Nb)2a2)N/2(s/Nb)>a0else
and the moment generating function of ||x¯μ||2 is
{Nc(sNb)2(Na)2=c(s/Nb)2a2(s/Nb)>a0 else

This implies that the moment generating function of r2^ is

{cN1((s/Nb)2a2)(N1)/2(s/Nb)>a0 else.

Applying the inverse Laplace transform gives that r2^ has pdf

g(ρ)=πNcN1Γ(N12)(2iaNρ)(2N)/2ebNρJN/21(iaNρ).
SomeEE
quelle
Thank you! I'll have to work out the details before accepting.
caracal
rtrue2^Hoyt, and ||x¯μ||2N(0,1NΣ)? Then the characteristic function of r2^ is the product of the two characteristic functions as explained here. That indeed answers my question. Do you know how we might suitably transform r2^ such that its distribution is known without access to Σ? Like the Mahalanobis distance, or the univariate t statistic?
caracal
I've edited my response to a full answer. Please let me know if you agree.
SomeEE
I am not sure about unknown Σ. The obvious thing to do would be to try to "divide" r2^ by the sample covariance S which would look like a sum of Mahalanobis distances, i.e. consider 1Ni=1N(xix¯)TS1(xix¯). Unfortunately this sum is always 1.
SomeEE
Thanks for continuing to work on the answer! I'm not sure about the distribution of ||xiμ||2. I'm not able to do deal with this analytically, but a quick simulation of r2 gives a different distribution than Γ(q,ωq): R simulation code. Although it could well be that I don't correctly understand the Γ parametrization.
caracal