Verteilung einer Mahalanobis-Distanz auf Beobachtungsebene

Wenn ich eine multivariate Normal IId Probe habe , und zu definieren (das ist eine Art Mahalanobis-Abstand [im Quadrat] von einem Abtastpunkt zum Vektor Verwendung der Matrix zur Gewichtung), $X_1, \ldots, X_n \sim N_p(\mu,\Sigma)$

d_{i}^{2} (b, A) = (X_{i} - b)^{'} A^{- 1} (X_{i} - b)

$d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)$

a

$a$

A

$A$ was ist die Verteilung von

(Mahalanobis-Abstand zum Stichprobenmittelwert

Verwendung der Stichproben-Kovarianzmatrix

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

\bar{X}

$\bar X$

S

$S$

Ich betrachte eine Arbeit, die behauptet, sie sei , aber dies ist offensichtlich falsch: Die Verteilung wäre für Verwendung des (unbekannten) Populationsmittelwertvektors und der Kovarianzmatrix erhalten worden. Wenn die Beispielanaloga eingesteckt sind, sollte man eine Hotelling -Verteilung oder eine skalierte -Verteilung oder so etwas erhalten, aber nicht die . Ich konnte das genaue Ergebnis weder in Muirhead (2005) noch in finden $\chi^2_p$ $\chi^2_p$ $d_i^2(\mu,\Sigma)$ $T^{\ 2}$ $F(\cdot)$ $\chi^2_p$ Anderson (2003) , noch in Mardia, Kent und Bibby (1979, 2003) . Anscheinend haben sich diese Typen nicht um die Diagnose von Ausreißern gekümmert, da die multivariate Normalverteilung perfekt ist und jedes Mal, wenn multivariate Daten erfasst werden, leicht ermittelt werden kann: - /.

Die Dinge können komplizierter sein. Das Hotelling -Verteilungsergebnis basiert auf der Annahme der Unabhängigkeit zwischen dem Vektorteil und dem Matrixteil; eine solche Unabhängigkeit gilt für und , aber es gilt nicht mehr für und . $T^{\ 2}$ $\bar X$ $S$ $X_i$ $S$

multivariate-analysis outliers StasK
quelle

Sehen Sie

in der Definition von

immer noch als Zufallsvariable an oder behandeln Sie es jetzt als festen Vektor? Das Einfügen des Index deutet auf Letzteres hin, aber das scheint ein wenig seltsam.

d_{i}^{2}

$d_i^2$

X_{i}

$X_i$

Whuber

Nur ein wenig off-the-cuff Seite beachten, aber bemerken , dass

bezüglich Neben ist

und

, um eine feste Konstante gleich (sollte

, oder ähnlich, denke ich) mit ziemlicher Sicherheit.

X_{i} - \bar{X}

$X_i - \bar{X}$

μ

$\mu$

\sum_{i} d_{i}^{2} (\bar{X}, S)

$\sum_i d_i^2(\bar{X},S)$

n - p

$n-p$

Kardinal

@whuber - vielleicht um zu betonen, dass es sich um eine Beobachtung aus der Stichprobe handelt, nicht um eine neue Beobachtung?

Bogenschütze

@whuber, grob nach dem Vorbild von jbowman, um anzuzeigen, dass dies eine Statistik auf Beobachtungsebene ist (im Gegensatz zu einer Statistik auf Stichprobenebene wie dem Stichprobenmittelwert).

StasK

Die Verteilung von

ist ein Beta,

, aber ich suche immer noch nach der Verteilung von

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

n / (n - 1)^{2} d_{i}^{2} (\bar{X}, S) \sim B (p / 2, (n - p - 1) / 2)

$n/(n-1)^2 d_i^2(\bar X,S) \sim B(p/2, (n-p-1)/2)$

d_{i}^{2} (μ, S)

$d^2_i(\mu, S)$ . Die Verteilungen der

sind nicht unabhängig.

d_{i}^{2}

$d^2_i$

Antworten:

Sehen Sie sich die Modellierung von Gaußschen Gemischen an, indem Sie die Mahalanobis-Distanz ausnutzen ( alternativer Link ). Siehe Seite 13, Zweite Spalte. Die Autoren gaben auch einige Beweise für die Ableitung der Verteilung. Die Distribution ist Beta-skaliert. Bitte lassen Sie mich wissen, wenn dies bei Ihnen nicht funktioniert. Ansonsten könnte ich morgen jeden Hinweis im SS-Wilks-Buch nachlesen.

vinux
quelle

Die Antwort in der Arbeit lautet:

. Vielen Dank!

\frac{n}{(n - 1)^{2}} d_{i}^{2} (\bar{X}, S) \sim B (\frac{p}{2}, \frac{n - p - 1}{2})

$\frac{n}{(n-1)^2} d_i^2(\bar X, S) \sim B(\frac{p}{2}, \frac{n-p-1}{2} )$

StasK

Es gibt 3 relevante Distributionen. Wenn die wahren Populationsparameter verwendet werden, wird, wie erwähnt, die Verteilung mit chi-quadriert . Dies ist auch die asymptotische Verteilung mit geschätzten Parametern und großem Stichprobenumfang. $df=p$

Eine andere Antwort liefert die korrekte Verteilung für die häufigste Situation mit geschätzten Parametern, wenn die Beobachtung selbst Teil der Schätzmenge ist:

\frac{n (d^{2})}{(n - 1)^{2}} \sim B e t a (\frac{p}{2}, \frac{(n - p - 1)}{2}) .

$\frac{n(d^2)}{(n-1)^2} \sim Beta\left(\frac{p}{2}, \frac{(n-p-1)}{2}\right).$

x_{i}

$x_i$

(\frac{n d^{2} (n - p)}{(p (n - 1) (n + 1)}) \sim F (p, n - p)

$\left(\frac{nd^2(n-p)}{(p(n-1)(n+1)}\right) \sim F(p, n-p)$

Joe Sullivan
quelle

Willkommen auf der Seite von JoeSullivan. Ich habe mir erlaubt, benutzen

L A T E X

$\LaTeX$

Können Sie eine Referenz für die F-Formel angeben?

Eyaler

ein verwandter Verweis, Abschnitt 3 in Hardin, Johanna und David M. Rocke. 2005. „Die Verteilung robuster Entfernungen.“ Journal of Computational and Graphical Statistics 14 (4): 928–46. doi: 10.1198 / 106186005X77685.

Josef