Verteilung einer Mahalanobis-Distanz auf Beobachtungsebene

23

Wenn ich eine multivariate Normal IId Probe habe , und zu definieren d 2 i ( b , A ) = ( X i - b ) ' A - 1 ( X i - b ) (das ist eine Art Mahalanobis-Abstand [im Quadrat] von einem Abtastpunkt zum Vektor a unter Verwendung der Matrix A zur Gewichtung),X1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA was ist die Verteilung von (Mahalanobis-Abstand zum Stichprobenmittelwert ˉ X unter Verwendung der Stichproben-Kovarianzmatrixdi2(X¯,S)X¯ )?S

Ich betrachte eine Arbeit, die behauptet, sie sei , aber dies ist offensichtlich falsch: Die 2 p- Verteilung wäre für d 2 i ( μ , ) unter Verwendung des (unbekannten) Populationsmittelwertvektors und der Kovarianzmatrix erhalten worden. Wenn die Beispielanaloga eingesteckt sind, sollte man eine Hotelling T 2 -Verteilung oder eine skalierte F ( ) -Verteilung oder so etwas erhalten, aber nicht die χ 2 p . Ich konnte das genaue Ergebnis weder in Muirhead (2005) noch in findenχp2χp2di2(μ,Σ)T 2F()χp2Anderson (2003) , noch in Mardia, Kent und Bibby (1979, 2003) . Anscheinend haben sich diese Typen nicht um die Diagnose von Ausreißern gekümmert, da die multivariate Normalverteilung perfekt ist und jedes Mal, wenn multivariate Daten erfasst werden, leicht ermittelt werden kann: - /.

Die Dinge können komplizierter sein. Das Hotelling -Verteilungsergebnis basiert auf der Annahme der Unabhängigkeit zwischen dem Vektorteil und dem Matrixteil; eine solche Unabhängigkeit gilt für ˉ X und S , aber es gilt nicht mehr für X i und S .T 2X¯SXiS

StasK
quelle
Sehen Sie X i in der Definition von immer noch als Zufallsvariable an oder behandeln Sie es jetzt als festen Vektor? Das Einfügen des Index deutet auf Letzteres hin, aber das scheint ein wenig seltsam. di2Xi
Whuber
1
Nur ein wenig off-the-cuff Seite beachten, aber bemerken , dass bezüglich Neben ist & mgr; und Σ i d 2 i ( ˉ X , S ) , um eine feste Konstante gleich (sollte n - p , oder ähnlich, denke ich) mit ziemlicher Sicherheit. XiX¯μidi2(X¯,S)np
Kardinal
1
@whuber - vielleicht um zu betonen, dass es sich um eine Beobachtung aus der Stichprobe handelt, nicht um eine neue Beobachtung?
Bogenschütze
1
@whuber, grob nach dem Vorbild von jbowman, um anzuzeigen, dass dies eine Statistik auf Beobachtungsebene ist (im Gegensatz zu einer Statistik auf Stichprobenebene wie dem Stichprobenmittelwert).
StasK
1
Die Verteilung von ist ein Beta, n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) B ( p / 2 , ( n - p - 1 ) / 2 ) , aber ich suche immer noch nach der Verteilung von d 2 i ( μ , S )di2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S). Die Verteilungen der sind nicht unabhängig. di2

Antworten:

18

Sehen Sie sich die Modellierung von Gaußschen Gemischen an, indem Sie die Mahalanobis-Distanz ausnutzen ( alternativer Link ). Siehe Seite 13, Zweite Spalte. Die Autoren gaben auch einige Beweise für die Ableitung der Verteilung. Die Distribution ist Beta-skaliert. Bitte lassen Sie mich wissen, wenn dies bei Ihnen nicht funktioniert. Ansonsten könnte ich morgen jeden Hinweis im SS-Wilks-Buch nachlesen.

vinux
quelle
4
Die Antwort in der Arbeit lautet: . Vielen Dank! n(n1)2di2(X¯,S)B(p2,np12)
StasK
9

Es gibt 3 relevante Distributionen. Wenn die wahren Populationsparameter verwendet werden, wird, wie erwähnt, die Verteilung mit chi-quadriert . Dies ist auch die asymptotische Verteilung mit geschätzten Parametern und großem Stichprobenumfang.df=p

Eine andere Antwort liefert die korrekte Verteilung für die häufigste Situation mit geschätzten Parametern, wenn die Beobachtung selbst Teil der Schätzmenge ist:

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)
Joe Sullivan
quelle
Willkommen auf der Seite von JoeSullivan. Ich habe mir erlaubt, benutzenLATEX
Können Sie eine Referenz für die F-Formel angeben?
Eyaler
1
ein verwandter Verweis, Abschnitt 3 in Hardin, Johanna und David M. Rocke. 2005. „Die Verteilung robuster Entfernungen.“ Journal of Computational and Graphical Statistics 14 (4): 928–46. doi: 10.1198 / 106186005X77685.
Josef