Messung der "Distanz" zwischen zwei multivariaten Verteilungen

28

Ich suche nach einer guten Terminologie, um zu beschreiben, was ich versuche, um die Suche nach Ressourcen zu vereinfachen.

Angenommen, ich habe zwei Cluster von Punkten A und B, die jeweils zwei Werten X und Y zugeordnet sind, und ich möchte den "Abstand" zwischen A und B messen, dh wie wahrscheinlich ist es, dass sie aus derselben Verteilung abgetastet wurden (Ich kann davon ausgehen, dass die Verteilungen normal sind). Wenn zum Beispiel X und Y in A, aber nicht in B korreliert sind, sind die Verteilungen unterschiedlich.

Intuitiv würde ich die Kovarianzmatrix von A erhalten und dann untersuchen, wie wahrscheinlich es ist, dass jeder Punkt in B hineinpasst, und umgekehrt (wahrscheinlich mit etwas wie Mahalanobis-Abstand).

Aber das ist ein bisschen "ad-hoc", und es gibt wahrscheinlich eine rigorosere Art, dies zu beschreiben (in der Praxis habe ich natürlich mehr als zwei Datensätze mit mehr als zwei Variablen - ich versuche zu identifizieren, welcher meiner Datensätze sind Ausreißer).

Vielen Dank!

Emile
quelle
Keine Ahnung warum, aber ein Mantel-Test blitzte vor meinen Augen auf, als ich Ihren Beitrag las.
Roman Luštrik

Antworten:

15

Es gibt auch die Kullback-Leibler- Divergenz, die mit der oben erwähnten Hellinger-Distanz zusammenhängt.

Setzen Sie Monica - G. Simpson wieder ein
quelle
2
Kann man die Kullback-Leibler-Divergenz von Punkten berechnen, ohne die zugrunde liegende Wahrscheinlichkeitsdichte anzunehmen, aus der die Punkte stammen?
Andre Holzner
16

Hmm, die Bhattacharyya-Distanz scheint das zu sein, wonach ich suche, obwohl die Hellinger-Distanz auch funktioniert.

Emile
quelle
Sie erwähnen Bhattacharyya und Helling und akzeptieren dann eine Antwort über KL ... Am Ende, was war Ihre Wahl und warum?
Simon C.
1
Ich glaube, es war KL Divergenz, aber ... das war im Jahr 2010 und mein Gedächtnis ist alles andere als perfekt.
Emile
ahah ja das hab ich geahnt, aber trotzdem danke!
Simon C.
9

Heuristik

  • Minkowski-Form
  • Gewichtete mittlere Varianz (WMV)

Nichtparametrische Teststatistik

  • 2 (Chi Square)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Informationstheoretische Divergenzen

  • Kullback-Liebler (KL)
  • Jensen-Shannon-Divergenz (metrisch)
  • Jeffrey-Divergenz (numerisch stabil und symmetrisch)

Bodenabstandsmaße

  • Schnittpunkt des Histogramms
  • Quadratische Form (QF)
  • Erdbewegungsentfernung (EMD)
skyde
quelle
0

Nur noch wenige Maße für "Statistical Difference"

  • Permutationstest (von Fisher)
  • Zentraler Grenzwertsatz & Slutskys Satz
  • Mann-Whitney-Wilcoxin-Test
  • Anderson-Darling-Test
  • Shapiro-Wilk-Test
  • Hosmer-Lemeshow-Test
  • Kuipers Test
  • Kernelized Stein Diskrepanz
  • Jaccard Ähnlichkeit
  • Das hierarchische Clustering befasst sich auch mit Ähnlichkeitsmaßen zwischen Gruppen. Die beliebtesten Maße für Gruppenähnlichkeit sind möglicherweise die Einzelbindung, die vollständige Bindung und die durchschnittliche Bindung.
Danylo Zherebetskyy
quelle