Ich suche nach einer guten Terminologie, um zu beschreiben, was ich versuche, um die Suche nach Ressourcen zu vereinfachen.
Angenommen, ich habe zwei Cluster von Punkten A und B, die jeweils zwei Werten X und Y zugeordnet sind, und ich möchte den "Abstand" zwischen A und B messen, dh wie wahrscheinlich ist es, dass sie aus derselben Verteilung abgetastet wurden (Ich kann davon ausgehen, dass die Verteilungen normal sind). Wenn zum Beispiel X und Y in A, aber nicht in B korreliert sind, sind die Verteilungen unterschiedlich.
Intuitiv würde ich die Kovarianzmatrix von A erhalten und dann untersuchen, wie wahrscheinlich es ist, dass jeder Punkt in B hineinpasst, und umgekehrt (wahrscheinlich mit etwas wie Mahalanobis-Abstand).
Aber das ist ein bisschen "ad-hoc", und es gibt wahrscheinlich eine rigorosere Art, dies zu beschreiben (in der Praxis habe ich natürlich mehr als zwei Datensätze mit mehr als zwei Variablen - ich versuche zu identifizieren, welcher meiner Datensätze sind Ausreißer).
Vielen Dank!
Antworten:
Es gibt auch die Kullback-Leibler- Divergenz, die mit der oben erwähnten Hellinger-Distanz zusammenhängt.
quelle
Hmm, die Bhattacharyya-Distanz scheint das zu sein, wonach ich suche, obwohl die Hellinger-Distanz auch funktioniert.
quelle
Heuristik
Nichtparametrische Teststatistik
Informationstheoretische Divergenzen
Bodenabstandsmaße
quelle
Die umfassendste Erhebung findet sich in Statistical Inference Based Divergence Measures von Leandro Pardo, Complutense University, Chapman Hall 2006.
quelle
Nur noch wenige Maße für "Statistical Difference"
quelle