Welchen Abstand soll man benutzen? zB Manhattan, Euklidisch, Bray-Curtis usw.

Ich bin kein Community-Ökologe, aber in diesen Tagen arbeite ich an Community-Ökologiedaten.

Was ich, abgesehen von der Mathematik dieser Entfernungen, nicht verstehen konnte, sind die Kriterien für jede zu verwendende Entfernung und in welchen Situationen sie angewendet werden kann. Was ist zum Beispiel mit Zähldaten zu verwenden? Wie konvertiere ich den Neigungswinkel zwischen zwei Orten in eine Entfernung? Oder die Temperatur oder der Niederschlag an zwei Orten? Was sind die Annahmen für jede Entfernung und wann macht es Sinn?

distance euclidean user36491
quelle

Der zuverlässige Weg, Entfernungsmetriken, ihre Annahmen, Bedeutung und Anwendbarkeit zu verstehen, besteht darin, über ihre Formeln zu meditieren. Sie wissen, die vergleichende Anatomie hat es ermöglicht, vorherzusagen, wie verschiedene Tiere leben und sich verhalten. Lesen Sie auch Bücher / Artikel über Entfernungsmetriken.

ttnphns

Pedantische Anmerkung: Bray-Curtis ist keine Distanz, sondern eine Unähnlichkeit.

Franck Dernoncourt

Antworten:

Leider gibt es in den meisten Situationen keine eindeutige Antwort auf Ihre Frage. Das heißt, für jede gegebene Anwendung gibt es sicherlich viele Entfernungsmetriken, die ähnliche und genaue Antworten liefern. Angesichts der Tatsache, dass Dutzende und wahrscheinlich Hunderte gültiger Entfernungsmetriken aktiv verwendet werden, ist die Vorstellung, dass Sie die "richtige" Entfernung finden können, keine produktive Möglichkeit, über das Problem der Auswahl einer geeigneten Entfernungsmetrik nachzudenken.

Ich würde mich stattdessen darauf konzentrieren, nicht die falsche Entfernungsmetrik auszuwählen. Möchten Sie, dass Ihre Distanz die "absolute Größe" widerspiegelt (Sie möchten beispielsweise die Distanz verwenden, um Aktien mit ähnlichen Mittelwerten zu identifizieren) oder die Gesamtform der Reaktion widerspiegeln (z. B. Aktienkurse, die im Laufe der Zeit ähnlich schwanken)? kann aber ganz andere Rohwerte haben)? Das erstere Szenario würde Entfernungen wie Manhattan und Euklidisch anzeigen, während das letztere beispielsweise die Korrelationsentfernung anzeigen würde.

Wenn Sie die Kovarianzstruktur Ihrer Daten kennen, ist die Mahalanobis-Entfernung wahrscheinlich besser geeignet. Für rein kategoriale Daten werden viele Entfernungen vorgeschlagen, z. B. übereinstimmende Entfernungen. Für gemischte kategoriale und kontinuierliche Gower's Distanz ist beliebt (obwohl meiner Meinung nach theoretisch etwas unbefriedigend).

Schließlich wird meiner Meinung nach Ihre Analyse gestärkt, wenn Sie nachweisen, dass Ihre Ergebnisse und Schlussfolgerungen für die Wahl der Entfernungsmetrik robust sind (natürlich innerhalb der Teilmenge geeigneter Entfernungen). Wenn sich Ihre Analyse drastisch ändert und sich die verwendete Entfernungsmetrik geringfügig ändert, sollten weitere Untersuchungen durchgeführt werden, um den Grund für die Inkonsistenz zu ermitteln.

Ahfoss
quelle

Was meinst du damit correlation distance? 1- r ?

ttnphns

@ttnphns yep, ist am häufigsten. Es ist erwähnenswert, dass es für eine gegebene Ähnlichkeitsmetrik mindestens drei Formeln gibt, um in eine Unähnlichkeit umzuwandeln: (1) Bhattacharyyas Methode , (2) Kolmogorovs Methode und (3) Matusitas Methode . Dies ist ein weiterer Bereich, in dem ich in der nicht der Meinung bin, dass die Wahl normalerweise von großer Bedeutung ist, und wenn dies der Fall wäre, wäre ich besorgt über die Robustheit meiner Ergebnisse.

1 - r

$1-r$

ρ \in [- 1, 1]

$\rho \in [-1,1]$

c o s^{- 1} (ρ)

$cos^{-1}(\rho)$

1 - ρ

$1-\rho$

\sqrt{2 - 2 ρ}

$\sqrt{2-2\rho}$

p r a c t i c e

$practice$

Ahfoss

Zitat für meinen letzten Kommentar: Krzanowski (1983). Biometrika, 70 (1), 235 & ndash; 243. Siehe Seite 236.

Ahfoss

OK danke. Überprüfen Sie bitte auch diese Antwort . Es weist auf die Tatsache hin, dass r genau mit dem euklidischen Abstand zusammenhängt, der mit den standardisierten Daten (Profilen, die verglichen werden) erhalten wird, was reflect overall shape of the responsein Ihren Worten.

ttnphns

Guter Post. Die beiden Metriken hängen tatsächlich zusammen, wie Sie hervorheben. Um Ihre Punkte in Bezug auf die aktuelle Diskussion zu kontextualisieren, besteht der Hauptunterschied darin, dass in euklidischen Abstandsvariablen (normalerweise) nicht zentriert sind, sondern die Korrelationsformel Variablen und Skalen um ihre Standardabweichung zentriert. Somit ist die Korrelation für lineare Transformationen unveränderlich, während der euklidische Abstand nicht unbedingt ist.

Ahfoss

Die Wahl des richtigen Abstands ist keine elementare Aufgabe. Wenn wir eine Clusteranalyse für einen Datensatz durchführen möchten, können unterschiedliche Ergebnisse mit unterschiedlichen Entfernungen angezeigt werden. Daher ist es sehr wichtig, vorsichtig zu sein, in welcher Entfernung Sie wählen müssen, da wir ein falsch gutes Artefakt erstellen können, das die Variabilität gut erfasst, jedoch tatsächlich ohne Sinn in unserem Problem.

Der euklidische Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte. Dieser Abstand berücksichtigt jede Variable und entfernt keine Redundanzen. Wenn ich also drei Variablen hätte, die dasselbe erklären (korreliert sind), würde ich diesen Effekt mit drei gewichten. Darüber hinaus ist dieser Abstand nicht skalierungsinvariant, so dass ich im Allgemeinen vorher skalieren muss, um den Abstand zu verwenden.
Beispielökologie: Wir haben verschiedene Beobachtungen von vielen Orten, von denen die Experten Proben einiger mikrobiologischer, physikalischer und chemischer Faktoren entnommen haben. Wir wollen Muster in Ökosystemen finden. Diese Faktoren haben eine hohe Korrelation, aber wir wissen, dass jeder relevant ist, daher möchten wir diese Redundanzen nicht beseitigen. Wir verwenden den euklidischen Abstand mit skalierten Daten, um den Effekt von Einheiten zu vermeiden.

Der Mahalanobis- Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte, aber wir möchten Redundanzen entfernen. Wenn wir wiederholte Variablen haben, verschwindet ihre wiederholte Wirkung.

Die Familie Hellinger , das Artenprofil und der Akkordabstand sind geeignet, wenn wir Unterschiede zwischen Variablen hervorheben möchten, wenn wir Profile unterscheiden möchten. Diese Abstände werden nach Gesamtmengen jeder Beobachtung gewichtet, so dass die Abstände klein sind, wenn sie variabel sind, wenn sie variabel sind, sind die Individuen ähnlicher, obwohl sie in absoluten Größen sehr unterschiedlich waren. Achtung! Diese Abstände spiegeln den Unterschied zwischen den Profilen sehr gut wider, haben jedoch den Größeneffekt verloren. Sie können sehr nützlich sein, wenn wir unterschiedliche Stichprobengrößen haben.
Beispielökologie: Wir wollen die Fauna vieler Länder untersuchen und haben eine Datenmatrix eines Inventars der Gastropode (Probenahmestellen in Zeilen und Artennamen in Spalten). Die Matrix zeichnet sich durch viele Nullen und unterschiedliche Größen aus, da einige Lokalitäten einige Arten und andere andere Arten aufweisen. Wir könnten die Hellinger-Distanz nutzen.

Bray-Curtis ist ziemlich ähnlich, aber es ist angemessener, wenn wir Profile unterscheiden und auch relative Größen berücksichtigen möchten.

Gonzalo Espinosa Duelo
quelle

In Bezug auf die Entfernung nach Manhattan: Kaufman, Leonard und Peter J. Rousseeuw. "Gruppen in Daten finden: Eine Einführung in die Clusteranalyse." (2005).

Die Verwendung der Manhattan-Distanz wird in Situationen empfohlen, in denen beispielsweise eine Differenz von 1 in der ersten Variablen und von 3 in der zweiten Variablen gleich einer Differenz von 2 in der ersten Variablen und von 2 in der zweiten Variablen ist.

Franck Dernoncourt
quelle