Ich bin kein Community-Ökologe, aber in diesen Tagen arbeite ich an Community-Ökologiedaten.
Was ich, abgesehen von der Mathematik dieser Entfernungen, nicht verstehen konnte, sind die Kriterien für jede zu verwendende Entfernung und in welchen Situationen sie angewendet werden kann. Was ist zum Beispiel mit Zähldaten zu verwenden? Wie konvertiere ich den Neigungswinkel zwischen zwei Orten in eine Entfernung? Oder die Temperatur oder der Niederschlag an zwei Orten? Was sind die Annahmen für jede Entfernung und wann macht es Sinn?
Antworten:
Leider gibt es in den meisten Situationen keine eindeutige Antwort auf Ihre Frage. Das heißt, für jede gegebene Anwendung gibt es sicherlich viele Entfernungsmetriken, die ähnliche und genaue Antworten liefern. Angesichts der Tatsache, dass Dutzende und wahrscheinlich Hunderte gültiger Entfernungsmetriken aktiv verwendet werden, ist die Vorstellung, dass Sie die "richtige" Entfernung finden können, keine produktive Möglichkeit, über das Problem der Auswahl einer geeigneten Entfernungsmetrik nachzudenken.
Ich würde mich stattdessen darauf konzentrieren, nicht die falsche Entfernungsmetrik auszuwählen. Möchten Sie, dass Ihre Distanz die "absolute Größe" widerspiegelt (Sie möchten beispielsweise die Distanz verwenden, um Aktien mit ähnlichen Mittelwerten zu identifizieren) oder die Gesamtform der Reaktion widerspiegeln (z. B. Aktienkurse, die im Laufe der Zeit ähnlich schwanken)? kann aber ganz andere Rohwerte haben)? Das erstere Szenario würde Entfernungen wie Manhattan und Euklidisch anzeigen, während das letztere beispielsweise die Korrelationsentfernung anzeigen würde.
Wenn Sie die Kovarianzstruktur Ihrer Daten kennen, ist die Mahalanobis-Entfernung wahrscheinlich besser geeignet. Für rein kategoriale Daten werden viele Entfernungen vorgeschlagen, z. B. übereinstimmende Entfernungen. Für gemischte kategoriale und kontinuierliche Gower's Distanz ist beliebt (obwohl meiner Meinung nach theoretisch etwas unbefriedigend).
Schließlich wird meiner Meinung nach Ihre Analyse gestärkt, wenn Sie nachweisen, dass Ihre Ergebnisse und Schlussfolgerungen für die Wahl der Entfernungsmetrik robust sind (natürlich innerhalb der Teilmenge geeigneter Entfernungen). Wenn sich Ihre Analyse drastisch ändert und sich die verwendete Entfernungsmetrik geringfügig ändert, sollten weitere Untersuchungen durchgeführt werden, um den Grund für die Inkonsistenz zu ermitteln.
quelle
correlation distance
? 1- r ?reflect overall shape of the response
in Ihren Worten.Die Wahl des richtigen Abstands ist keine elementare Aufgabe. Wenn wir eine Clusteranalyse für einen Datensatz durchführen möchten, können unterschiedliche Ergebnisse mit unterschiedlichen Entfernungen angezeigt werden. Daher ist es sehr wichtig, vorsichtig zu sein, in welcher Entfernung Sie wählen müssen, da wir ein falsch gutes Artefakt erstellen können, das die Variabilität gut erfasst, jedoch tatsächlich ohne Sinn in unserem Problem.
Der euklidische Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte. Dieser Abstand berücksichtigt jede Variable und entfernt keine Redundanzen. Wenn ich also drei Variablen hätte, die dasselbe erklären (korreliert sind), würde ich diesen Effekt mit drei gewichten. Darüber hinaus ist dieser Abstand nicht skalierungsinvariant, so dass ich im Allgemeinen vorher skalieren muss, um den Abstand zu verwenden.
Beispielökologie: Wir haben verschiedene Beobachtungen von vielen Orten, von denen die Experten Proben einiger mikrobiologischer, physikalischer und chemischer Faktoren entnommen haben. Wir wollen Muster in Ökosystemen finden. Diese Faktoren haben eine hohe Korrelation, aber wir wissen, dass jeder relevant ist, daher möchten wir diese Redundanzen nicht beseitigen. Wir verwenden den euklidischen Abstand mit skalierten Daten, um den Effekt von Einheiten zu vermeiden.
Der Mahalanobis- Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte, aber wir möchten Redundanzen entfernen. Wenn wir wiederholte Variablen haben, verschwindet ihre wiederholte Wirkung.
Die Familie Hellinger , das Artenprofil und der Akkordabstand sind geeignet, wenn wir Unterschiede zwischen Variablen hervorheben möchten, wenn wir Profile unterscheiden möchten. Diese Abstände werden nach Gesamtmengen jeder Beobachtung gewichtet, so dass die Abstände klein sind, wenn sie variabel sind, wenn sie variabel sind, sind die Individuen ähnlicher, obwohl sie in absoluten Größen sehr unterschiedlich waren. Achtung! Diese Abstände spiegeln den Unterschied zwischen den Profilen sehr gut wider, haben jedoch den Größeneffekt verloren. Sie können sehr nützlich sein, wenn wir unterschiedliche Stichprobengrößen haben.
Beispielökologie: Wir wollen die Fauna vieler Länder untersuchen und haben eine Datenmatrix eines Inventars der Gastropode (Probenahmestellen in Zeilen und Artennamen in Spalten). Die Matrix zeichnet sich durch viele Nullen und unterschiedliche Größen aus, da einige Lokalitäten einige Arten und andere andere Arten aufweisen. Wir könnten die Hellinger-Distanz nutzen.
Bray-Curtis ist ziemlich ähnlich, aber es ist angemessener, wenn wir Profile unterscheiden und auch relative Größen berücksichtigen möchten.
quelle
In Bezug auf die Entfernung nach Manhattan: Kaufman, Leonard und Peter J. Rousseeuw. "Gruppen in Daten finden: Eine Einführung in die Clusteranalyse." (2005).
quelle