In der ökologischen Statistik gibt es viele Techniken zur explorativen Datenanalyse mehrdimensionaler Daten. Dies nennt man "Ordinations" -Techniken. Viele sind die gleichen oder eng mit gängigen Techniken in anderen Bereichen der Statistik verwandt. Vielleicht wäre das prototypische Beispiel die Hauptkomponentenanalyse (PCA). Ökologen könnten PCA und verwandte Techniken verwenden, um „Farbverläufe“ zu untersuchen (mir ist nicht ganz klar, was ein Farbverlauf ist, aber ich habe ein wenig darüber gelesen.)
Auf dieser Seite lautet der letzte Eintrag unter Principal Components Analysis (PCA) :
- PCA hat ein ernstes Problem mit den Vegetationsdaten: den Hufeiseneffekt. Dies wird durch die Krummlinigkeit der Artenverteilungen entlang der Gradienten verursacht. Da die Reaktionskurven der Arten in der Regel unimodal (dh sehr stark krummlinig) sind, treten häufig Hufeiseneffekte auf.
Weiter unten auf der Seite unter " Korrespondenzanalyse" oder "Reziproke Averaging" (RA) wird auf den "Arch-Effekt" verwiesen :
- RA hat ein Problem: den Bogeneffekt. Es wird auch durch die Nichtlinearität der Verteilungen entlang der Gradienten verursacht.
- Der Bogen ist nicht so schwerwiegend wie der Hufeiseneffekt von PCA, da die Enden des Gradienten nicht verschlungen sind.
Kann das jemand erklären? Ich habe dieses Phänomen kürzlich in Diagrammen gesehen, die Daten in einem niedrigeren dimensionalen Raum wiedergeben (d. H. Korrespondenzanalyse und Faktoranalyse).
- Was würde ein "Gefälle" allgemeiner (dh in einem nicht-ökologischen Kontext) entsprechen?
- Wenn dies mit Ihren Daten geschieht, handelt es sich um ein "Problem" ("ernstes Problem")? Für was?
- Wie ist eine Ausgabe zu interpretieren, bei der sich ein Hufeisen / Bogen zeigt?
- Muss ein Mittel angewendet werden? Was? Würden Transformationen der Originaldaten helfen? Was ist, wenn die Daten Ordnungszahlen sind?
Die Antworten befinden sich möglicherweise auf anderen Seiten dieser Site (z. B. für PCA , CA und DCA ). Ich habe versucht, diese durchzuarbeiten. Die Diskussionen sind jedoch in ausreichend ungewohnten ökologischen Begriffen und Beispielen zusammengefasst, so dass es schwieriger ist, das Thema zu verstehen.
quelle
Antworten:
Q1
Ökologen sprechen die ganze Zeit über Farbverläufe. Es gibt viele Arten von Verläufen, aber es kann am besten sein, sie als eine Kombination der gewünschten oder für die Reaktion wichtigen Variablen zu betrachten. Ein Gradient kann also Zeit oder Raum sein oder die Säure des Bodens oder Nährstoffe oder etwas Komplexeres, wie eine lineare Kombination einer Reihe von Variablen, die in irgendeiner Weise für die Reaktion erforderlich sind.
Wir sprechen von Gradienten, weil wir Arten in Raum oder Zeit beobachten und eine ganze Reihe von Dingen mit diesem Raum oder dieser Zeit variieren.
Q2
Ich bin zu dem Schluss gekommen, dass das Hufeisen in PCA in vielen Fällen kein ernstes Problem ist, wenn Sie verstehen, wie es entsteht, und keine albernen Dinge wie PC1 nehmen, wenn der "Gradient" tatsächlich durch PC1 und PC2 dargestellt wird wird auch in höhere PCs aufgeteilt, aber hoffentlich ist eine 2-D-Darstellung in Ordnung).
In CA denke ich, dasselbe (nachdem ich jetzt gezwungen war, ein bisschen darüber nachzudenken). Die Lösung kann einen Bogen bilden, wenn die Daten keine starke 2. Dimension aufweisen, sodass eine gefaltete Version der ersten Achse, die die Orthogonalitätsanforderungen der CA-Achsen erfüllt, mehr "Trägheit" als eine andere Richtung in den Daten erklärt. Dies kann schwerwiegender sein, da es sich um eine zusammengesetzte Struktur handelt, bei der der Bogen bei PCA nur eine Möglichkeit darstellt, die Artenhäufigkeit an Standorten entlang eines einzigen dominanten Gradienten darzustellen.
Ich habe nie ganz verstanden, warum sich die Leute so viele Sorgen um die falsche Bestellung von PC1 mit einem starken Hufeisen machen. Ich würde dem widersprechen, dass Sie in solchen Fällen nicht nur PC1 nehmen sollten, und dann verschwindet das Problem. Die Koordinatenpaare auf PC1 und PC2 beseitigen die Umkehrungen auf einer dieser beiden Achsen.
Q3
Wenn ich das Hufeisen in einem PCA-Biplot sehen würde, würde ich die Daten so interpretieren, dass sie einen einzelnen dominanten Gradienten oder eine Richtung der Variation aufweisen.
Wenn ich den Bogen sehen würde, würde ich wahrscheinlich den gleichen Schluss ziehen, aber ich wäre sehr vorsichtig, wenn ich versuchen würde, die CA-Achse 2 überhaupt zu erklären.
Ich würde DCA nicht anwenden - es dreht nur den Bogen weg (unter den besten Umständen), so dass Sie in 2-D-Plots keine Seltsamkeiten bemerken, aber in vielen Fällen erzeugt es andere unechte Strukturen wie Diamanten oder Trompetenformen Anordnung der Proben im DCA-Raum. Beispielsweise:
Auf der linken Seite des Diagramms sehen wir ein typisches Auffächern der Abtastpunkte.
Q4
Dies würde darauf hindeuten, eine nichtlineare Richtung im hochdimensionalen Raum der Daten zu finden. Eine solche Methode ist die Hauptkurve von Hastie & Stuezel, es sind jedoch auch andere nichtlineare Verteilermethoden verfügbar, die möglicherweise ausreichen.
Zum Beispiel für einige pathologische Daten
Wir sehen ein starkes Hufeisen. Die Hauptkurve versucht, diesen zugrunde liegenden Gradienten oder die Anordnung / Reihenfolge der Proben über eine glatte Kurve in den m-Dimensionen der Daten wiederherzustellen. Die folgende Abbildung zeigt, wie der iterative Algorithmus auf etwas konvergiert, das sich dem zugrunde liegenden Gradienten annähert. (Ich denke, dass es von den Daten am oberen Rand des Diagramms abweicht, um näher an den Daten in höheren Dimensionen zu sein, und teilweise aufgrund des Selbstkonsistenzkriteriums, nach dem eine Kurve als Hauptkurve deklariert wird.)
Ich habe weitere Details, einschließlich Code, in meinem Blog-Post, aus dem ich diese Bilder gemacht habe. Der wichtigste Punkt hierbei ist jedoch, dass die Hauptkurven die bekannte Reihenfolge der Stichproben leicht wiederherstellen, PC1 oder PC2 alleine jedoch nicht.
Im PCA-Fall ist es üblich, Transformationen in der Ökologie anzuwenden. Beliebte Transformationen sind solche, bei denen man sich vorstellen kann, eine nichteuklidische Distanz zurückzugeben, wenn die euklidische Distanz für die transformierten Daten berechnet wird. Zum Beispiel ist der Hellinger-Abstand
Das Hufeisen ist seit langem in der Ökologie bekannt und erforscht; Einige der frühen Literatur (plus ein moderneres Aussehen) ist
Die Hauptreferenzen für die Hauptkurve sind
Ersteres ist eine sehr ökologische Präsentation.
quelle