Was ist der "Hufeiseneffekt" und / oder der "Bogeneffekt" in der PCA / Korrespondenzanalyse?

In der ökologischen Statistik gibt es viele Techniken zur explorativen Datenanalyse mehrdimensionaler Daten. Dies nennt man "Ordinations" -Techniken. Viele sind die gleichen oder eng mit gängigen Techniken in anderen Bereichen der Statistik verwandt. Vielleicht wäre das prototypische Beispiel die Hauptkomponentenanalyse (PCA). Ökologen könnten PCA und verwandte Techniken verwenden, um „Farbverläufe“ zu untersuchen (mir ist nicht ganz klar, was ein Farbverlauf ist, aber ich habe ein wenig darüber gelesen.)

Auf dieser Seite lautet der letzte Eintrag unter Principal Components Analysis (PCA) :

PCA hat ein ernstes Problem mit den Vegetationsdaten: den Hufeiseneffekt. Dies wird durch die Krummlinigkeit der Artenverteilungen entlang der Gradienten verursacht. Da die Reaktionskurven der Arten in der Regel unimodal (dh sehr stark krummlinig) sind, treten häufig Hufeiseneffekte auf.

Weiter unten auf der Seite unter " Korrespondenzanalyse" oder "Reziproke Averaging" (RA) wird auf den "Arch-Effekt" verwiesen :

RA hat ein Problem: den Bogeneffekt. Es wird auch durch die Nichtlinearität der Verteilungen entlang der Gradienten verursacht.

Der Bogen ist nicht so schwerwiegend wie der Hufeiseneffekt von PCA, da die Enden des Gradienten nicht verschlungen sind.

Kann das jemand erklären? Ich habe dieses Phänomen kürzlich in Diagrammen gesehen, die Daten in einem niedrigeren dimensionalen Raum wiedergeben (d. H. Korrespondenzanalyse und Faktoranalyse).

Was würde ein "Gefälle" allgemeiner (dh in einem nicht-ökologischen Kontext) entsprechen?
Wenn dies mit Ihren Daten geschieht, handelt es sich um ein "Problem" ("ernstes Problem")? Für was?
Wie ist eine Ausgabe zu interpretieren, bei der sich ein Hufeisen / Bogen zeigt?
Muss ein Mittel angewendet werden? Was? Würden Transformationen der Originaldaten helfen? Was ist, wenn die Daten Ordnungszahlen sind?

Die Antworten befinden sich möglicherweise auf anderen Seiten dieser Site (z. B. für PCA , CA und DCA ). Ich habe versucht, diese durchzuarbeiten. Die Diskussionen sind jedoch in ausreichend ungewohnten ökologischen Begriffen und Beispielen zusammengefasst, so dass es schwieriger ist, das Thema zu verstehen.

pca eda ecology correspondence-analysis gung - Wiedereinsetzung von Monica
quelle

(+1) Ich habe unter ordination.okstate.edu/PCA.htm eine ziemlich klare Antwort gefunden . Die Erklärung "Krummlinigkeit" in Ihrem Zitat ist völlig falsch - was es so verwirrend macht.

Whuber

Siehe auch Diaconis et al. (2008), Horseshoes in Multidimensional Scaling and Local Kernel Methods , Ann. Appl. Stat. vol. 2, nein. 3, 777 & ndash; 807.

Kardinal

Ich habe versucht, Ihre Fragen zu beantworten, bin mir aber nicht sicher, wie gut ich diese Dinge finde, da ich Ökologe und Absolvent bin.

Setzen Sie Monica - G. Simpson am

@whuber: Die angeführte Erklärung der "Krummlinigkeit" mag verwirrend und nicht sehr klar sein, aber ich denke nicht, dass sie "völlig falsch" ist. Wenn die Häufigkeiten der Spezies als Funktion der Position entlang des wahren "Gradienten" (anhand eines Beispiels aus Ihrem Link) alle linear wären (möglicherweise durch etwas Rauschen verfälscht), dann wäre die Punktewolke (ungefähr) eindimensional und PCA würde es finden. Die Punktewolke wird gebogen / gekrümmt, weil die Funktionen nicht linear sind. Ein Sonderfall verschobener Gaußscher führt zu einem Hufeisen.

Amöbe sagt Reinstate Monica

@Amoeba Trotzdem ist die hufeisen Wirkung nicht aus Kurvilinearität der Spezies Steigungen führen: es ergibt sich aus Nichtlinearitäten in den Verteilungsverhältnissen . Das Zitat identifiziert die Ursache des Phänomens nicht korrekt, wenn es die Wirkung den Formen der Verläufe selbst zuschreibt.

whuber

Q1

Ökologen sprechen die ganze Zeit über Farbverläufe. Es gibt viele Arten von Verläufen, aber es kann am besten sein, sie als eine Kombination der gewünschten oder für die Reaktion wichtigen Variablen zu betrachten. Ein Gradient kann also Zeit oder Raum sein oder die Säure des Bodens oder Nährstoffe oder etwas Komplexeres, wie eine lineare Kombination einer Reihe von Variablen, die in irgendeiner Weise für die Reaktion erforderlich sind.

Wir sprechen von Gradienten, weil wir Arten in Raum oder Zeit beobachten und eine ganze Reihe von Dingen mit diesem Raum oder dieser Zeit variieren.

Q2

Ich bin zu dem Schluss gekommen, dass das Hufeisen in PCA in vielen Fällen kein ernstes Problem ist, wenn Sie verstehen, wie es entsteht, und keine albernen Dinge wie PC1 nehmen, wenn der "Gradient" tatsächlich durch PC1 und PC2 dargestellt wird wird auch in höhere PCs aufgeteilt, aber hoffentlich ist eine 2-D-Darstellung in Ordnung).

In CA denke ich, dasselbe (nachdem ich jetzt gezwungen war, ein bisschen darüber nachzudenken). Die Lösung kann einen Bogen bilden, wenn die Daten keine starke 2. Dimension aufweisen, sodass eine gefaltete Version der ersten Achse, die die Orthogonalitätsanforderungen der CA-Achsen erfüllt, mehr "Trägheit" als eine andere Richtung in den Daten erklärt. Dies kann schwerwiegender sein, da es sich um eine zusammengesetzte Struktur handelt, bei der der Bogen bei PCA nur eine Möglichkeit darstellt, die Artenhäufigkeit an Standorten entlang eines einzigen dominanten Gradienten darzustellen.

Ich habe nie ganz verstanden, warum sich die Leute so viele Sorgen um die falsche Bestellung von PC1 mit einem starken Hufeisen machen. Ich würde dem widersprechen, dass Sie in solchen Fällen nicht nur PC1 nehmen sollten, und dann verschwindet das Problem. Die Koordinatenpaare auf PC1 und PC2 beseitigen die Umkehrungen auf einer dieser beiden Achsen.

Q3

Wenn ich das Hufeisen in einem PCA-Biplot sehen würde, würde ich die Daten so interpretieren, dass sie einen einzelnen dominanten Gradienten oder eine Richtung der Variation aufweisen.

Wenn ich den Bogen sehen würde, würde ich wahrscheinlich den gleichen Schluss ziehen, aber ich wäre sehr vorsichtig, wenn ich versuchen würde, die CA-Achse 2 überhaupt zu erklären.

Ich würde DCA nicht anwenden - es dreht nur den Bogen weg (unter den besten Umständen), so dass Sie in 2-D-Plots keine Seltsamkeiten bemerken, aber in vielen Fällen erzeugt es andere unechte Strukturen wie Diamanten oder Trompetenformen Anordnung der Proben im DCA-Raum. Beispielsweise:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

Bildbeschreibung hier eingeben

Auf der linken Seite des Diagramms sehen wir ein typisches Auffächern der Abtastpunkte.

Q4

$m$

Dies würde darauf hindeuten, eine nichtlineare Richtung im hochdimensionalen Raum der Daten zu finden. Eine solche Methode ist die Hauptkurve von Hastie & Stuezel, es sind jedoch auch andere nichtlineare Verteilermethoden verfügbar, die möglicherweise ausreichen.

Zum Beispiel für einige pathologische Daten

Bildbeschreibung hier eingeben

Wir sehen ein starkes Hufeisen. Die Hauptkurve versucht, diesen zugrunde liegenden Gradienten oder die Anordnung / Reihenfolge der Proben über eine glatte Kurve in den m-Dimensionen der Daten wiederherzustellen. Die folgende Abbildung zeigt, wie der iterative Algorithmus auf etwas konvergiert, das sich dem zugrunde liegenden Gradienten annähert. (Ich denke, dass es von den Daten am oberen Rand des Diagramms abweicht, um näher an den Daten in höheren Dimensionen zu sein, und teilweise aufgrund des Selbstkonsistenzkriteriums, nach dem eine Kurve als Hauptkurve deklariert wird.)

Bildbeschreibung hier eingeben

Ich habe weitere Details, einschließlich Code, in meinem Blog-Post, aus dem ich diese Bilder gemacht habe. Der wichtigste Punkt hierbei ist jedoch, dass die Hauptkurven die bekannte Reihenfolge der Stichproben leicht wiederherstellen, PC1 oder PC2 alleine jedoch nicht.

Im PCA-Fall ist es üblich, Transformationen in der Ökologie anzuwenden. Beliebte Transformationen sind solche, bei denen man sich vorstellen kann, eine nichteuklidische Distanz zurückzugeben, wenn die euklidische Distanz für die transformierten Daten berechnet wird. Zum Beispiel ist der Hellinger-Abstand

D_{H e l l ich n G e r} (x 1, x 2) = \sqrt{\sum_{j = 1}^{p} {[\sqrt{\frac{y_{1 j}}{y_{1 +}}} - \sqrt{\frac{y_{2 j}}{y_{2 +}}}]}^{2}}

$D_{\mathrm{Hellinger}}(x1, x2) = \sqrt{\sum_{j=1}^p \left [ \sqrt{\frac{y_{1j}}{y_{1+}}} - \sqrt{\frac{y_{2j}}{y_{2+}}} \right ]^2}$

$y_{ij}$ $j$ $i$ $y_{i+}$ $i$

Das Hufeisen ist seit langem in der Ökologie bekannt und erforscht; Einige der frühen Literatur (plus ein moderneres Aussehen) ist

Goodall DW et al. (1954) Objektive Methoden zur Klassifikation der Vegetation. III. Ein Aufsatz über die Verwendung der Faktoranalyse . Australian Journal of Botany 2, 304–324.
Noy-Meir I. und Austin MP et al. (1970) Ordination der Hauptkomponenten und simulierte Vegetationsdaten . Ecology 51, 551 & ndash; 552.
Podani J. & amp; Miklós I. et al. (2002) Ähnlichkeitskoeffizienten und der Hufeiseneffekt in der Hauptkoordinatenanalyse . Ecology 83, 3331–3343.
Swan JMA et al. (1970) Eine Untersuchung einiger Ordinationsprobleme unter Verwendung simulierter Vegetationsdaten . Ecology 51, 89–102.

Die Hauptreferenzen für die Hauptkurve sind

De'ath G. et al. (1999) Principal Curves: Eine neue Technik zur indirekten und direkten Gradientenanalyse . Ecology 80, 2237–2253.
Hastie T. & Stuetzle W. et al. (1989) Principal Curves . Journal of the American Statistical Association 84, 502–516.

Ersteres ist eine sehr ökologische Präsentation.

Setzen Sie Monica - G. Simpson wieder ein
quelle

Danke, Gavin. Betrachten Sie die Ordnungszahlen 1: 5 aus einem Datensatz mit Fragen wie: "Ich mag meinen Arzt" und "Ich habe das Gefühl, mein Arzt kümmert sich um mich als Person". Diese sind weder räumlich noch zeitlich sinnvoll verteilt. Was wäre der Gradient hier?

gung - Wiedereinsetzung von Monica

Mit einer 5x5-Tabelle und einem hohen N ist eine Möglichkeit, die Daten zu visualisieren, w / CA. Die Daten sind ordinal, aber CA erkennt das nicht. So können wir prüfen, ob benachbarte Zeilen / Spalten näher als weiter voneinander entfernt sind. Beide Punktmengen fallen entlang einer klaren Linie in der entsprechenden Reihenfolge, die Linie ist jedoch so gekrümmt, dass die Extreme näher beieinander liegen als der Mittelpunkt im 2D-Raum. Wie ist das zu interpretieren?

gung - Wiedereinsetzung von Monica

CA findet eine Reihenfolge sowohl für die Zeilen (Stichproben) als auch für die Variablen (Spalten), die die Streuung der Stichproben- "Scores" maximiert. Es wird eine latente Variable (eine lineare Kombination der Variablen) gefunden, die diese Streuung maximiert. Wir nennen diese latente Variable einen Gradienten.

Setzen Sie Monica - G. Simpson am

Meinen Sie bezüglich der Komprimierung auf der CA-Achse 1 näher beieinander oder näher beieinander in Bezug auf den euklidischen Abstand in der Skala des Biplots? In jedem Fall ist dies wirklich ein Problem bei der Projektion der Daten in einen niedrigdimensionalen Raum. DCA versucht, diesen Effekt rückgängig zu machen, indem Samples am Ende der abgelösten DCA-Achse 1 auseinandergezogen und nahe am Ursprung komprimiert werden. Also ja, es ist ein Problem, aber es liegt an der Unflexibilität der Methode, den zugrunde liegenden Gradienten angemessen zu erfassen. Wir können damit leben oder einen flexibleren Ansatz verfolgen (zumindest in der Ökologie).

Setzen Sie Monica - G. Simpson am

Wenn Sie dies in mehr Dimensionen betrachten, würde das Problem verschwinden. Ich denke, das ist nur eine Grenze der Methode; In vielen Fällen ist es in Ordnung, in anderen jedoch nicht.

Setzen Sie Monica - G. Simpson am

Was ist der "Hufeiseneffekt" und / oder der "Bogeneffekt" in der PCA / Korrespondenzanalyse?

Antworten:

Q1

Q2

Q3

Q4