Warum wird die isometrische Log-Ratio-Transformation gegenüber dem Additiv (alr) oder der zentrierten (clr) mit Zusammensetzungsdaten bevorzugt?

8

Ich mache eine lineare Regression für Kompositionsdaten unter Verwendung der Log-Ratio-Transformation mit Volkszählungsdaten. Die IVs sind zusammengesetzt (Prozent summiert sich auf 100). Der DV ist nicht kompositorisch und kontinuierlich.

Die alr- und clr-Ergebnisse lassen sich leichter interpretieren. Sie alle erzeugen das gleiche Maß an Passform. Ich bin geneigt, mit alr (oder clr) zu gehen. Aitchison charakterisiert ilr als den "reinen Mathematik" -Ansatz, aber mein Publikum besteht nicht aus Statistikern oder Mathematikern.

Wenn mein Ziel nur darin besteht, Erkenntnisse aus der Analyse zu vermitteln, warum sollte ich mich dann für den viel schwieriger zu interpretierenden ilr-Ansatz (mit Salden) entscheiden?

Ich habe jede Menge Nachforschungen von Aitchison, Juan Jose Egozcue und Vera Pawlosky-Glahn gelesen, aber nicht nach Debatten gesucht.

M Kearny
quelle

Antworten:

6

In Anlehnung an die Antwort von marianess ist clr aufgrund des Problems der Kolinearität wirklich nicht geeignet. Mit anderen Worten, wenn Sie versuchen, mit clr-transformierten Daten Rückschlüsse zu ziehen, geraten Sie möglicherweise in die Falle, wenn Sie versuchen, auf eine Zunahme / Abnahme von Variablen zu schließen, was Sie mit Proportionen überhaupt nicht tun können.

Die ilr-Transformation versucht, dies zu beheben, indem sie sich nur an Verhältnisse von Partitionen hält, da Verhältnisse stabile Größen sind. Diese Partitionen können als Bäume dargestellt werden, wobei interne Knoten im Baum das Protokollverhältnis der geometrischen Mittelwerte der Teilbäume darstellen. Diese logarithmischen Verhältnisse von Teilbäumen werden als Salden bezeichnet.

Ich würde auch empfehlen, diese Veröffentlichungen zu lesen, da sie alle nette Erklärungen zur Interpretation der ilr-Transformation enthalten.

http://msystems.asm.org/content/2/1/e00162-16

https://peerj.com/articles/2969/

https://elifesciences.org/content/6/e21887

Hier ist ein IPython-Notizbuch , in dem detailliert beschrieben wird, wie Salden für einen Baum berechnet werden

Ich habe hier auch eine Beschreibung mit den Modulen in scikit-bio gegeben , falls Sie neugierig sind.

mortonjt
quelle
Warum ist die Größe der Ausgabe m - 1?
O.rka
Können Sie ein Feature direkt mit seinem Wert verknüpfen?
O.rka
es ist m-1, da es ein Isomorphismus ist - Sie können höchstens m-1 Kontraste haben, bevor Sie anfangen, Kollinearitätsprobleme zu treffen. Und ja, Sie sollten in der Lage sein, eine Funktion mit einer bestimmten Partition zu verknüpfen. Diese Antwort finden Sie hier: stats.stackexchange.com/a/270203/79569
mortonjt
5

Es gibt ein Problem mit der clr () - Transformation. Nach der Transformation der Daten bleiben die gleichen Mengenvariablen erhalten, aber im Fall von clr () erhalten Sie singuläre Daten (tatsächlich erhalten Sie eine singuläre Kovarianzmatrix) : y1 + ... yD = 0. Und wie Sie vielleicht wissen, können einige statistische Analysen nicht für einzelne Daten durchgeführt werden. Die ilr () - Transformation reduziert die Anzahl Ihrer Variablen. Nehmen wir also an, Sie hatten einen D-dimensionalen Raum, aber nach ilr () erhalten Sie D-1. Infolgedessen sind Ihre transformierten Daten nichts weiter als Verhältnisse. Ich empfehle, dieses Papier hier zu lesen: http://is.muni.cz/do/rect/habilitace/1431/Hron/habilitace/15_Filzmoser_et_al__2010_.pdf

marianess
quelle
eine nützliche Unterscheidung für clr. alr reduziert den Vektor ebenfalls auf D-1. ilr-Verhältnisse sind Gruppen von Variablen (eine oder mehrere), während alr-Verhältnisse von jeder einzelnen Variablen sind, wobei die letzte Variable im Vektor der gemeinsame Nenner ist. ilr könnte einen Einblick geben, den alr nicht bietet, aber mit meinen Daten ergeben die meisten ilr-Verhältnisse selbst bei Waagen keinen intuitiven Sinn. Mein aktuelles Denken ist, dass es von Ihren Daten abhängt (dh manchmal möchten Sie Verhältnisse von Gruppen von Variablen sehen, manchmal nicht).
M Kearny
-1

Ich würde mit ALR gehen, da es sinnvoller ist. Sie verwenden eine Komponente als Basislinie oder Referenz und sehen dann, was die anderen in Bezug auf diese tun.

Michail
quelle
1
Bitte lesen Sie die Tour. Dies ist keine Antwort, sondern ein Kommentar. Sobald Sie genug Ruf haben, können Sie jeden Beitrag kommentieren.
Ferdi
3
Die ALR-Transformation ist eine schräge Basis. Es kann sehr schwierig sein, Daten in Bezug auf eine schräge Basis zu analysieren. Darüber hinaus behält die ALR-Transformation keine metrischen Konzepte wie Abstand oder Varianz bei und ist abhängig davon, welcher Teil als Nenner verwendet wird.
JDS
Nur um meinen letzten Kommentar zu verfolgen: statsathome.com/2017/08/09/…
jds