Kann ich eine PCA zu wiederholten Maßnahmen zur Datenreduzierung durchführen?

13

Ich habe 3 Versuche mit jeweils 87 Tieren in 2 Kontexten (einige fehlende Daten; keine fehlenden Daten = 64 Tiere). In einem Kontext, ich viele spezifische Maßnahmen (Zeit zu geben, die Anzahl der Male Heim fahren, etc.), so dass ich 2 bis 3 Verbundverhalten Partituren entwickeln wollen, die das Verhalten in diesem Zusammenhang beschreiben (nennen wir sie C1, C2, C3). Ich möchte eine C1, die über alle 3 Versuche und 87 Tiere dasselbe bedeutet, damit ich eine Regression durchführen kann, um die Auswirkung von Alter, Geschlecht, Stammbaum und einzelnem Tier auf das Verhalten zu untersuchen. Dann möchte ich untersuchen, in welchem C1Verhältnis sich die Verhaltenswerte im anderen Kontext innerhalb des jeweiligen Alters befinden. (Prognostiziert Aktivität in Kontext 1 im Alter von 1 Jahren Aktivität in Kontext 2 nachdrücklich?)

Wenn dies nicht wiederholte Maßnahmen wären, würde eine PCA gut funktionieren - führen Sie eine PCA für die mehreren Maßnahmen eines Kontexts durch, und untersuchen Sie dann mithilfe von PC1, PC2 usw. die Beziehungen (Spearman-Korrelationen) zwischen PC1 in einem Kontext und PC1 (oder 2 oder 4) 3) im anderen Zusammenhang. Das Problem sind die wiederholten Maßnahmen, die in Pseudo-Replikation fallen. Ich habe von einem Rezensenten kategorisch "Nein" sagen lassen, aber ich kann keine eindeutigen Hinweise finden, ob dies bei der Datenreduktion problematisch ist.

Meine Argumentation lautet wie folgt: Wiederholte Maßnahmen sind kein Problem, denn was ich im PKA tue, ist gegenüber den ursprünglichen Maßnahmen nur beschreibend. Wenn ich per Fiat erkläre, dass ich Zeit nutze, um die Arena als meine "Kühnheits" -Messung in Kontext 1 zu betreten, hätte ich eine für alle Personen jeden Alters vergleichbare Kühnheitsmessung in Kontext 1 und niemand würde ein Auge auf den Kopf schlagen. Wenn ich per fiat erkläre, dass ich time-to-enter + 0,5 time-to-far-end verwende, gilt dasselbe. Also, wenn ich PCA nur für reduzierende Zwecke verwende, warum kann es nicht PC1 sein (das könnte 0,28 ⋅ sein , + 0,63 Ende + 0,02 eingeben)0,5+ 0,50,28+ 0,63+ 0,02 Gesamtzeit ...), die zumindest durch meine Mehrfachmessungen bestimmt wird, anstatt zu vermuten, dass der Zeitpunkt des Eintritts ein allgemein informatives und repräsentatives Merkmal ist?

(Anmerkung: Ich interessiere mich nicht für die zugrunde liegende Struktur von Maßnahmen. Meine Fragen beziehen sich darauf, wie wir das kontextspezifische Verhalten interpretieren. "Wenn ich Kontext 1 verwendet und festgestellt habe, dass Harry im Vergleich zu anderen Tieren aktiv ist, verstehe ich Harry ist in Kontext 2 aktiv? Wenn er mit zunehmendem Alter das ändert, was wir als Aktivität in Kontext 1 interpretieren, ändert er dann auch seine Aktivität in Kontext 2?)

Ich habe mir PARAFAC und SEM angeschaut und bin nicht überzeugt, dass einer dieser Ansätze für meine Stichprobengröße besser oder angemessener ist. Kann jemand wiegen? Vielen Dank.

Leann
quelle
Habe ich verstanden, dass Sie richtig verstanden haben, dass Sie 2 subjektinterne Faktoren haben: 1) Kontext, der sich durch einige experimentelle Bedingungen unterscheidet (z. B. Indoor-Experiment vs. Outdoor-Experiment), 2) Versuch, der einfach eine Wiederholung, ein Versuch, eines Experiments ist. Und Sie möchten unter jeder Bedingung eine PCA durchführen, aber es hält Sie davon ab, dass Sie nicht einen, sondern mehrere Versuche mit dem Experiment durchgeführt haben.
TTNPHNS
Die beiden Kontexte sind zwei getrennte Tests, und die jeweils getroffenen Maßnahmen sind unterschiedlich. Das heißt, ja, du verstehst meine Situation.
Leann
Wie wäre es, das Problem zu umgehen und eine PCA für alle drei Studien durchzuführen?
Gala

Antworten:

7

Sie könnten in Multiple Factor Analysis suchen . Dies kann in R mit FactoMineR implementiert werden.

AKTUALISIEREN:

Zu diesem Zweck schlug Leann - wie lange auch immer - vor, eine PCA für einen Datensatz mit wiederholten Messungen durchzuführen. Wenn ich die Struktur ihres Datensatzes richtig verstehe, hatte sie für einen gegebenen 'Kontext' ein x'spezifisches Maß' für das Tier (Zeit zum Betreten, Häufigkeit der Rückkehr in den Unterschlupf usw.). Jedes der 64 Tiere (ohne Beobachtung) wurde dreimal beobachtet. Nehmen wir an, sie hatte 10 "spezifische Maßnahmen", so dass sie dann drei 64 × 10-Matrizen zum Verhalten der Tiere hat (wir können die Matrizen " X1," X2, "nennen X3). Um eine PCA auf den drei Matrizen gleichzeitig auszuführen, müsste sie die drei Matrizen in einer Reihe binden (z. B.PCA(rbind(X1,X2,X3))). Dies ignoriert jedoch die Tatsache, dass sich die erste und die 64. Beobachtung auf dasselbe Tier beziehen. Um dieses Problem zu umgehen, kann sie die drei Matrizen spaltenbinden und sie durch eine Multiple-Factor-Analyse führen. MFA ist eine nützliche Methode, um mehrere Sätze von Variablen zu analysieren, die an denselben Personen oder Objekten zu verschiedenen Zeitpunkten gemessen wurden. Sie wird in der Lage sein, die Hauptkomponenten aus dem MFA auf dieselbe Weise wie in einem PCA zu extrahieren, wird jedoch für jedes Tier eine einzige Koordinate haben. Die tierischen Objekte werden nun in einen multivariaten Kompromissraum gestellt, der durch ihre drei Beobachtungen abgegrenzt wird.

Sie könnte die Analyse mit dem FactoMineR-Paket in R ausführen. Der Beispielcode würde ungefähr so ​​aussehen:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Anstatt die ersten drei Komponenten aus dem MFA zu extrahieren und sie einer multiplen Regression zu unterziehen, könnte sie darüber nachdenken, ihre erklärenden Variablen direkt als „ergänzende Tabellen“ auf das MFA zu projizieren (siehe ?FactoMineR). Ein anderer Ansatz wäre, eine euklidische Distanzmatrix der Objektkoordinaten aus der MFA zu berechnen (zB dist1=vegdist(mfa1$ind$coord, "euc")) und diese in dist1Abhängigkeit von den tierspezifischen Variablen (zB unter rda(dist1~age+sex+pedigree)Verwendung des veganen Pakets) einer RDA zu unterziehen.

Kyle
quelle
2
Hallo Kyle, danke für deine Antwort. Antworten, die im Wesentlichen nur aus einem Link bestehen oder nur einen Satz lang sind, werden im Allgemeinen nicht als Antworten, sondern als Kommentare betrachtet. Insbesondere bei Nur-Link-Antworten tritt Link-Rot auf. Daher sollten die Antworten genügend Informationen enthalten, um nützlich zu sein, auch wenn der Link nicht mehr funktioniert. Können Sie bitte Ihre Antwort etwas weiter ausdehnen und vielleicht einen kurzen Überblick darüber geben, was es ist / wie es allgemein mit der Faktorenanalyse zusammenhängt?
Glen_b -Reinstate Monica
(+1) Mir ist klar, dass dies ein alter Beitrag ist, aber diese Antwort ist sehr nützlich! Vielleicht sollte die Referenz komplett hinzugefügt werden, falls der Link stirbt: Abdi Hervé, Williams Lynne J., Valentin Domininique. Multiple Factor Analysis: Hauptkomponentenanalyse für Multitable- und Multiblock-Datensätze. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg
4

Es ist üblich, PCA bei der Analyse von wiederholten Messungen zu verwenden (z. B. zur Analyse von Verkaufsdaten, Aktienkursen und Wechselkursen). Die Logik ist die, wie Sie sie formulieren (dh die Rechtfertigung lautet, dass PCA ein Datenreduktions-Tool ist, kein Inferenz-Tool ).

Eine Veröffentlichung eines ziemlich guten Statistikers ist: Bradlow, ET (2002). " Untersuchen von Datensätzen mit wiederholten Messungen für Schlüsselmerkmale mithilfe der Hauptkomponentenanalyse. " Journal of Research in Marketing 19: 167-179.

Tim
quelle