So behandeln Sie mehrere Datenpunkte pro Subjekt richtig

10

Ich diskutiere derzeit mit jemandem darüber, wie Daten mit mehreren Messungen für jedes Subjekt richtig behandelt werden können. In diesem Fall wurden für jedes Subjekt innerhalb kurzer Zeit Daten für unterschiedliche Bedingungen innerhalb jedes Subjekts gesammelt. Alle Messungen erfassen genau dieselbe Variable, nur mehrere.

Eine Möglichkeit besteht nun darin, die Daten nur nach Bedingungen zu gruppieren und sich nicht darum zu kümmern, dass mehrere Datenpunkte von einem Subjekt stammen. Die Datenpunkte von jedem Subjekt sind jedoch wahrscheinlich nicht vollständig unabhängig.

Die andere Alternative besteht darin, zuerst den Mittelwert aller Messungen für jede Bedingung von jedem Subjekt zu nehmen und dann die Mittelwerte zu vergleichen. Dies wird jedoch wahrscheinlich die Bedeutung beeinflussen, da letztendlich nicht berücksichtigt wird, dass die Mittel weniger Fehler aufweisen.

Wie können Sie solche Daten richtig analysieren? Ist das in SPSS irgendwie erledigt? Grundsätzlich sollte es möglich sein, die Fehlerquote bei der Berechnung eines Mittelwerts zu berechnen und dies letztendlich zu berücksichtigen, aber ich vermute nicht, dass SPSS diese Berechnung irgendwie hinter meinem Rücken durchführt.

LiKao
quelle
1
Handelt es sich um ein Design mit wiederholten Maßnahmen, bei dem jedes Thema unter allen oder vielen Bedingungen ausgeführt wird? Oder handelt es sich nur um ein unabhängiges Gruppen- oder Maßnahmen-Design, bei dem sich jedes Thema in einem Zustand befindet?
John
Bei diesem Design läuft jedes Thema unter allen Bedingungen. Es gibt jedoch einige Datenpunkte, die abgelehnt werden müssen, da die Probanden bei der jeweiligen Aufgabe versagt haben. Es ist unwahrscheinlich, dass ein Subjekt bei allen Unteraufgaben für eine einzelne Bedingung fehlschlägt (es gibt ungefähr 40 Wiederholungen pro Bedingung), daher hat jedes Subjekt höchstwahrscheinlich Datenpunkte für alle Bedingungen.
LiKao

Antworten:

9

Es wäre eine Verletzung der Unabhängigkeit, "die Daten nach Bedingungen zu gruppieren und sich nicht darum zu kümmern, dass mehrere Datenpunkte von einem Subjekt stammen". Das ist also ein No Go. Ein Ansatz besteht darin, "den Mittelwert aller Messungen für jede Bedingung von jedem Subjekt zu nehmen und dann die Mittelwerte zu vergleichen". Sie könnten es so machen, Sie würden die Unabhängigkeit nicht verletzen, aber Sie verlieren einige Informationen in der Aggregation zu Mitteln auf Subjektebene.

Auf den ersten Blick klingt dies wie ein gemischtes Design mit Bedingungen zwischen Subjekten und mehreren Zeiträumen, die innerhalb von Subjekten gemessen werden. Dies wirft jedoch die Frage auf, warum Sie zu mehreren Zeitpunkten Daten gesammelt haben. Wird erwartet, dass die Auswirkung der Zeit oder das Fortschreiten einer Variablen über die Zeit zwischen den Bedingungen unterschiedlich ist? Wenn die Antwort auf eine dieser Fragen Ja lautet, würde ich angesichts der Struktur der Daten erwarten, dass Sie an einer gemischten ANOVA interessiert sind. Die gemischte ANOVA unterteilt die Subjektvarianz sozusagen "hinter Ihrem Rücken" aus dem SSTotal. Ob diese Aufteilung beim Testen der Bedingungen zwischen Probanden hilft, hängt jedoch von mehreren anderen Faktoren ab.

Wie auch immer, in SPSS / PASW 18 Analyse -> Allgemeines lineares Modell -> Wiederholte Messungen. Sie haben eine Zeile für jedes Thema und eine Spalte für jeden Zeitpunkt sowie eine als Bedingungskennung. Die Bedingungskennung wird in den Abschnitt "Zwischen" eingefügt, und die wiederholten Messungen werden berücksichtigt, wenn Sie den Faktor für wiederholte Messungen definieren.

russellpierce
quelle
Ok, das habe ich mir gedacht. Die mehreren Datenpunkte pro Bedingung werden aus zwei Gründen gesammelt. Zum einen sollten die Daten auf diese Weise zuverlässiger sein. Der andere Grund ist, dass einige Datenpunkte verworfen werden müssen (die Probanden haben die Anweisungen nicht immer korrekt befolgt). Die Bedingungen liegen vollständig innerhalb der Fächer, so dass wir in diesem Fall überhaupt keine gemischte Gestaltung haben. Leider kommt eine wiederholte Messung nicht in Frage, da wir in jedem Fach etwa 40 Wiederholungen pro Bedingung haben. Die hohe Anzahl an Wiederholungen bedeutet jedoch, dass wir bei der Verwendung von mean viele Informationen verlieren.
LiKao
Dann empfehle ich Johns Antwort. Ein gemischtes Modell ist wahrscheinlich vorzuziehen. Dies kann sowohl den Mittelwert als auch die Variabilität innerhalb jedes Subjekts modellieren und die Verschachtelung respektieren. Ein Problem bei einer solchen Analyse ist, dass die „richtigen“ Freiheitsgrade unklar sind und daher auch die Schwellenwerte für die statistische Signifikanz unklar sind. Im Gegensatz zu Johns bereitgestelltem Code würde ich empfehlen, eine zufällige Steigung für Ihren Bedingungseffekt anzupassen (verschiedene Motive zeigen unterschiedliche Effekte an). Ich habe einige Simulationen gesehen, die darauf hindeuten, dass eine Nichtbeachtung Ihre Fehlerrate vom Typ I erhöhen kann.
Russellpierce
4

Design mit wiederholten Maßnahmen ist die traditionelle Methode, um damit umzugehen, wie drknexus erwähnt. Wenn Sie diese Art der Analyse durchführen, müssen Sie zu einer Punktzahl / Bedingung / einem Thema aggregieren. Es reagiert empfindlich auf Verstöße gegen Sphärizitätsannahmen und andere Probleme. Die modernere Technik besteht jedoch darin, mehrstufige Modellierung oder lineare Mischeffekte zu verwenden. Mit dieser Technik Sie nicht aggregieren die Daten. Es gibt verschiedene Behandlungen dafür, aber ich kenne derzeit nicht das beste grundlegende Tutorial. Baayen (2008) Kapitel 7 ist gut. Pinheiro & Bates (2000) ist sehr gut, aber nach den Klängen der Dinge folgen Sie ihren Ratschlägen im Intro und lesen Sie die für Anfänger empfohlenen Teile.

Wenn Sie nur ein Ergebnis im ANOVA-Stil erhalten möchten, vorausgesetzt, alle Ihre Daten sind im Langformat (eine Zeile / Datenpunkt) und Sie haben Spalten mit Betreff, Antwort (y) und einer Bedingungsvariablen (x), können Sie es versuchen Betrachten Sie so etwas in R (stellen Sie sicher, dass das lme4-Paket installiert ist).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Sie könnten natürlich viel mehr Spalten mit variablen Bedingungen haben, die möglicherweise interagieren. Dann können Sie den Befehl lmer in etwas wie ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(Übrigens glaube ich, dass es ein formaler Irrtum ist, nicht in wiederholten Maßnahmen zu aggregieren, um die Macht zu erhöhen. Erinnert sich jemand an den Namen?)

John
quelle
Ich denke, der Irrtum, die df nicht aus der Anzahl der Antworten und nicht aus der Anzahl der Probanden zu aggregieren und zu verwenden, ist eine Verletzung der Unabhängigkeit. Alternativ (glaube ich) könnte man darüber nachdenken, auf der Ebene der Antworten einzelner Elemente für eine feste Gruppe von Themen eine Schlussfolgerung zu ziehen.
Russellpierce