Wie gehe ich mit mehreren Messungen pro Teilnehmer mit kategorialen Daten um?

8

Ich habe ein Experiment durchgeführt, bei dem ich Messungen von mehreren Teilnehmern gesammelt habe. Jeder relevante Datenpunkt hat zwei Variablen, beide kategorisch: Tatsächlich hat jede Variable zwei mögliche Werte (Antworten auf zwei Ja / Nein-Fragen). Ich möchte einen statistischen Hypothesentest, um zu überprüfen, ob eine Korrelation zwischen diesen beiden Variablen besteht.

Wenn ich einen Datenpunkt pro Teilnehmer hätte, könnte ich den genauen Fisher-Test für die resultierende Kontingenztabelle verwenden. Ich habe jedoch mehrere Datenpunkte pro Teilnehmer. Folglich scheint der genaue Test von Fisher nicht anwendbar zu sein, da die Datenpunkte eines einzelnen Teilnehmers nicht unabhängig sind. Wenn ich zum Beispiel 10 Datenpunkte von Alice habe, sind diese wahrscheinlich nicht unabhängig, weil sie alle von derselben Person stammen. Der genaue Test von Fisher setzt voraus, dass alle Datenpunkte unabhängig voneinander abgetastet wurden, sodass die Annahmen des genauen Tests von Fisher nicht erfüllt sind und eine Verwendung in dieser Einstellung unangemessen wäre (dies könnte zu ungerechtfertigten Berichten von statistischer Signifikanz führen).2×2

Gibt es Techniken, um mit dieser Situation umzugehen?


Ansätze, die ich in Betracht gezogen habe:

Eine plausible Alternative besteht darin, alle Daten jedes Teilnehmers zu einer einzigen Zahl zusammenzufassen und dann einen anderen Unabhängigkeitstest durchzuführen. Zum Beispiel könnte ich für jeden Teilnehmer den Bruchteil der Ja-Antworten auf die erste Frage und den Bruchteil der Ja-Antworten auf die zweite Frage zählen, wobei ich zwei reelle Zahlen pro Teilnehmer erhalten würde, und dann den Produkt-Moment-Test von Pearson verwenden, um die Korrelation zu testen zwischen diesen beiden Zahlen. Ich bin mir jedoch nicht sicher, ob dies ein guter Ansatz ist. (Ich mache mir zum Beispiel Sorgen, dass durch Mittelwertbildung / Zählung Daten weggeworfen werden und dies aufgrund der Aggregation an Leistung verlieren könnte oder dass Anzeichen von Abhängigkeit nach der Aggregation verschwinden könnten.)

Ich habe über mehrstufige Modelle gelesen, die so klingen, als ob sie diese Situation bewältigen sollen, wenn die zugrunde liegenden Variablen stetig sind (z. B. reelle Zahlen) und wenn ein lineares Modell geeignet ist. Hier habe ich jedoch zwei kategoriale Variablen (Antworten auf Ja / Nein-Fragen), sodass sie hier nicht zutreffen. Gibt es eine äquivalente Technik, die auf kategoriale Daten anwendbar ist?

Ich habe auch ein kleines bisschen über das Design wiederholter Messungen in Wikipedia gelesen , aber der Wikipedia-Artikel konzentriert sich auf Längsschnittstudien. Das scheint hier nicht zutreffend zu sein: Wenn ich es richtig verstehe, scheinen sich wiederholte Messungen auf Effekte aufgrund des Zeitablaufs zu konzentrieren (wobei der Verlauf der Zeit die Variablen beeinflusst). In meinem Fall sollte der Zeitablauf jedoch keine relevanten Auswirkungen haben. Sagen Sie mir, wenn ich falsch verstanden habe.

Ein weiterer Ansatz, der mir bei weiteren Überlegungen einfällt, ist die Verwendung eines Permutationstests. Für jeden Teilnehmer könnten wir ihre Antworten auf Frage 1 zufällig permutieren und (unabhängig) zufällig ihre Antworten auf Frage 2 permutieren, wobei für jeden Teilnehmer eine andere Permutation verwendet wird. Mir ist jedoch nicht klar, welche Teststatistik hier angemessen wäre, um zu messen, welche Ergebnisse "mindestens so extrem" sind wie das beobachtete Ergebnis.

Verwandte Themen : Wie werden mehrere Datenpunkte pro Proband korrekt behandelt (dies konzentriert sich jedoch auch auf lineare Modelle für kontinuierliche Variablen, nicht auf kategoriale Daten). Werden Messungen an demselben Patienten unabhängig durchgeführt? (gleich)

DW
quelle
Was ist mit McNemars Test? Genau dafür ist es.
StatsStudent
@StatsStudent, können Sie näher darauf eingehen? Ich sehe nicht, wie es auf diese Situation zutrifft. Mit "Datenpunkt" meine ich ein Tupel, das die Antwort auf beide Ja / Nein-Fragen enthält (z. B. Ja, Ja). Wenn ich über McNemars Test lese, geht es um einen einzelnen Datenpunkt pro Teilnehmer. Nicht der Fall bei mehreren Datenpunkten pro Teilnehmer (z. B. wird jeder Teilnehmer mehrmals belichtet und nach jeder Belichtung erhalten wir die Antwort auf beide Ja / Nein-Fragen).
DW
einb
@StatsStudent, Paare von Personen? Ich vermute, ich muss falsch kommuniziert haben. Ich stelle einer einzelnen Person zwei Fragen und erhalte zwei Antworten (z. B. Ja, Ja). Wenn das alles wäre, könnte ich McNemars Test verwenden. Aber die Wendung hier ist, dass ich das für einige Personen mehrmals gemacht habe: Zum Beispiel habe ich ihr für Alice die beiden Fragen zu verschiedenen Zeiten gestellt und jeweils zwei Antworten erhalten. Man könnte sagen, dass einige Teilnehmer "Mehrfachbelichtungen" erhalten haben (bei jeder Belichtung stelle ich ihnen die beiden Fragen und erhalte ihre beiden Antworten zurück).
DW
Aha! Das habe ich falsch verstanden - Entschuldigung, das habe ich früher nicht verstanden: Sie haben eine dritte Dimension, über die Sie Daten sammeln (z. B. im Laufe der Zeit). In diesem Fall würde ich die Verwendung der logistischen Regression mit verallgemeinerten Schätzgleichungen oder gemischten Modellen empfehlen. Längsmodelle sind hier gültig, obwohl Ihre dritte Dimension nicht genau zeitlich ist. Sie können Ihre Tabellen auch in der dritten Dimension schichten und McNemars in jeder Dimension ausführen.
StatsStudent

Antworten:

0

Kontext meiner Antwort

Ich habe diese Frage gestern selbst studiert (der Teil über die Möglichkeit, hier gemischte Modelle zu verwenden). Ich stelle schamlos mein neues Verständnis für diesen Ansatz für 2x2-Tabellen auf und warte darauf, dass fortgeschrittenere Kollegen meine Ungenauigkeiten oder Missverständnisse korrigieren. Meine Antwort wird dann langwierig und übermäßig didaktisch sein (zumindest versuchen, didaktisch zu sein), um zu helfen, aber auch meine eigenen Fehler aufzudecken. Zunächst muss ich sagen, dass ich Ihre Verwirrung geteilt habe, die Sie hier angegeben haben.

Ich habe über mehrstufige Modelle gelesen, die so klingen, als ob sie diese Situation bewältigen sollen, wenn die zugrunde liegenden Variablen stetig sind (z. B. reelle Zahlen) und wenn ein lineares Modell geeignet ist

Ich habe alle Beispiele aus diesem Artikel untersucht, in denen kategoriale Antwortdaten mit zufälligen Effekten modelliert wurden . Der Titel selbst widerspricht diesem Gedanken. Für unser Problem mit 2x2-Tabellen mit wiederholter Messung ist das Beispiel in Abschnitt 3.6 für unsere Diskussion von Bedeutung. Dies dient nur als Referenz, da mein Ziel darin besteht, es zu erklären. Ich kann diesen Abschnitt in Zukunft bearbeiten, wenn dieser Kontext nicht mehr erforderlich ist.

Das Model


πichichlÖGicht(πich)=F.ichxedE.ffectsich+R.einndÖmE.ffectich

R.einndÖmE.ffectichN.(0,σ)


πichjv

lÖGicht(πichjv)=βjv+uichv

Über die festen Effekte

β1v=β2v=β3v...ichβjvβvβ1=β2

Über zufällige Effekte

uichjuichichv uichN.(0,σ1)uichjN.(0,σ2)

Ein Vorschlag

uich+uichvuichvuichuich

model1<-glmer(yes ~ Question + (1 | Subject/Question ), data = df, family = binomial)
model2<-glmer(yes ~ Question + (1 | Subject:Question ), data = df, family = binomial)
anova(model1,model2) 

(1 | Subject/Question )uich+uichv(1 |Subject:Question)uichvanova

brumar
quelle
Beeindruckend! Vielen Dank für diese ausführliche Antwort! Das gibt mir einen großartigen Hintergrund. Ich sehe jedoch noch nicht, wie ich damit testen kann, ob die Antworten auf Frage 1 mit den Antworten auf Frage 2 korrelieren. Können Sie näher erläutern, wie das geht? Ich sehe, wie man ein Modell für die Antwort auf Frage 1 bekommt; und ein Modell für die Antwort auf Frage 2; Diese Modelle gehen jedoch im Wesentlichen davon aus, dass die beiden Antworten Unabhängigkeit sind, während ich in meinem Fall genau das testen möchte.
DW
β1β2