ANOVA mit nicht unabhängigen Beobachtungen

11

Entschuldigen Sie den ausführlichen Hintergrund dieser Frage:

Gelegentlich interessiert sich ein Experimentator bei Untersuchungen des Verhaltens von Tieren für die Zeit, die ein Proband in verschiedenen, vordefinierten Zonen in einem Testgerät verbringt. Ich habe diese Art von Daten oft mit ANOVA analysiert gesehen. Ich war jedoch nie vollständig von der Gültigkeit solcher Analysen überzeugt, da ANOVA davon ausgeht, dass die Beobachtungen unabhängig sind und sie in diesen Analysen niemals tatsächlich unabhängig sind (da mehr Zeit in einer Zone bedeutet, dass weniger in anderen Zonen verbracht wird! ).

Beispielsweise,

DR Smith, CD Striplin, AM Geller, RB Mailman, J. Drago, CP Lawler, M. Gallagher, Verhaltensbewertung von Mäusen, denen D1A-Dopaminrezeptoren fehlen , Neuroscience, Band 86, Ausgabe 1, 21. Mai 1998, Seiten 135-146

Im obigen Artikel reduzieren sie die Freiheitsgrade um 1, um die Nichtunabhängigkeit auszugleichen. Ich bin mir jedoch nicht sicher, wie eine solche Manipulation diese Verletzung der ANOVA-Annahmen tatsächlich verbessern kann.

Vielleicht ist ein Chi-Quadrat-Verfahren besser geeignet? Was würden Sie tun, um solche Daten zu analysieren (Präferenz für Zonen, basierend auf der in Zonen verbrachten Zeit)?

Vielen Dank!

Mike Wong
quelle

Antworten:

3

(Vorbehalt Emptor: Ich bin kein Experte auf diesem Gebiet)

Wenn Sie nur über Unterschiede in der pro Standort verbrachten Zeit sprechen möchten, sollten Sie die Daten "Zeit pro Standort" als Anzahl in einem multinomialen gemischten Modell (siehe MCMCglmm-Paket für R) unter Verwendung des Betreffs als zufälligen Effekt senden der Trick.

Wenn Sie möchten , um Unterschiede in der Lage Vorlieben sprechen durch Zeit, dann vielleicht wäre Zeit zu angemessenen Abständen (vielleicht auf die Auflösung des Timing - Geräts?), Klassifiziert jedes Intervall entsprechend die Position der Maus zu dieser Zeit (z. B. wenn 3 Standorte, Jedes Intervall wird entweder mit 1, 2 oder 3 gekennzeichnet. Verwenden Sie erneut ein multinomiales Mischeffektmodell mit einem Motiv als Zufallseffekt. Fügen Sie diesmal jedoch ein Intervall als festen Effekt hinzu (möglicherweise erst nach dem Faktorisieren des Intervalls, wodurch die Leistung sinkt, aber helfen sollte Nichtlinearitäten über die Zeit erfassen).

Mike Lawrence
quelle
5

Mike,

Ich bin damit einverstanden, dass eine auf der Gesamtzeit basierende ANOVA hier wahrscheinlich nicht der richtige Ansatz ist. Außerdem bin ich nicht davon überzeugt, dass Chi Sqaure Ihr Problem löst. Das Chi-Quadrat wird die Idee respektieren, dass Sie nicht gleichzeitig an zwei Orten sein können, aber es geht nicht auf das Problem ein, dass es wahrscheinlich Abhängigkeiten zwischen der Zeit N und der Zeit N + 1 gibt. In Bezug auf diese zweite Ausgabe sehe ich einige Analogien zwischen Ihrer Situation und dem, was Menschen mit Augen- und Maus-Tracking-Daten begegnen. Ein multinomiales Modell kann Ihren Zwecken gut dienen. Leider liegen die Details dieses Modelltyps außerhalb meines Fachwissens. Ich bin mir sicher, dass ein Statistikbuch irgendwo eine nette kleine Einführung zu diesem Thema hat, aber auf den ersten Blick würde ich Sie darauf hinweisen:

  • Barr DJ (2008) Analyse von Eyetracking-Daten der visuellen Welt mithilfe einer mehrstufigen logistischen Regression. Journal of Memory and Language, Sonderausgabe: Emerging Data Analysis (59), S. 457-474
  • https://r-forge.r-project.org/projects/gmpm/ ist ein nicht parametrischer Ansatz für dasselbe Problem, der von Dr. Barr entwickelt wird

Wenn überhaupt, sollten beide Quellen mehr als vollständig sein, da sie sich mit der Analyse des zeitlichen Verlaufs der Position befassen.

russellpierce
quelle
4

Untersuchen Sie Modelle mit räumlich korrelierten Fehlern (und räumlich korrelierten Kovariaten). Eine kurze Einführung mit Verweisen auf GeoDa finden Sie hier . Es gibt viele Texte; gute sind von Noel Cressie , Robert Haining und Fotheringham et al. (der letzte Link führt zu einer Zusammenfassung, nicht zu einer Buchseite ). In letzter Zeit ist R-Code aufgetaucht, aber ich bin damit nicht vertraut.

whuber
quelle
3

Ich werde eine Antwort vorschlagen, die sich stark von der einer traditionellen ANOVA unterscheidet. Sei T die Gesamtzeit, die ein Tier in allen Zonen verbringen kann. Sie können T als die Gesamtdauer der Wachzeit oder eine solche definieren. Angenommen, Sie haben J-Zonen. Dann haben Sie per Definition:

Summe T_j = T.

Sie könnten das Obige normalisieren, indem Sie die lhs und die rhs durch T teilen und Sie erhalten

Summe P_j = 1

Dabei ist P_j der Zeitanteil, den ein Tier in Zone j verbringt.

Die Frage, die Sie jetzt haben, ist, ob sich P_j für alle j signifikant von 1 / J unterscheidet.

Sie könnten annehmen, dass P_j einer Dirichlet-Verteilung folgt und zwei Modelle schätzen.

Nullmodell

Stellen Sie die Parameter der Verteilung so ein, dass P_j = 1 / J. (Wenn Sie die Parameter der Verteilung auf 1 setzen, reicht dies aus.)

Alternatives Modell

Stellen Sie die Parameter der Verteilung so ein, dass sie von zonenspezifischen Kovariaten abhängen. Sie können dann die Modellparameter schätzen.

Sie würden das alternative Modell wählen, wenn es bei einigen Kriterien (z. B. Wahrscheinlichkeitsverhältnis) das Nullmodell übertrifft.


quelle