Ich habe Daten für die Population einer Reihe verschiedener Fische, die über einen Zeitraum von etwa 5 Jahren beprobt wurden, jedoch in einem sehr unregelmäßigen Muster. Manchmal liegen Monate zwischen den Proben, manchmal mehrere Proben in einem Monat. Es gibt auch viele 0-Zählungen
Wie gehe ich mit solchen Daten um?
Ich kann es leicht genug in R grafisch darstellen, aber die Grafiken sind nicht besonders aufschlussreich, weil sie sehr holprig sind.
In Bezug auf die Modellierung - mit Arten, die als Funktion verschiedener Dinge modelliert wurden - möglicherweise ein gemischtes Modell (auch bekannt als Mehrebenenmodell).
Alle Referenzen oder Ideen sind willkommen
Einige Details als Antwort auf Kommentare
Es gibt ungefähr 15 Arten.
Ich versuche, mir ein Bild von den Trends oder der Saisonalität der einzelnen Fische zu machen und zu untersuchen, wie die Arten miteinander in Beziehung stehen (mein Kunde wollte ursprünglich eine einfache Tabelle mit Korrelationen).
Das Ziel ist beschreibend und analytisch, nicht prädiktiv
Weitere Änderungen: Ich habe dieses Papier von K. Rehfield et al. Gefunden, das die Verwendung von Gaußschen Kernen zur Schätzung des ACF für sehr unregelmäßige Zeitreihen vorschlägt
http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf
quelle
Antworten:
Ich habe einige Zeit damit verbracht, einen allgemeinen Rahmen für ungleichmäßig verteilte Zeitreihen zu erstellen: http://www.eckner.com/research.html
Darüber hinaus habe ich einen Artikel geschrieben, in dem es um die Schätzung von Trends und Saisonalitäten für ungleichmäßig verteilte Zeitreihen geht.
Ich hoffe, Sie finden die Ergebnisse hilfreich!
quelle
Ich weiß nicht, ob ein gemischtes Modell sehr geeignet ist (unter Verwendung der Standardpakete, bei denen die Zufallseffektstruktur ein linearer Prädiktor ist), es sei denn, Sie denken, dass die Daten zu allen Zeitpunkten in gewissem Sinne miteinander austauschbar sein sollten (in diesem Fall) Die unregelmäßigen Intervalle sind kein Problem. Es würde die zeitliche Autokorrelation nicht wirklich auf vernünftige Weise modellieren. Es ist möglich, dass Sie lmer () dazu verleiten könnten, eine autogressive Sache zu machen, aber wie genau Sie das tun würden, entgeht mir gerade (ich denke vielleicht nicht klar). Ich bin mir auch nicht sicher, welche "Gruppierungsvariable" die Autokorrelation im gemischten Modellszenario induziert.
Wenn die zeitliche Autokorrelation ist ein Ärgernis Parameter und Sie nicht erwarten , dass es sein zugroß, dann könnten Sie die Daten in Epochen einteilen, die in Bezug auf die Korrelation im Wesentlichen voneinander getrennt sind (z. B. die Zeitreihen an Punkten trennen, an denen Monate ohne Daten vorliegen) und diese als unabhängige Replikate betrachten. Sie könnten dann so etwas wie ein GEE für diesen modifizierten Datensatz ausführen, wobei der "Cluster" durch die Epoche definiert wird, in der Sie sich befinden, und die Einträge der Arbeitskorrelationsmatrix davon abhängen, wie weit die Beobachtungen voneinander entfernt sind. Wenn Ihre Regressionsfunktion korrekt ist, erhalten Sie immer noch konsistente Schätzungen der Regressionskoeffizienten, auch wenn die Korrelationsstruktur falsch angegeben ist. Auf diese Weise können Sie es auch als Zähldaten modellieren, indem Sie beispielsweise den Protokolllink verwenden (wie dies normalerweise bei der Poisson-Regression der Fall ist). Sie könnten auch eine unterschiedliche Korrelation zwischen Arten einbauen, wobei jeder Zeitpunkt als multivariater Vektor von Artenzählungen mit einer zeitlich abklingenden Assoziation zwischen Zeitpunkten betrachtet wird. Dies würde eine gewisse Vorverarbeitung erfordern, um die Standard-GEE-Pakete dazu zu verleiten.
Wenn die zeitliche Autokorrelation kein Störparameter ist, würde ich eher ein strukturiertes Kovarianzmodell ausprobieren, bei dem Sie den gesamten Datensatz als eine Beobachtung eines großen multivariaten Vektors betrachten, sodass die Kovarianz zwischen den Beobachtungen auf Arten ist u , vYs,Yt u,v
Dabei ist eine parametrische Funktion, die bis zu einer endlichen Anzahl von Parametern bekannt ist, , zusammen mit einer Anzahl von Parametern, um die mittlere Struktur zu steuern. Möglicherweise müssen Sie für ein Modell wie dieses "Ihre eigenen erstellen", aber ich wäre auch nicht überrascht, wenn es MPLUS-Pakete gibt, mit denen solche Dinge für Zähldaten ausgeführt werden können.θf θ
quelle
surveillance
Paket kann die gewünschte Funktionalität haben. Diese Art der Modellierung ist in ökologischen Studien nicht ungewöhnlich, daher ist es wahrscheinlich am besten, ein gutes Paket in den ökologischen Ecken von CRAN zu finden.