Sehr unregelmäßige Zeitreihen

Ich habe Daten für die Population einer Reihe verschiedener Fische, die über einen Zeitraum von etwa 5 Jahren beprobt wurden, jedoch in einem sehr unregelmäßigen Muster. Manchmal liegen Monate zwischen den Proben, manchmal mehrere Proben in einem Monat. Es gibt auch viele 0-Zählungen

Wie gehe ich mit solchen Daten um?

Ich kann es leicht genug in R grafisch darstellen, aber die Grafiken sind nicht besonders aufschlussreich, weil sie sehr holprig sind.

In Bezug auf die Modellierung - mit Arten, die als Funktion verschiedener Dinge modelliert wurden - möglicherweise ein gemischtes Modell (auch bekannt als Mehrebenenmodell).

Alle Referenzen oder Ideen sind willkommen

Einige Details als Antwort auf Kommentare

Es gibt ungefähr 15 Arten.

Ich versuche, mir ein Bild von den Trends oder der Saisonalität der einzelnen Fische zu machen und zu untersuchen, wie die Arten miteinander in Beziehung stehen (mein Kunde wollte ursprünglich eine einfache Tabelle mit Korrelationen).

Das Ziel ist beschreibend und analytisch, nicht prädiktiv

Weitere Änderungen: Ich habe dieses Papier von K. Rehfield et al. Gefunden, das die Verwendung von Gaußschen Kernen zur Schätzung des ACF für sehr unregelmäßige Zeitreihen vorschlägt

http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf

time-series multilevel-analysis unevenly-spaced-time-series Peter Flom - Monica wieder einsetzen
quelle

Ich bin nicht der richtige Mann, um Ihre Frage zu beantworten, aber ein Mehrebenenmodell klingt vernünftig. Gibt es Hinweise darauf, wie groß die Proben sind, wie viele Arten es gibt und wie die Nullzählungen zustande kommen? (Im letzten Punkt sind die Stichprobenversuche zufällige Stichproben oder sind sie voreingenommen, als hätten Sie gerade die Zählungen von einem Bass-Angelwettbewerb erhalten, der wahrscheinlich keinen Wels hervorbringen wird?)

Wayne

"Deal with" bedeutet was genau? Für einige Ideen zur Bewältigung unregelmäßiger Zeiten suchen Sie diese Seite auf "+ unregelmäßige + Zeit"

whuber

Können Sie die Stichprobe und das Ziel klären? Ist das zum Beispiel Capture-Recapture? Ist es ein Netz, das für einen bestimmten Zeitraum ohne Veröffentlichung in einem Stream platziert wurde? Versuchen Sie, zukünftige Stichprobengrößen oder die größere Population zu schätzen, aus der eine Stichprobe gezogen wird? Sind die Proben von 1 oder mehreren Orten? An unregelmäßigen Zeitreihen ist nichts auszusetzen, aber es ist ein wenig schwierig, den Zusammenhang zwischen Stichprobenereignissen und zwischen den Stichproben und einer Zielvariablen (z. B. einer Modellantwort) zu verstehen. Ist das Ziel auch prädiktiver oder beschreibender Natur?

Iterator

Warum hat jemand diese Frage abgelehnt? Warum nicht versuchen, eine bessere Frage oder Antwort zu entwickeln?

Iterator

@Iterator Denn auch jetzt, nach "weiteren Änderungen", gibt es hier keine klare Frage. Die Abwertung (abgegeben, nachdem keine Antwort auf meinen ersten Kommentar beobachtet wurde) wurde abgegeben, um das OP zu ermutigen, die notwendigen Verbesserungen sowie ein Signal für den einzigen teilweise gebildeten Zustand der Frage in ihrer jetzigen Form bereitzustellen. Es ist nicht die Aufgabe eines jeden Lesers (oder der Mods) zu erraten, was beabsichtigt ist!

whuber

Antworten:

Ich habe einige Zeit damit verbracht, einen allgemeinen Rahmen für ungleichmäßig verteilte Zeitreihen zu erstellen: http://www.eckner.com/research.html

Darüber hinaus habe ich einen Artikel geschrieben, in dem es um die Schätzung von Trends und Saisonalitäten für ungleichmäßig verteilte Zeitreihen geht.

Ich hoffe, Sie finden die Ergebnisse hilfreich!

Andreas Eckner
quelle

Vielen Dank! Diese Analyse ist lange her und ich mache sie nicht mehr, aber ähnliche Dinge könnten wieder auftauchen; und andere durchsuchen diese Threads häufig, damit Ihr Kommentar nicht verschwendet wird.

Peter Flom - Monica wieder einsetzen

Vielen Dank für die Informationen (und tatsächlich Jahre später sucht jemand im Internet danach!), Aber der Link ist tot.

Hooked

Ich weiß nicht, ob ein gemischtes Modell sehr geeignet ist (unter Verwendung der Standardpakete, bei denen die Zufallseffektstruktur ein linearer Prädiktor ist), es sei denn, Sie denken, dass die Daten zu allen Zeitpunkten in gewissem Sinne miteinander austauschbar sein sollten (in diesem Fall) Die unregelmäßigen Intervalle sind kein Problem. Es würde die zeitliche Autokorrelation nicht wirklich auf vernünftige Weise modellieren. Es ist möglich, dass Sie lmer () dazu verleiten könnten, eine autogressive Sache zu machen, aber wie genau Sie das tun würden, entgeht mir gerade (ich denke vielleicht nicht klar). Ich bin mir auch nicht sicher, welche "Gruppierungsvariable" die Autokorrelation im gemischten Modellszenario induziert.

Wenn die zeitliche Autokorrelation ist ein Ärgernis Parameter und Sie nicht erwarten , dass es sein zugroß, dann könnten Sie die Daten in Epochen einteilen, die in Bezug auf die Korrelation im Wesentlichen voneinander getrennt sind (z. B. die Zeitreihen an Punkten trennen, an denen Monate ohne Daten vorliegen) und diese als unabhängige Replikate betrachten. Sie könnten dann so etwas wie ein GEE für diesen modifizierten Datensatz ausführen, wobei der "Cluster" durch die Epoche definiert wird, in der Sie sich befinden, und die Einträge der Arbeitskorrelationsmatrix davon abhängen, wie weit die Beobachtungen voneinander entfernt sind. Wenn Ihre Regressionsfunktion korrekt ist, erhalten Sie immer noch konsistente Schätzungen der Regressionskoeffizienten, auch wenn die Korrelationsstruktur falsch angegeben ist. Auf diese Weise können Sie es auch als Zähldaten modellieren, indem Sie beispielsweise den Protokolllink verwenden (wie dies normalerweise bei der Poisson-Regression der Fall ist). Sie könnten auch eine unterschiedliche Korrelation zwischen Arten einbauen, wobei jeder Zeitpunkt als multivariater Vektor von Artenzählungen mit einer zeitlich abklingenden Assoziation zwischen Zeitpunkten betrachtet wird. Dies würde eine gewisse Vorverarbeitung erfordern, um die Standard-GEE-Pakete dazu zu verleiten.

Wenn die zeitliche Autokorrelation kein Störparameter ist, würde ich eher ein strukturiertes Kovarianzmodell ausprobieren, bei dem Sie den gesamten Datensatz als eine Beobachtung eines großen multivariaten Vektors betrachten, sodass die Kovarianz zwischen den Beobachtungen auf Arten ist $Y_{s},Y_{t}$ $u,v$

c o v (Y_{s}, Y_{t}) = f_{θ} (s, t, u, v)

${\rm cov}(Y_{s}, Y_{t}) = f_{\theta}(s,t,u,v)$

Dabei ist eine parametrische Funktion, die bis zu einer endlichen Anzahl von Parametern bekannt ist, , zusammen mit einer Anzahl von Parametern, um die mittlere Struktur zu steuern. Möglicherweise müssen Sie für ein Modell wie dieses "Ihre eigenen erstellen", aber ich wäre auch nicht überrascht, wenn es MPLUS-Pakete gibt, mit denen solche Dinge für Zähldaten ausgeführt werden können. $f$ $\theta$

Makro
quelle

Danke @macro. Ich denke, dass ein gemischtes Modell in Ordnung sein könnte, da sie häufig für zeitlich verschachtelte Daten verwendet werden. Ich bin nicht so daran interessiert, die Autokorrelation zu modellieren - das heißt, es ist ein Ärgernis. Ich bin damit einverstanden, dass die Zeit nicht linear ist, aber ich kann Zeiteffekte hinzufügen (nicht sicher, welche noch, aber ich kann sie untersuchen). Ich habe kein MPLUS, aber ich habe R und SAS.

Peter Flom - Reinstate Monica

Ich sage nur, dass ein gemischtes Standardmodell in dieser Situation möglicherweise nicht geeignet ist. Der zufällige Achsenabschnitt ist nutzlos, wenn Sie nicht glauben, dass Zeitpunkte in Bezug auf die Korrelation austauschbar sind (dh er würde nur eine Annäherung innerhalb der Welt der austauschbaren Korrelation an Ihre wahre Korrelationsstruktur bieten). Wenn Sie zufällige Steigungen in die Zeit einbeziehen, denken Sie, dass die Flugbahn im Laufe der Zeit "irgendwohin" geht - da die Handlung für Sie nicht sehr aufschlussreich war, geschieht dies wahrscheinlich nicht. Ich gebe zu, vielleicht können Sie lmer () dazu bringen, etwas passenderes zu tun.

Makro

+1 Eine gute, präzise Antwort, die alle wichtigen Punkte anspricht, die ich ansprechen wollte, und mehr. In Bezug auf Pakete in R werden bei einer Google-Suche in CRAN nach [Poisson Regression Temporal] mehrere Pakete angezeigt. Das surveillancePaket kann die gewünschte Funktionalität haben. Diese Art der Modellierung ist in ökologischen Studien nicht ungewöhnlich, daher ist es wahrscheinlich am besten, ein gutes Paket in den ökologischen Ecken von CRAN zu finden.

Iterator