Darf die Zeit als Prädiktor in gemischte Modelle einbezogen werden?

10

Ich habe immer geglaubt, dass Zeit nicht als Prädiktor für Regressionen (einschließlich Gams) verwendet werden sollte, weil man dann einfach den Trend selbst "beschreiben" würde. Wenn das Ziel einer Studie darin besteht, Umgebungsparameter wie Temperatur usw. zu finden, die die Varianz der Aktivität eines Tieres erklären, frage ich mich, wie kann Zeit von Nutzen sein? als Proxy für nicht gemessene Parameter?

Einige zeitliche Trends zu Aktivitätsdaten von Schweinswalen sind hier zu sehen: -> Wie gehe ich mit Lücken in einer Zeitreihe um, wenn ich GAMM mache?

Mein Problem ist: Wenn ich die Zeit in mein Modell einbeziehe (gemessen in Julianischen Tagen), werden 90% aller anderen Parameter unbedeutend (ts-Schrumpfung glatter von mgcv rausschmeißen sie). Wenn ich eine Auszeit lasse, sind einige von ihnen bedeutsam ...

Die Frage ist: Ist Zeit als Prädiktor erlaubt (vielleicht sogar benötigt?) Oder bringt sie meine Analyse durcheinander?

Vielen Dank im Voraus

Jens
quelle

Antworten:

12

Zeit ist erlaubt; Ob es benötigt wird, hängt davon ab, was Sie modellieren möchten. Das Problem, das Sie haben, ist, dass Sie Kovariaten haben, die zusammen dem Trend in den Daten zu entsprechen scheinen, was die Zeit genauso gut kann, aber weniger Freiheitsgrade verwendet - daher werden sie anstelle der Zeit gelöscht.

Wenn das Interesse daran besteht, das System zu modellieren, die Beziehung zwischen der Antwort und den Kovariaten über die Zeit, anstatt zu modellieren, wie sich die Antwort über die Zeit ändert, schließen Sie die Zeit nicht als Kovariate ein. Wenn das Ziel darin besteht, die Änderung des mittleren Niveaus der Antwort zu modellieren, schließen Sie die Zeit ein, aber nicht die Kovariate. Von dem, was Sie sagen, so scheint es , dass Sie die ehemalige wollen, nicht dieser, und sollte nicht Zeit im Modell enthalten. (Beachten Sie jedoch die zusätzlichen Informationen unten.)

Es gibt jedoch ein paar Einschränkungen. Damit die Theorie zutrifft, sollten die Residuen iid sein (oder id, wenn Sie die Unabhängigkeitsannahme mithilfe einer Korrelationsstruktur lockern). Wenn Sie die Antwort als Funktion von Kovariaten modellieren und sie keinen Trend in den Daten angemessen modellieren, haben die Residuen einen Trend, der gegen die theoretischen Annahmen verstößt, es sei denn, die angepasste Korrelationsstruktur kann diesen Trend bewältigen.

Wenn Sie dagegen den Trend allein in der Antwort modellieren (nur Zeit), kann es zu systematischen Abweichungen bei den Residuen (über den angepassten Trend) kommen, die nicht durch den Trend (Zeit) erklärt werden, und dies kann auch gegen die Annahmen verstoßen für die Residuen. In solchen Fällen müssen Sie möglicherweise andere Kovariaten einschließen, um die Residuen iid zu rendern

Warum ist das ein Problem? Wenn Sie beispielsweise testen, ob die Trendkomponente signifikant ist oder ob die Auswirkungen von Kovariaten signifikant sind, geht die verwendete Theorie davon aus, dass die Residuen iid sind. Wenn sie nicht iid sind, werden die Annahmen nicht erfüllt und die p-Werte werden vorgespannt.

Der Sinn all dessen ist, dass Sie alle verschiedenen Komponenten der Daten so modellieren müssen, dass die Residuen für die von Ihnen verwendete Theorie iid sind, um zu testen, ob die angepassten Komponenten signifikant sind, um gültig zu sein.

Betrachten Sie als Beispiel saisonale Daten, und wir möchten ein Modell anpassen, das die langfristige Variation der Daten und den Trend beschreibt. Wenn wir nur den Trend und nicht die saisonale zyklische Variation modellieren, können wir nicht testen, ob der angepasste Trend signifikant ist, da die Residuen nicht berücksichtigt werden. Für solche Daten müssten wir ein Modell sowohl mit einer saisonalen Komponente als auch mit einem Trend anpassen Komponente und ein Nullmodell, das nur die saisonale Komponente enthielt. Wir würden dann die beiden Modelle unter Verwendung eines verallgemeinerten Likelihood-Ratio-Tests vergleichen, um die Signifikanz des angepassten Trends zu bewerten. Dies erfolgt anhand anova()der $lmeKomponenten der beiden mit montierten Modelle gamm().

Stellen Sie Monica wieder her - G. Simpson
quelle
Lieber Gavin, vielen Dank für Ihre sehr hilfreichen Kommentare. Ich hoffe, dass ich Ihnen auch bald helfen kann;) Wenn ich das GLRT mit anova ausprobiere, wird mir mitgeteilt, dass "Objekt 'behoben" nicht gefunden wurde' :(
Jens
1
@Jens sollte der Anruf sein anova(mod1$lme, mod2$lme). Wenn Sie ein nicht-Gaußsches Modell anpassen, funktioniert dies möglicherweise nicht, da PQL-Methoden keine echte Log-Wahrscheinlichkeit aufweisen. Erhöhen Sie die Quasi-Wahrscheinlichkeit im Namen PQL. Dies ist ein Grund, gamm4 zu verwenden , aber dann müssen Sie etwas gegen die Korrelationsstruktur unternehmen, da lme4 dies nicht zulässt.
Stellen Sie Monica wieder her - G. Simpson