In diesem speziellen Fall beziehe ich mich auf den Tag, an dem ein See gefriert. Dieses "Ice-On" -Datum tritt nur einmal im Jahr auf, aber manchmal überhaupt nicht (wenn der Winter warm ist). In einem Jahr kann der See an Tag 20 (20. Januar) einfrieren und in einem anderen Jahr kann er überhaupt nicht einfrieren.
Das Ziel ist es, die Fahrer des Ice-On-Datums herauszufinden.
Prädiktoren wären beispielsweise die jährliche Herbst- / Winterlufttemperatur. Das Jahr könnte ein Prädiktor für den langfristigen linearen Trend sein.
1) Ist die Ganzzahl "Tag des Jahres" eine vernünftige Antwortvariable (wenn nicht, was ist das?)?
2) Wie soll man mit den Jahren umgehen, in denen der See nie gefroren ist?
Bearbeiten:
Ich weiß nicht, wie die Etikette lautet, aber ich dachte mir, ich würde das Ergebnis der Vorschläge veröffentlichen, die ich erhalten habe. Hier ist das Papier, Open Access . Ich habe gute Rückmeldungen zum verwendeten Ansatz erhalten, danke an @pedrofigueira und @cboettig. Natürlich sind Fehler meine eigenen.
Antworten:
Ich denke, man kann "Tag des Jahres" als Antwortvariable auf eine multivariate Regression betrachten. Um Jahre zu bewältigen, in denen der See nie gefroren ist, würde ich einfach annehmen, dass der Tag des Gefrierens größer ist als eine beobachtbare Untergrenze, die beispielsweise dem Tag entspricht, an dem der Eisgehalt zu schmelzen beginnt (oder vollständig schmilzt, wenn Sie möchten) sehr konservativ sein). Theoretisch sollte es danach einfrieren oder kann danach einfrieren, aber wir wissen es nicht. Auf diese Weise können Sie anhand der Daten, die Sie für die verschiedenen Parameter gesammelt haben, nachvollziehen, wie der Gefriertag von ihnen abhängt, sofern er nach dem letzten beobachtbaren Datum liegen darf. Sie können dann ein Tobit-Modell verwendengleichzeitig einfrierende Tage (entsprechend "normalen" Datenpunkten) und Untergrenzen (entsprechend Grenzen und damit einer zensierten Regression) zu behandeln.
Um die gemessenen Untergrenzen korrekt in die Analyse einzubeziehen, können Sie ein zensiertes Regressionsmodell verwenden, bei dem die abhängige Variable eine Grenze zum Wert der Untergrenze aufweist. Das oben erwähnte Tobit-Modell ist für diesen Fall geeignet; es wird die Existenz einer nicht beobachtbaren (latenten) abhängigen Variablen die in unserem Fall dem Einfrierdatum entspricht, wenn der Winter auf unbestimmte Zeit verlängert wird. Die beobachtbare abhängige Variable y i (dh die gemessene Untergrenze am Gefrierdatum) wird dann bei Fehlen einer Untergrenze L i als gleich der latenten Variablen und ansonsten als gleich der Untergrenze angenommeny∗i yi Li
Die Anwendung des Tobit-Modells zur Handhabung der beobachtungsweisen Zensur führt zu einer Log-Likelihood-Funktion des Formulars
wobei und Φ ( . ) die Wahrscheinlichkeits- und die kumulative Dichtefunktion der Standardnormalverteilung bezeichnen. Der Index i läuft auf den Beobachtungen und j auf den unabhängigen Variablen. Die Lösung für die lineare Regression ist der Satz von Parametern β j (einschließlich Achsenabschnitt), der die Log-Likelihood-Funktion maximiert.ϕ(.) Φ(.) i j βj
quelle
Tag des Jahres ist eine vernünftige Prädiktorvariable, und deshalb halte ich es für vernünftig, sie so zu behandeln, wie es @pedrofigueira vorschlägt.
Bei anderen Prädiktorvariablen müssen Sie möglicherweise vorsichtig sein, wie Sie die Zeit darstellen. Stellen Sie sich zum Beispiel vor, Sie haben Tagestemperaturen - wie würden Sie die Lufttemperatur als Vorhersage für den Tag mit Eis modellieren? Ich halte es nicht für ausreichend, dieselben Stichproben am Tag des Jahres zu vergleichen.
In einer solchen Analyse ist es meines Erachtens hilfreich, das aufzuschreiben, was Ihrer Meinung nach ein plausibles Modell (oder Modelle) der Daten ist (wobei einige physikalische Daten möglicherweise als Leitfaden zur Verfügung stehen). Zum Beispiel könnte ein vernünftiges Modell darin bestehen, die Anzahl der Tage unter dem Gefrierpunkt zu integrieren, und wenn dieses Integral einen Schwellenwert überschreitet (z. B. in Bezug auf die thermische Masse des Sees), tritt Eis auf. Von einem solchen Modell können Sie dann fragen, was eine vernünftige Annäherung ist und was nicht.
Zum Beispiel ist der Tag des Jahres als Prädiktor für dieses Modell nur insofern von Bedeutung, als der Tag des Jahres ein guter Prädiktor für die Temperatur ist. Wenn man also nur den Tag des Jahres kennt, hat man nur einen durchschnittlichen Tag des Jahres, der der Eisschwelle entspricht, wobei sich möglicherweise eine gewisse Normalverteilung aufgrund von Temperaturschwankungen zwischen den Jahren ergibt. des Jahres ist völlig gerechtfertigt.
Wenn Sie jedoch andere Variablen wie die Lufttemperatur am Tag kennen, müssen Sie sich wahrscheinlich direkter mit etwas komplizierteren Modellen auseinandersetzen. Wenn Sie nur die Jahreswerte (Minimum? Mittel?) Als Prädiktor für den Eistag verwenden, erscheint dies ebenfalls vernünftig (mit demselben Argument wie oben).
quelle
Für dieses Problem benötigen Sie zwei Antwortvariablen. Eine boolesche Antwort, die angibt, ob der See gefroren ist oder nicht, und eine ganzzahlige Antwort, die den Tag des Jahres angibt, sofern der Indikator wahr ist. In Jahren, in denen der See gefroren ist, werden sowohl die Booleschen als auch die Ganzzahl beobachtet. In Jahren, in denen der See nicht gefroren ist, wird der Boolesche Wert beobachtet und der ganzzahlige Wert nicht. Sie können eine logistische Regression für den Booleschen Wert verwenden. Die Regression für den Tag des Jahres könnte eine gewöhnliche lineare Regression sein.
Die Kreisform des Tages des Jahres sollte kein Problem sein, solange Sie die möglichen Einfriertage innerhalb eines bestimmten Zeitraums fortlaufend nummerieren. Wenn Sie sich fragen, wo Sie mit der Nummerierung beginnen sollen, würde ich den Tag vorschlagen, an dem die Prädiktoren gemessen wurden. Wenn das Modell kausale Effekte darstellen soll, müssen alle Prädiktoren vor einem möglichen Einfrieren gemessen worden sein.
Verwenden Sie ein Diskretisierungsmodell, um die Ganzzahl und die Begrenztheit des Tages des Jahres zu verarbeiten. Das heißt, es gibt einen realen latenten Wert, der eine Beobachtung auf folgende Weise erzeugt: Wenn der Wert innerhalb der Grenzen liegt, entspricht die Beobachtung dem auf die nächste ganze Zahl gerundeten latenten Wert, andernfalls wird der Wert auf die Grenzen abgeschnitten. Der latente Wert selbst kann dann als eine lineare Funktion der Prädiktoren plus Rauschen modelliert werden.
quelle
Was Sie haben, sind Zeit-zu-Ereignis-Daten, die auch als Überlebensanalyse bezeichnet werden. Das ist nicht wirklich meine Gegend, daher gebe ich hier keine detaillierte Antwort. Wenn Sie nach "Time-to-Event-Daten" oder "Überlebensanalyse" googeln, werden Sie eine Menge Treffer erhalten!
Ein guter Ausgangspunkt könnte das Kapitel (13) zur Überlebensanalyse in Venables / Ripley: MASS oder der Klassiker "Die statistische Analyse von Ausfallzeitdaten, 2. Auflage" von John D. Kalbfleisch, Ross L. Prentice (auth.) Sein.
BEARBEITEN, ERWEITERTE ANTWORT
Als Alternative zur Überlebensanalyse können Sie dies durch eine ordinale logistische Regression approximieren. Definieren Sie beispielsweise in Ihrem Beispiel für das Datum des ersten Einfrierens einige Daten, für die Sie den Status "eingefroren oder vor" angegeben haben: 0 (kein Einfrieren), 1 (Einfrieren). Das passt gut zu den Jahren ohne Einfrieren, Sie haben einfach einen Null-Antwortvektor. Wenn Ihre ausgewählten Daten sind, sagen wir,
und im Allgemeinen haben alle Antwortvektoren einen Anfangsblock von Nullen, gefolgt von einem Block von Einsen. Anschließend können Sie diese Option mit der ordinalen logistischen Regression verwenden und für jedes Datum eine geschätzte Wahrscheinlichkeit des Einfrierens ermitteln. Das Zeichnen dieser Kurve ergibt eine Annäherung für eine Überlebenskurve (das Überleben wird in diesem Zusammenhang "noch nicht eingefroren").
Man könnte Ihre Daten auch als wiederkehrende Ereignisse betrachten, da der Fluss (fast) jedes Jahr einfriert. Siehe meine Antwort hier: Suche nach signifikanten Prädiktoren für psychiatrische Rückübernahmen
quelle