Ich bin es nicht gewohnt, Variablen im Datumsformat in R zu verwenden. Ich frage mich nur, ob es möglich ist, eine Datumsvariable als erklärende Variable in einem linearen Regressionsmodell hinzuzufügen. Wie können wir den Koeffizienten interpretieren, wenn es möglich ist? Ist es die Auswirkung eines Tages auf die Ergebnisvariable?
Sehen Sie sich anhand eines Beispiels an, was ich zu tun versuche.
r
regression
time-series
PAC
quelle
quelle
Antworten:
Aufbauend auf früheren Kommentaren zu Stack Overflow:
Ja, das macht Sinn. Hier spreche ich die allgemeine Frage an und überlasse R-Experten gerne die entscheidenden Details. Meiner Ansicht nach sollten wir uns, da dies jetzt auf Cross-Validated basiert, nicht zu sehr auf die Lieblingssoftware des Posters konzentrieren, obwohl dies für Gleichgesinnte wichtig ist.
Daten in jeder Software, die nicht numerisch sind, können in numerische Variablen umgewandelt werden, ausgedrückt in Jahren, Tagen, Millisekunden oder was auch immer, seit einiger Zeit. Der jedem Datum zugeordnete Koeffizient weist Nennereinheiten auf, die unabhängig von den Einheiten des Datums sind. Die Zählereinheiten hängen von denen der Antwort- oder abhängigen Variablen ab. (Nicht-Identity-Link-Funktionen erschweren dies natürlich.)
In der Regel ist es jedoch am sinnvollsten, wenn Daten auf einen für die Studie sinnvollen Ursprung verschoben werden. Normalerweise, aber nicht unbedingt, sollte der Ursprung ein Datum innerhalb des Studienzeitraums oder sehr nahe daran sein.
Vielleicht ist der einfachste Fall die lineare Regression einer Datumsvariablen in Jahren. Hier ist eine Regression von einigen
response
auf ,date
ausgedrückt als Daten wie 2000 oder 2010 einen Schnitt impliziert , die der Wert istresponse
im ersten Jahr 0 Abgesehen von der kalendarischen Detail , dass es kein solches Jahr, wie ein Schnittpunkt ist oft unsinnig groß positiv oder negativ, das ist logisch, aber eine Ablenkung in Interpretation und Präsentation (auch für ein gut informiertes Publikum).In einem realen Beispiel aus der Arbeit mit Studenten während des Studiums stieg die Anzahl der Wirbelstürme pro Jahr in einem bestimmten Bereich mit dem Datum leicht an, und ein linearer Trend schien ein vernünftiger erster Anstoß zu sein. Der Regressionsabschnitt war eine große negative Zahl, die viel Verwirrung stiftete, bis klar wurde, dass dies wie immer eine Hochrechnung auf das Jahr 0 war. Die Verlagerung des Ursprungs auf das Jahr 2000 führte zu besseren Ergebnissen. (Tatsächlich war eine Poisson-Regression, die positive Vorhersagen sicherstellt, sogar noch besser, aber das ist eine andere Geschichte.)
Nachziehen
date - 2000
oder was auch immer ist daher eine gute Idee. Die inhaltlichen Details einer Studie weisen häufig auf ein gutes Basisdatum hin, dh einen neuen Ursprung.Die Verwendung anderer Modelle und / oder anderer Prädiktoren untergräbt dieses Prinzip nicht. es verdeckt es nur.
Es ist auch eine gute Idee, die Ergebnisse anhand der am einfachsten zu bedenkenden Daten grafisch darzustellen. Dies können die ursprünglichen Daten sein; Das ist kein Widerspruch, da es genau dasselbe Prinzip ist, das zu verwenden, woran man am einfachsten denken kann.
Ein kleiner Gedanke zeigt, dass das Prinzip viel allgemeiner ist. Wir sind oft besser dran mit (20 Jahre) oder so, um logische, aber umständliche Vorhersagen für Alter 0 zu vermeiden.
EDIT 21 March 2019 (original 29 Jul 2013): Diese Argumente wurden in Cox, NJ 2015 in einem Stata-Kontext diskutiert. Stata Journal 15: 574-587 finden Sie hier
EDIT 2 auch 4. Dezember 2015 @whuber in Kommentaren wirft auch das wichtige Problem der numerischen Präzision auf. Oft sind die Zeiteinheiten in Ordnung und die resultierenden Daten oder Datumszeiten können sehr groß sein, was wichtige Probleme für Quadratsummen usw. aufwirft. Er führt ein Beispiel von R an. Dazu können wir beispielsweise hinzufügen, dass Datumsangaben in Stata seit Anfang 1960 Millisekunden sind. Dieses Problem ist überhaupt nicht datenspezifisch, da es im Allgemeinen bei sehr großen Zahlen auftreten kann oder sehr klein, aber es lohnt sich auch zu markieren.
quelle
R
Wie oben erwähnt, sind Datumsangaben bei geeigneter Skalierung hervorragende Regressoren. Zeiteffekte sind mit geringerer Wahrscheinlichkeit linear als selbst die typischen Kovariaten. Daher verwende ich fast immer zeitliche Regressionssplines. Einige komplexe Zeittrends erfordern viele Knoten (z. B. 7 oder mehr), um zu passen. Eingeschränkte kubische Splines (natürliche Splines) sorgen für eine sicherere lineare Extrapolation über das Ende der beobachteten Zeiten hinaus, obwohl eine Extrapolation selten völlig ungefährlich ist.
quelle