Ist es sinnvoll, eine Datumsvariable in einer Regression zu verwenden?

16

Ich bin es nicht gewohnt, Variablen im Datumsformat in R zu verwenden. Ich frage mich nur, ob es möglich ist, eine Datumsvariable als erklärende Variable in einem linearen Regressionsmodell hinzuzufügen. Wie können wir den Koeffizienten interpretieren, wenn es möglich ist? Ist es die Auswirkung eines Tages auf die Ergebnisvariable?

Sehen Sie sich anhand eines Beispiels an, was ich zu tun versuche.

PAC
quelle
3
Ein Datum kann in eine Zahl umgewandelt werden.
Mein Eindruck ist, dass R es automatisch tut
PAC
3
Die daraus resultierenden Zahlen sind jedoch oft sehr groß, was zu Problemen führen kann. Besser, Sie rechnen sich selbst um, zB in Zeitschritten (Stunden oder Tage oder ...) seit Beginn der Messungen. Das erleichtert auch die Interpretation des Abschnitts.
Roland
3
In Faktor konvertieren (um tagesfeste Effekte zu erhalten) oder in numerisch konvertieren und neu skalieren, sodass der Wert des ersten Tages 0 ist, um einen linearen Effekt der Tage seit dem Ursprung zu erhalten.
Thomas
1
Das ist eine wirklich gute Frage. Ich denke, dass es sowohl eine statistische Frage als auch eine Programmierfrage ist. Die Programmierfrage ist, wie R mit Datumsangaben umgeht, wenn wir Datumsangaben als erklärende Variable in ein Regressionsmodell einfügen, und die statistische Frage ist nach der genauen Interpretation des Koeffizienten.
PAC

Antworten:

17

Aufbauend auf früheren Kommentaren zu Stack Overflow:

Ja, das macht Sinn. Hier spreche ich die allgemeine Frage an und überlasse R-Experten gerne die entscheidenden Details. Meiner Ansicht nach sollten wir uns, da dies jetzt auf Cross-Validated basiert, nicht zu sehr auf die Lieblingssoftware des Posters konzentrieren, obwohl dies für Gleichgesinnte wichtig ist.

Daten in jeder Software, die nicht numerisch sind, können in numerische Variablen umgewandelt werden, ausgedrückt in Jahren, Tagen, Millisekunden oder was auch immer, seit einiger Zeit. Der jedem Datum zugeordnete Koeffizient weist Nennereinheiten auf, die unabhängig von den Einheiten des Datums sind. Die Zählereinheiten hängen von denen der Antwort- oder abhängigen Variablen ab. (Nicht-Identity-Link-Funktionen erschweren dies natürlich.)

In der Regel ist es jedoch am sinnvollsten, wenn Daten auf einen für die Studie sinnvollen Ursprung verschoben werden. Normalerweise, aber nicht unbedingt, sollte der Ursprung ein Datum innerhalb des Studienzeitraums oder sehr nahe daran sein.

Vielleicht ist der einfachste Fall die lineare Regression einer Datumsvariablen in Jahren. Hier ist eine Regression von einigen responseauf , dateausgedrückt als Daten wie 2000 oder 2010 einen Schnitt impliziert , die der Wert ist responseim ersten Jahr 0 Abgesehen von der kalendarischen Detail , dass es kein solches Jahr, wie ein Schnittpunkt ist oft unsinnig groß positiv oder negativ, das ist logisch, aber eine Ablenkung in Interpretation und Präsentation (auch für ein gut informiertes Publikum).

In einem realen Beispiel aus der Arbeit mit Studenten während des Studiums stieg die Anzahl der Wirbelstürme pro Jahr in einem bestimmten Bereich mit dem Datum leicht an, und ein linearer Trend schien ein vernünftiger erster Anstoß zu sein. Der Regressionsabschnitt war eine große negative Zahl, die viel Verwirrung stiftete, bis klar wurde, dass dies wie immer eine Hochrechnung auf das Jahr 0 war. Die Verlagerung des Ursprungs auf das Jahr 2000 führte zu besseren Ergebnissen. (Tatsächlich war eine Poisson-Regression, die positive Vorhersagen sicherstellt, sogar noch besser, aber das ist eine andere Geschichte.)

Nachziehen date - 2000oder was auch immer ist daher eine gute Idee. Die inhaltlichen Details einer Studie weisen häufig auf ein gutes Basisdatum hin, dh einen neuen Ursprung.

Die Verwendung anderer Modelle und / oder anderer Prädiktoren untergräbt dieses Prinzip nicht. es verdeckt es nur.

Es ist auch eine gute Idee, die Ergebnisse anhand der am einfachsten zu bedenkenden Daten grafisch darzustellen. Dies können die ursprünglichen Daten sein; Das ist kein Widerspruch, da es genau dasselbe Prinzip ist, das zu verwenden, woran man am einfachsten denken kann.

Ein kleiner Gedanke zeigt, dass das Prinzip viel allgemeiner ist. Wir sind oft besser dran mit (20 Jahre) oder so, um logische, aber umständliche Vorhersagen für Alter 0 zu vermeiden.

EDIT 21 March 2019 (original 29 Jul 2013): Diese Argumente wurden in Cox, NJ 2015 in einem Stata-Kontext diskutiert. Stata Journal 15: 574-587 finden Sie hier

EDIT 2 auch 4. Dezember 2015 @whuber in Kommentaren wirft auch das wichtige Problem der numerischen Präzision auf. Oft sind die Zeiteinheiten in Ordnung und die resultierenden Daten oder Datumszeiten können sehr groß sein, was wichtige Probleme für Quadratsummen usw. aufwirft. Er führt ein Beispiel von R an. Dazu können wir beispielsweise hinzufügen, dass Datumsangaben in Stata seit Anfang 1960 Millisekunden sind. Dieses Problem ist überhaupt nicht datenspezifisch, da es im Allgemeinen bei sehr großen Zahlen auftreten kann oder sehr klein, aber es lohnt sich auch zu markieren.

Nick Cox
quelle
1
Aus wirtschaftlicher Sicht wird das Datum häufig als Proxy für eine nicht messbare Variable oder einfach für Daten verwendet, die Sie nicht einfach erhalten können. Dies ist daran zu erkennen, dass die Verkaufsrate eines bestimmten Produkts von einem neuen Unternehmen im Laufe der Zeit mit zunehmender Bekanntheit der Marke steigt. Da Sie höchstwahrscheinlich keine Metrik für die Markenerkennung haben, kann das Datum als Proxy verwendet werden. Dies würde Ihren anderen Regressoren "realistischere" Koeffizienten verleihen. ** TL: DR ** Sie sollten vorsichtig sein, wenn Sie das Datum in Ihrer Regression verwenden, ohne darüber nachzudenken, welche nicht gemessenen Faktoren mit dem Datum korrelieren könnten, das sich auf Ihre unabhängige Variable auswirken würde
scott
1
Guter Rat. Ich vermute, dass (eine Funktion des) Kalenderdatums in der Regel ein Proxy für einen zeitlichen Prozess ist, der ansonsten schwer zu erfassen ist, sodass der Punkt weit über die Ökonometrie hinausgeht.
Nick Cox
1
Ich mag Sinus und Cosinus genauso gern wie jeder andere, aber welche Stichproben von Problemen in verschiedenen Disziplinen führen zu diesem Urteil?
Nick Cox
1
Bei Interesse finden Sie unter stata-journal.com/sjsearch.html?choice=keyword&q=season Links zu einigen meiner Arbeiten zur Saisonalität.
Nick Cox
3
R1
5

Wie oben erwähnt, sind Datumsangaben bei geeigneter Skalierung hervorragende Regressoren. Zeiteffekte sind mit geringerer Wahrscheinlichkeit linear als selbst die typischen Kovariaten. Daher verwende ich fast immer zeitliche Regressionssplines. Einige komplexe Zeittrends erfordern viele Knoten (z. B. 7 oder mehr), um zu passen. Eingeschränkte kubische Splines (natürliche Splines) sorgen für eine sicherere lineare Extrapolation über das Ende der beobachteten Zeiten hinaus, obwohl eine Extrapolation selten völlig ungefährlich ist.

Frank Harrell
quelle