Zusammenhang und Differenz zwischen Zeitreihen und Regression?

12

Was sind Beziehung und Unterschied zwischen Zeitreihen und Regression?

Ist es für Modelle und Annahmen richtig, dass die Regressionsmodelle die Unabhängigkeit zwischen den Ausgabevariablen für verschiedene Werte der Eingabevariablen annehmen, während das Zeitreihenmodell dies nicht tut? Was sind noch einige andere Unterschiede?

Für Methoden von einer Website von Darlington

Es gibt eine Reihe von Ansätzen für die Zeitreihenanalyse, die beiden bekanntesten sind jedoch die Regressionsmethode und die Box-Jenkins-Methode (1976) oder die ARIMA-Methode (AutoRegressive Integrated Moving Average). Dieses Dokument führt in die Regressionsmethode ein. Ich halte die Regressionsmethode aus drei Hauptgründen für ARIMA weit überlegen

Ich verstehe nicht ganz, was die "Regressionsmethode" für Zeitreihen auf der Website ist und wie sie sich von der Box-Jenkins- oder ARIMA-Methode unterscheidet. Ich freue mich, wenn jemand Einblicke in diese Fragen geben kann.

Danke und Grüße!

Tim
quelle
2
Die meisten Antworten und Kommentare konzentrieren sich hier auf die spezifischere Frage gegen Ende. Dies ist nur eine Markierung, bei der es bei der Zeitreihenanalyse um viel, viel mehr geht als um Box-Jenkins oder ARIMA. Ganze Bereiche der Zeitreihenanalyse haben einen ganz anderen (oder zumindest allgemeineren) Fokus. Nicht beobachtete Komponentenmodelle sind nur eines von mehreren Beispielen.
Nick Cox

Antworten:

17

Ich denke wirklich, dass dies eine gute Frage ist und eine Antwort verdient. Der angegebene Link wurde von einem Psychologen verfasst, der behauptet, dass eine hausgemachte Methode eine bessere Methode für die Zeitreihenanalyse ist als Box-Jenkins. Ich hoffe, dass mein Versuch, eine Antwort zu finden, andere, die sich mit Zeitreihen besser auskennen, ermutigen wird, einen Beitrag zu leisten.

zt=α1zt1++αkztk+εt
ztzt12karFunktion. Ich habe es ausprobiert und es gibt in der Regel ähnliche Antworten wie die Standardmethode zum Anpassen eines AR-Modells in R.

zttt

Aber es scheint, als würde er auch eine Überanpassung befürworten und dann die Reduzierung des mittleren Fehlerquadrats zwischen der angepassten Reihe und den Daten als Beweis dafür verwenden, dass seine Methode besser ist. Beispielsweise:

Ich halte Korrelogramme jetzt für veraltet. Ihr Hauptzweck bestand darin, den Mitarbeitern zu ermöglichen, zu erraten, welche Modelle am besten zu den Daten passen, aber die Geschwindigkeit moderner Computer (zumindest bei der Regression, wenn nicht bei der Zeitreihenmodellanpassung) ermöglicht es einem Mitarbeiter, einfach mehrere Modelle anzupassen und genau zu sehen, wie jedes passt, gemessen als mittlerer quadratischer Fehler. [Die Frage der Kapitalisierung durch Zufall ist für diese Wahl nicht relevant, da beide Methoden für dieses Problem gleichermaßen anfällig sind.]

Dies ist keine gute Idee, da der Test eines Modells sein soll, wie gut es prognostiziert werden kann, und nicht, wie gut es zu den vorhandenen Daten passt. In seinen drei Beispielen verwendet er "Adjusted Root Mean Squared Error" als Kriterium für die Qualität der Anpassung. Natürlich wird eine Überanpassung eines Modells die Fehlerabschätzung in der Stichprobe verkleinern, sodass seine Behauptung, dass seine Modelle "besser" sind, weil sie einen kleineren RMSE-Wert haben, falsch ist.

Kurz gesagt, da er das falsche Kriterium für die Beurteilung der Modellqualität verwendet, gelangt er zu den falschen Schlussfolgerungen über Regression im Vergleich zu ARIMA. Ich würde wetten, dass ARIMA die Nase vorn hätte , wenn er stattdessen die Vorhersagefähigkeit der Modelle getestet hätte. Vielleicht kann es jemand versuchen, wenn er Zugang zu den Büchern hat, die er hier erwähnt .

[Ergänzend: Weitere Informationen zur Regressionsidee finden Sie in älteren Zeitreihenbüchern, die geschrieben wurden, bevor ARIMA zum beliebtesten wurde. Zum Beispiel enthält Kendall, Time-Series , 1973, Kapitel 11 ein ganzes Kapitel über diese Methode und Vergleiche mit ARIMA.]

Flunder
quelle
Die Frage ist, was die (inhärenten) Unterschiede sind.
Hbaghishani
Soweit ich das beurteilen kann, hat der Autor in einer von Experten begutachteten Veröffentlichung nie seine Methode des Selbstbrühens beschrieben, und Verweise auf und aus der statistischen Literatur scheinen minimal zu sein, und seine Hauptveröffentlichungen zu methodologischen Themen stammen aus den 70er Jahren. Streng genommen „beweist“ nichts davon, aber ohne genügend Zeit und Sachverstand, um die Behauptungen selbst zu bewerten, würde ich es nur sehr ungern verwenden.
Gala
@hbaghishani der wesentliche Unterschied ist, dass autokorrelierte Daten, dh innerhalb jeder Serie, die kreuzkorrelative Interpretation verzerren. Weiterhin müssen Gaußsche Verstöße, zB konstanter Mittelwert der Fehler, konstante Varianz über die Zeit, konstante Parameter über die Zeit, berücksichtigt / korrigiert werden.
IrishStat
@flounderer Leute schreiben Lehrbücher, um sie zu verkaufen und Belohnungen zu ernten. Sie enthalten manchmal anachronistische Methoden, die fälschlicherweise gelehrt werden, weil sie zu einem früheren Zeitpunkt für richtig gehalten wurden. Um den Umsatz zu steigern, fordert der Verlag häufig (aus meiner persönlichen Erfahrung) eine veraltete, aber falsche Methodik, da diese Methoden im Lehrplan enthalten sind.
IrishStat
@IrishStat-Modellierung autokorrelierter Daten könnte durch dynamische Regressionsmodelle erfolgen. Auch andere Modelle, wie gemischte Modelle, könnten für solche Daten verwendet werden. Ich glaube nicht, dass diese Funktion den wesentlichen Unterschied ausmacht.
Hbaghishani
7

Prof. E. Parzen, vielleicht etwas neidisch, dass er die innovativen Methoden von Box und Jenkins nicht vorgeschlagen hatte, schlug diesen Ansatz der Überanpassung vor und trat dann zurück. Es scheitert aus vielen Gründen (von denen viele Flounderer gut zusammengefasst hat), einschließlich des Nicht-Identifizierens und Behebens von Impulsen, Pegelverschiebungen, saisonalen Impulsen und lokalen Zeittrends. Darüber hinaus müssen Änderungen der Parameter im Zeitverlauf oder Änderungen der Fehlervarianz im Zeitverlauf berücksichtigt werden.

Ich habe ein Stück geschrieben, das Sie vielleicht interessiert. Es heißt "Regression vs Box-Jenkins" und ist unter http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting erhältlich / doc_download / 24-Regression-gegen-Box-Jenkins

Ein Kommentar zu Darlingtons Prozedur, der Zeit, Zeit * Zeit, Zeit * Zeit * Zeit als Prädiktoren widerspiegelt. In Ermangelung einer Interventionserkennung, die zur Isolierung von Ausreißereffekten führt, ist es durchaus möglich (und falsch!), Auf höhere Zeitkräfte zu schließen. Passen Sie auf Nicht-Statistiker auf, die statistische Analysen durchführen, da Sie sich vor Statistikern hüten würden, die Gehirnoperationen durchführen. Aus Gründen der Fairness sollte man auch auf Nicht-Zeitreihen-Statistiker / Mathematiker achten, die versuchen, Zeitreihenanalysen mit begrenztem Training in Zeitreihenanalysen durchzuführen.

Andere Plakate (insbesondere whuber) auf dieser Liste haben wiederholt davor gewarnt, diesen "passenden Ansatz" zu verwenden, meist in einer univariaten Umgebung. Diese Warnung gilt auch für Kausalmodelle.

Hoffe das hilft.

IrishStat
quelle