Was ist der Sinn der Zeitreihenanalyse?

29

Was ist der Punkt der Zeitreihenanalyse?

Es gibt viele andere statistische Methoden wie Regression und maschinelles Lernen, die offensichtliche Anwendungsfälle haben: Die Regression kann Informationen über die Beziehung zwischen zwei Variablen liefern, während das maschinelle Lernen für die Vorhersage hervorragend geeignet ist.

In der Zwischenzeit verstehe ich jedoch nicht, wozu eine Zeitreihenanalyse gut ist. Sicher, ich kann ein ARIMA-Modell anpassen und es zur Vorhersage verwenden, aber was nützt das, wenn die Konfidenzintervalle für diese Vorhersage sehr groß werden? Es gibt einen Grund, warum niemand den Aktienmarkt vorhersagen kann, obwohl er die datengesteuerteste Branche der Weltgeschichte ist.

Wie verwende ich es, um meinen Prozess besser zu verstehen? Klar, ich kann das ACF plotten und sagen: "Aha! Es gibt eine gewisse Abhängigkeit!", Aber was dann? Was ist der Punkt? Natürlich gibt es Abhängigkeiten, deshalb führen Sie zunächst eine Zeitreihenanalyse durch. Sie wussten bereits, dass Abhängigkeit besteht . Aber wofür wirst du es verwenden?

Dhalsim
quelle
13
Abgesehen von Finanzen und Wirtschaft gibt es andere Anwendungsfälle, in denen sie gut funktionieren.
user2974951
29
Sie können den Aktienmarkt auch nicht mit anderen statistischen und maschinellen Lernmethoden vorhersagen. Macht dies sie auch nutzlos?
Tim
16
Sie scheinen zu implizieren, dass ARIMA keine Form der Regression ist. Es ist.
Firebug
10
Ich halte dies für eine gute Frage, auch wenn die Antwort für Experten offensichtlich erscheint.
gung - Reinstate Monica
6
Ich möchte mich mit @gung und anderen unterscheiden, weil der geringste Forschungsaufwand darauf antworten würde.
whuber

Antworten:

54

Eine Hauptanwendung ist die . Ich ernähre meine Familie jetzt seit über einem Jahrzehnt, indem ich prognostiziere, wie viele Einheiten eines bestimmten Produkts ein Supermarkt morgen verkaufen wird, damit er genügend Vorräte bestellen kann, aber nicht zu viel. Darin steckt Geld.

Andere Anwendungsfälle für Prognosen werden in Veröffentlichungen wie dem International Journal of Forecasting oder Foresight angegeben . (Vollständige Offenlegung: Ich bin Associate Editor von Foresight .)

Ja, manchmal sind die sehr groß. (Ich nehme an, Sie meinen PIs, nicht s. Es gibt einen Unterschied. ) Dies bedeutet einfach, dass der Prozess schwer vorherzusagen ist. Dann müssen Sie mildern. Für die Prognose von Supermarktverkäufen ist daher viel Sicherheitsbestand erforderlich. Bei der Vorhersage des Meeresspiegelanstiegs müssen Sie daher höhere Deiche bauen. Ich würde sagen, dass ein großes Vorhersageintervall nützliche Informationen liefert.

Und für alle Prognoseanwendungsfälle, Analyis ist nützlich, wenn Prognose ein größeres Thema. Sie können Prognosen häufig verbessern, indem Sie die Abhängigkeiten in Ihren Zeitreihen berücksichtigen. Daher müssen Sie sie durch Analyse verstehen , die spezifischer ist, als nur zu wissen, dass Abhängigkeiten vorhanden sind.

Außerdem interessieren sich Menschen für Zeitreihen, auch wenn sie keine Prognosen abgeben. Ökonomen erkennen gerne Änderungspunkte in makroökonomischen Zeitreihen. Oder bewerten Sie die Auswirkungen einer Intervention, wie z. B. eine Änderung der Steuergesetze, auf das BIP oder etwas anderes. Vielleicht möchten Sie sich in Ihrem bevorzugten Ökonometrie-Journal inspirieren lassen.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
14
+1. Es ist auch anderswo nützlich. Wenn Sie eine Zeitreihenanalyse durchführen, werden Sie mit Sicherheit auf Ereignisse aufmerksam gemacht (von denen Sie nichts wussten), die sich auf ein Ergebnis auswirken, das Sie interessiert. Ich und alle meine Kollegen waren völlig verblüfft darüber, dass die chemischen Produktanalysen am Dienstagmorgen in der Regel geringfügig schlechter waren. Wir haben es auf einen gut gemeinten Reinigungsplan zurückgeführt, der einige Schwächen aufwies. Wir haben im Laufe des Jahres fast eine Million gespart und den Produkt-ppk von 1,7 auf 1,9 verbessert. Lektion gelernt: Führen Sie immer eine rudimentäre Zeitreihenanalyse für alle variantenbezogenen Probleme durch.
Stian Yttervik
+1. @Stephan Kolassa, Ihre Antwort hebt hervor, wie Prognosen in der realen Welt verwendet werden. Dies ist meine Interpretation der Frage des OP. Der Vorhersageintervallpunkt und die (halbe) Länge sind genau die Informationen, die Sie für die Planung von Minderungsstrategien benötigen. Wenn Sie Deiche bauen, um Überschwemmungen in Manhattan zu vermeiden, und Ihre neue Zeitreihenmethode das Vorhersageintervall um ein Vielfaches reduziert, können Sie die Kosten für den Bau der Deiche senken, indem Sie nur die erforderlichen Ressourcen verwenden. Mutatis mutandis gilt für Ihr Lebensmittelbeispiel.
Lucas Roberts
13

Ziele in der TS-Analyse aus den Unterrichtsfolien von M. Dettling:

1) Explorative Analyse: Visualisierung der Eigenschaften der Reihe

  • Zeitreihenplot
  • Zerlegung in Trend / Saisonmuster / Zufallsfehler
  • Korrelogramm zum Verständnis der Abhängigkeitsstruktur

2) Modellierung: Anpassung eines stochastischen Modells an die Daten, die die wichtigsten Eigenschaften der Reihe darstellen und widerspiegeln

  • explorativ oder mit Vorkenntnissen durchgeführt
  • Modellauswahl und Parameterschätzung sind entscheidend
  • Inferenz: Wie gut passt das Modell zu den Daten?

3) Prognose: Vorhersage zukünftiger Beobachtungen mit Maß für die Unsicherheit

  • Meist modellbasiert, verwendet Abhängigkeits- und Vergangenheitsdaten
  • ist eine Extrapolation, also oft mit einem Salzkorn zu nehmen
  • ähnlich wie beim Autofahren durch einen Blick in den Rückspiegel

4) Prozesskontrolle: Die Ausgabe eines (physikalischen) Prozesses definiert eine Zeitreihe

  • Ein stochastisches Modell wird an beobachtete Daten angepasst
  • Dies ermöglicht das Verstehen sowohl des Signals als auch des Rauschens
  • Es ist möglich, normale / abnormale Schwankungen zu überwachen

5) Zeitreihen-Regression: Modellierung von Antwortzeitreihen mit einer oder mehreren Eingabereihen Anpassung dieses Modells unter der Annahme eines Fehlers:

  • führt zu unvoreingenommenen Schätzungen, aber ...
  • oft grob falsche Standardfehler
  • Vertrauensintervalle und Tests sind daher irreführend

Über die lager markiert problem:

  • Diese TS sind sehr volatil, was schwer zu modellieren ist.
  • Zum Beispiel könnte eine Gesetzesänderung, die das Unternehmen betrifft, zu einer Änderung des TS-Prozesses führen. Wie würde ein statistisches Tool dies vorhersagen?

Über die serielle Korrelation:

  • Im Gegensatz zu multivariaten Statistiken sind die Daten in einer Zeitreihe normalerweise nicht eindeutig, sondern seriell korreliert.
  • Diese Informationen können auch nützlich sein, um etwas zu erkennen, das nicht identifiziert werden kann, wie beispielsweise ein verschmutztes Laborinstrument
Nicole Origami Fox
quelle
1
Ich würde Klassifizierung hinzufügen, z. B. gibt es zahlreiche Apps, die Ihre Aktivität anhand der Analyse der Beschleunigungsmesserdaten Ihres Telefons erkennen.
SaiBot
Das ist interessant! Wie machst Du das?
Nicole Origami Fox
1
Ich denke, es gibt viele verschiedene Möglichkeiten. Eine Möglichkeit wäre, die Benutzer Trainingsdaten durch Beschriften ihrer Aktivität generieren zu lassen. Sobald Sie das haben, können Sie Ihre Zeitreihen in (überlappenden) Intervallen (z. B. 3 Sekunden) schneiden und ein maschinelles Lernmodell trainieren. Anschließend können Sie unbeschriftete Aktivitäten klassifizieren.
SaiBot
Vielen Dank, dass Sie SaiBot. Ich sehe, ich muss die Kombination von verschiedenen Werkzeugen öfter in Betracht ziehen :)
Nicole Origami Fox
11

Die einfachste Möglichkeit, Ihre Frage zu beantworten, besteht darin, zu verstehen, dass die Datensätze häufig in Querschnitt , Zeitreihe und Panel unterteilt sind . Die Querschnittsregression ist ein Hilfsmittel für die Querschnittsdatensätze. Dies ist, was die meisten Menschen mit einem Begriff Regression kennen und bezeichnen . Zeitreihenregression wird manchmal auf Zeitreihen angewendet, aber die Zeitreihenanalyse verfügt über eine breite Palette von Werkzeugen, die über die Regression hinausgehen.

(x1,y1),(x2,y3),,(xn,yn)xich,yichyxy^x

Bildbeschreibung hier eingeben

Wenn die Stichprobe nicht zufällig war, funktioniert die Regression möglicherweise überhaupt nicht. Zum Beispiel haben Sie nur Mädchen in der ersten Klasse ausgewählt, um das Modell zu schätzen, aber Sie müssen die Größe eines männlichen Zwölftklässlers vorhersagen. Die Regression hat also auch im Querschnittsaufbau ihre eigenen Probleme.

xt,yt(x1,y1),(x2,y3),,(xn,yn)tx,y

Bildbeschreibung hier eingeben

t

Der dritte häufig verwendete Dataset-Typ ist ein Panel, insbesondere der mit Längsschnittdaten. Hier erhalten Sie möglicherweise mehrere Schnappschüsse von Gewichts- und Größenvariablen für eine Reihe von Schülern. Dieser Datensatz kann wie Wellen von Querschnitten oder eine Reihe von Zeitreihen aussehen .

Bildbeschreibung hier eingeben

Dies kann natürlich komplizierter sein als die beiden vorherigen Typen. Hier verwenden wir Panel-Regression und andere spezielle Techniken, die für Panels entwickelt wurden.

Zusammenfassend lässt sich sagen, dass die Zeitreihenregression im Vergleich zur Querschnittsregression als eigenständiges Instrument betrachtet wird, da Zeitreihen in Bezug auf die Unabhängigkeit von Annahmen der Regressionstechnik besondere Herausforderungen darstellen. Insbesondere aufgrund der Tatsache, dass im Gegensatz zur Querschnittsanalyse die Reihenfolge der Beobachtungen von Bedeutung ist, führt dies normalerweise zu allen Arten von Korrelations- und Abhängigkeitsstrukturen, die manchmal die Anwendung von Regressionstechniken ungültig machen können. Man muss sich mit Abhängigkeit auseinandersetzen, und genau darin ist die Zeitreihenanalyse gut.

Vorhersehbarkeit der Vermögenspreise

Außerdem wiederholen Sie eine verbreitete Fehleinschätzung über Aktienmärkte und Vermögenspreise im Allgemeinen, die nicht vorhergesagt werden kann. Diese Aussage ist zu allgemein, um wahr zu sein. Es ist wahr, dass Sie den nächsten Tick von AAPL nicht zuverlässig vorhersagen können. Es ist jedoch ein sehr enges Problem. Wenn Sie Ihr Netz verbreitern, werden Sie viele Möglichkeiten entdecken, mit allen Arten von Prognosen (und insbesondere Zeitreihenanalysen) Geld zu verdienen. Statistische Arbitrage ist ein solches Feld.

Der Grund, warum die Preise für Vermögenswerte auf kurze Sicht schwer vorherzusagen sind , liegt in der Tatsache, dass ein großer Teil der Preisänderungen aus neuen Informationen besteht. Die wirklich neuen Informationen, die nicht realistisch aus der Vergangenheit abgeleitet werden können, sind per Definition unmöglich vorherzusagen. Dies ist jedoch ein idealisiertes Modell, und viele Leute würden argumentieren, dass die Anomalien existieren, die das Fortbestehen des Staates ermöglichen. Dies bedeutet, dass der Teil der Preisänderung durch die Vergangenheit erklärt werden kann. In solchen Fällen ist eine Zeitreihenanalyse durchaus angebracht, da sie sich genau mit der Persistenz befasst. Es ist unmöglich, Neues von Altem zu trennen, aber Altes wird aus der Vergangenheit in die Zukunft gezogen. Wenn Sie es auch nur ein bisschen erklären können, bedeutet dies, dass Sie es im Finanzbereich könnenin der Lage sein, Geld zu verdienen. Solange der Preis der auf solchen Prognosen aufbauenden Strategie die daraus erzielten Einnahmen abdeckt.

Schauen Sie sich abschließend den Wirtschaftsnobelpreis 2013 an : "Es ist durchaus möglich, den breiten Verlauf dieser Preise über längere Zeiträume, beispielsweise die nächsten drei bis fünf Jahre, vorherzusagen." Werfen Sie einen Blick auf Shiller Nobelvorlesung spricht er über Vorhersagbarkeit der Vermögenspreise.

Aksakal
quelle
6

Die Zeitreihenanalyse kann auch zu einer wirksamen Erkennung von Anomalien oder Ausreißern in Zeitdaten beitragen.

Beispielsweise ist es möglich, ein ARIMA-Modell anzupassen und ein Prognoseintervall zu berechnen. Abhängig vom Anwendungsfall kann das Intervall verwendet werden, um einen Schwellenwert festzulegen, innerhalb dessen der Prozess als gesteuert angesehen werden kann. Wenn neue Daten den Schwellenwert überschreiten, werden sie zur weiteren Beachtung markiert.

Dieser Blog-Beitrag bietet einen kurzen und umfassenden Überblick über die Zeitreihenanalyse zur Erkennung von Ausreißern. Für eine eingehendere Behandlung erläutern die Forscher bei ebay , wie sie anhand der statistischen Analyse von Zeitreihendaten Anomalien im Maßstab erkennen.

redhqs
quelle
6

Es gibt viele andere statistische Methoden wie Regression und maschinelles Lernen, die offensichtliche Anwendungsfälle haben: Die Regression kann Informationen über die Beziehung zwischen zwei Variablen liefern, während das maschinelle Lernen eine gute Prognose liefert.

Sie beantworten Ihre eigene Frage unten: Autokorrelation. Bei Zeitreihen ist dies normalerweise der Fall, was gegen die Annahme einer grundlegenden OLS-Regression verstößt. Zeitreihentechniken haben die entsprechenden Annahmen für Zeitreihen.

Methoden des maschinellen Lernens, die sich mit sequentiellen Daten befassen, sind spezialisiert, wie etwa rekurrente neuronale Netze (RNNs) oder 1-D-Convolutional-Neuronale-Netze (CNNs). Sie haben also immer noch spezialisierte Techniken für Zeitreihen.

In der Zwischenzeit verstehe ich jedoch nicht, wozu eine Zeitreihenanalyse gut ist. Sicher, ich kann ein ARIMA-Modell anpassen und es zur Vorhersage verwenden, aber was nützt das, wenn die Konfidenzintervalle für diese Vorhersage sehr groß werden? Es gibt einen Grund, warum niemand den Aktienmarkt vorhersagen kann, obwohl er die datengesteuerteste Branche der Weltgeschichte ist.

Konfidenzintervalle (CIs), die sich aus einer Zeitreihentechnik ergeben, sind wahrscheinlich größer als diejenigen aus einer Nicht-Zeitreihen-Regression. Diese Funktion ist als genau bekannt. Wenn Sie eine Nicht-Zeitreihen-Regression verwenden, ist Ihr CI im Allgemeinen kleiner, aber falsch, weil Sie gegen seine Annahmen verstoßen haben. Wenn Sie nur ein Diagramm mit kleinen CIs anzeigen möchten, erstellen Sie diese oder überspringen Sie die CIs vollständig. Wenn Sie jedoch geeignete CIs verwenden möchten, verwenden Sie geeignete Techniken.

Der Aktienmarkt ist aufgrund seiner Natur schwer vorherzusagen. Andere Zeitreihen sind viel vorhersehbarer. Versuchen Sie, Ihre bevorzugte maschinelle Lerntechnik an der Börse anzuwenden, und ich bezweifle, dass Sie mehr Erfolg haben werden.

Wie verwende ich es, um meinen Prozess besser zu verstehen? Klar, ich kann das ACF plotten und sagen: "Aha! Es gibt eine gewisse Abhängigkeit!", Aber was dann? Was ist der Punkt? Natürlich gibt es Abhängigkeiten, deshalb führen Sie zunächst eine Zeitreihenanalyse durch. Sie wussten bereits, dass Abhängigkeit besteht. Aber wofür wirst du es verwenden?

Zu prognostizieren. Saisonalität zu sehen. Eine Vorstellung von der Variabilität der Daten über verschiedene Jahreszeiten hinweg haben. Ganz zu schweigen davon, dass es leistungsfähigere Zeitreihentechniken als ARIMA der alten Schule gibt, wie z. B. State-Space-Methoden. ARIMA ist nicht die beste Technik zur Modellierung von Zeitreihen. (Tatsächlich wird bei der ARIMA-Prozedur in der Statistiksoftware Ihrer Wahl wahrscheinlich eine State Space-Darstellung unter der Haube verwendet.)

Wayne
quelle
5

Um der Anomalieerkennungsantwort von redhqs etwas Farbe zu verleihen, erstelle ich bei der Arbeit Anomalieerkennungsmodelle für Betriebsmetriken wie Verkäufe und Verkehrsströme. Wir führen die Zeitreihenanalyse durch, um zu verstehen, was Umsatz sein sollte, wenn alles wie erwartet funktioniert, und vergleichen diese dann mit den beobachteten Werten, um festzustellen, ob die Website fehlerhaft ist. Es ist wichtig, weil wir für jede Minute, in der die Website nicht erreichbar ist, viel Geld verlieren.

Es gibt verschiedene Methoden, die Sie verwenden können, und verschiedene Methoden versuchen in vielen Fällen, verschiedene Dinge zu erreichen. Die wichtigste statistische Methode, die ich für die Erkennung von Verkaufsanomalien verwendet habe, heißt beispielsweise "STL" (saisonale Trendzerlegung mit Löss). Dies trennt die reguläre Saisonalität, den Trend und das zufällige Rauschen. Wir verwenden dies tatsächlich, um sowohl tägliche als auch wöchentliche Saisonalitäten zu identifizieren. Dann werfen wir den Lärm aus und kombinieren die Trends / Saisonalitäten, um die erwarteten Umsätze zu schätzen. In unserem Fall verwenden wir den Ansatz, um zu verstehen, wie sich der Umsatz mit der Tageszeit und der Wochenzeit ändert, und um zufällige Geräusche aus den Schätzungen auszuschließen.

Willie Wheeler
quelle
Es scheint, dass Sie Zeitreihenmodelle erstellen, die keine Anomalien annehmen, und daher im Gegensatz zu Modellidentifizierungsstrategien, die explizit die gleichzeitige Identifizierung sowohl des SARIMA-Teils als auch der zu entdeckenden Interventionsstruktur (Impulse, Pegel- / Stufenverschiebungen) ermöglichen, möglicherweise nicht robust sind , saisonale Impulse, lokale Zeittrends)
IrishStat
Das STL-Algo verfügt über ein Robustness-Flag (es steuert die Anzahl der Iterationen einer Glättungsschleife). Es funktioniert sowieso sehr gut für unsere Zeitreihen.
Willie Wheeler
# of iterations beschäftigt sich nicht mit dem Bias in Modellform, wenn eine deterministische Struktur vorliegt, die darauf wartet, entdeckt zu werden.
IrishStat
3

Neben den hervorragenden Antworten anderer möchte ich erläutern, wie Zeitreihenanalysen in der Elektrotechnik eingesetzt werden.

Ein großer Teil der Elektrotechnik besteht darin, Spannungen und Ströme zu modulieren, um Informationen zu übertragen, oder mithilfe von Sensoren ein physikalisches Signal (z. B. eine Schallwelle) in eine elektrische Form umzuwandeln, aus der ein Computer eine Entscheidung treffen soll. Ein Analog-Digital-Wandler (A / D-Wandler) wandelt diese Signale in eine Reihe von zeitlich gleichmäßigen diskreten Abtastwerten oder in eine Zeitreihe um! Zeitreihenanalysemethoden sind die Basis für nahezu alle modernen Signalverarbeitungsalgorithmen.

Beispielsweise besteht die Sprachverarbeitung darin, eine Schallwelle mithilfe eines Mikrofons in eine elektrische Spannung umzuwandeln, die von einem A / D abgetastet wird. Anschließend wird ein Zeitreihenmodell des Signals erstellt. Beispielsweise erzeugen Linear Predictive Coders (LPC) in Mobiltelefonen ein ARMA-Modell der gesprochenen Wörter und übertragen die Modellkoeffizienten (zusammen mit einem Index, der ein Anregungssignal aus einem vordefinierten Wörterbuch darstellt) anstelle der zu erzielenden Datenabtastwerte Datenkompression.

Robert L.
quelle