Was ist der Punkt der Zeitreihenanalyse?
Es gibt viele andere statistische Methoden wie Regression und maschinelles Lernen, die offensichtliche Anwendungsfälle haben: Die Regression kann Informationen über die Beziehung zwischen zwei Variablen liefern, während das maschinelle Lernen für die Vorhersage hervorragend geeignet ist.
In der Zwischenzeit verstehe ich jedoch nicht, wozu eine Zeitreihenanalyse gut ist. Sicher, ich kann ein ARIMA-Modell anpassen und es zur Vorhersage verwenden, aber was nützt das, wenn die Konfidenzintervalle für diese Vorhersage sehr groß werden? Es gibt einen Grund, warum niemand den Aktienmarkt vorhersagen kann, obwohl er die datengesteuerteste Branche der Weltgeschichte ist.
Wie verwende ich es, um meinen Prozess besser zu verstehen? Klar, ich kann das ACF plotten und sagen: "Aha! Es gibt eine gewisse Abhängigkeit!", Aber was dann? Was ist der Punkt? Natürlich gibt es Abhängigkeiten, deshalb führen Sie zunächst eine Zeitreihenanalyse durch. Sie wussten bereits, dass Abhängigkeit besteht . Aber wofür wirst du es verwenden?
quelle
Antworten:
Eine Hauptanwendung ist die Vorhersage . Ich ernähre meine Familie jetzt seit über einem Jahrzehnt, indem ich prognostiziere, wie viele Einheiten eines bestimmten Produkts ein Supermarkt morgen verkaufen wird, damit er genügend Vorräte bestellen kann, aber nicht zu viel. Darin steckt Geld.
Andere Anwendungsfälle für Prognosen werden in Veröffentlichungen wie dem International Journal of Forecasting oder Foresight angegeben . (Vollständige Offenlegung: Ich bin Associate Editor von Foresight .)
Ja, manchmal sind die Vorhersageintervalle sehr groß. (Ich nehme an, Sie meinen PIs, nicht Konfidenzintervall s. Es gibt einen Unterschied. ) Dies bedeutet einfach, dass der Prozess schwer vorherzusagen ist. Dann müssen Sie mildern. Für die Prognose von Supermarktverkäufen ist daher viel Sicherheitsbestand erforderlich. Bei der Vorhersage des Meeresspiegelanstiegs müssen Sie daher höhere Deiche bauen. Ich würde sagen, dass ein großes Vorhersageintervall nützliche Informationen liefert.
Und für alle Prognoseanwendungsfälle, Zeitreihen Analyis ist nützlich, wenn Prognose ein größeres Thema. Sie können Prognosen häufig verbessern, indem Sie die Abhängigkeiten in Ihren Zeitreihen berücksichtigen. Daher müssen Sie sie durch Analyse verstehen , die spezifischer ist, als nur zu wissen, dass Abhängigkeiten vorhanden sind.
Außerdem interessieren sich Menschen für Zeitreihen, auch wenn sie keine Prognosen abgeben. Ökonomen erkennen gerne Änderungspunkte in makroökonomischen Zeitreihen. Oder bewerten Sie die Auswirkungen einer Intervention, wie z. B. eine Änderung der Steuergesetze, auf das BIP oder etwas anderes. Vielleicht möchten Sie sich in Ihrem bevorzugten Ökonometrie-Journal inspirieren lassen.
quelle
Ziele in der TS-Analyse aus den Unterrichtsfolien von M. Dettling:
1) Explorative Analyse: Visualisierung der Eigenschaften der Reihe
2) Modellierung: Anpassung eines stochastischen Modells an die Daten, die die wichtigsten Eigenschaften der Reihe darstellen und widerspiegeln
3) Prognose: Vorhersage zukünftiger Beobachtungen mit Maß für die Unsicherheit
4) Prozesskontrolle: Die Ausgabe eines (physikalischen) Prozesses definiert eine Zeitreihe
5) Zeitreihen-Regression: Modellierung von Antwortzeitreihen mit einer oder mehreren Eingabereihen Anpassung dieses Modells unter der Annahme eines Fehlers:
Über die lager markiert problem:
Über die serielle Korrelation:
quelle
Die einfachste Möglichkeit, Ihre Frage zu beantworten, besteht darin, zu verstehen, dass die Datensätze häufig in Querschnitt , Zeitreihe und Panel unterteilt sind . Die Querschnittsregression ist ein Hilfsmittel für die Querschnittsdatensätze. Dies ist, was die meisten Menschen mit einem Begriff Regression kennen und bezeichnen . Zeitreihenregression wird manchmal auf Zeitreihen angewendet, aber die Zeitreihenanalyse verfügt über eine breite Palette von Werkzeugen, die über die Regression hinausgehen.
Wenn die Stichprobe nicht zufällig war, funktioniert die Regression möglicherweise überhaupt nicht. Zum Beispiel haben Sie nur Mädchen in der ersten Klasse ausgewählt, um das Modell zu schätzen, aber Sie müssen die Größe eines männlichen Zwölftklässlers vorhersagen. Die Regression hat also auch im Querschnittsaufbau ihre eigenen Probleme.
Der dritte häufig verwendete Dataset-Typ ist ein Panel, insbesondere der mit Längsschnittdaten. Hier erhalten Sie möglicherweise mehrere Schnappschüsse von Gewichts- und Größenvariablen für eine Reihe von Schülern. Dieser Datensatz kann wie Wellen von Querschnitten oder eine Reihe von Zeitreihen aussehen .
Dies kann natürlich komplizierter sein als die beiden vorherigen Typen. Hier verwenden wir Panel-Regression und andere spezielle Techniken, die für Panels entwickelt wurden.
Zusammenfassend lässt sich sagen, dass die Zeitreihenregression im Vergleich zur Querschnittsregression als eigenständiges Instrument betrachtet wird, da Zeitreihen in Bezug auf die Unabhängigkeit von Annahmen der Regressionstechnik besondere Herausforderungen darstellen. Insbesondere aufgrund der Tatsache, dass im Gegensatz zur Querschnittsanalyse die Reihenfolge der Beobachtungen von Bedeutung ist, führt dies normalerweise zu allen Arten von Korrelations- und Abhängigkeitsstrukturen, die manchmal die Anwendung von Regressionstechniken ungültig machen können. Man muss sich mit Abhängigkeit auseinandersetzen, und genau darin ist die Zeitreihenanalyse gut.
Vorhersehbarkeit der Vermögenspreise
Außerdem wiederholen Sie eine verbreitete Fehleinschätzung über Aktienmärkte und Vermögenspreise im Allgemeinen, die nicht vorhergesagt werden kann. Diese Aussage ist zu allgemein, um wahr zu sein. Es ist wahr, dass Sie den nächsten Tick von AAPL nicht zuverlässig vorhersagen können. Es ist jedoch ein sehr enges Problem. Wenn Sie Ihr Netz verbreitern, werden Sie viele Möglichkeiten entdecken, mit allen Arten von Prognosen (und insbesondere Zeitreihenanalysen) Geld zu verdienen. Statistische Arbitrage ist ein solches Feld.
Der Grund, warum die Preise für Vermögenswerte auf kurze Sicht schwer vorherzusagen sind , liegt in der Tatsache, dass ein großer Teil der Preisänderungen aus neuen Informationen besteht. Die wirklich neuen Informationen, die nicht realistisch aus der Vergangenheit abgeleitet werden können, sind per Definition unmöglich vorherzusagen. Dies ist jedoch ein idealisiertes Modell, und viele Leute würden argumentieren, dass die Anomalien existieren, die das Fortbestehen des Staates ermöglichen. Dies bedeutet, dass der Teil der Preisänderung durch die Vergangenheit erklärt werden kann. In solchen Fällen ist eine Zeitreihenanalyse durchaus angebracht, da sie sich genau mit der Persistenz befasst. Es ist unmöglich, Neues von Altem zu trennen, aber Altes wird aus der Vergangenheit in die Zukunft gezogen. Wenn Sie es auch nur ein bisschen erklären können, bedeutet dies, dass Sie es im Finanzbereich könnenin der Lage sein, Geld zu verdienen. Solange der Preis der auf solchen Prognosen aufbauenden Strategie die daraus erzielten Einnahmen abdeckt.
Schauen Sie sich abschließend den Wirtschaftsnobelpreis 2013 an : "Es ist durchaus möglich, den breiten Verlauf dieser Preise über längere Zeiträume, beispielsweise die nächsten drei bis fünf Jahre, vorherzusagen." Werfen Sie einen Blick auf Shiller Nobelvorlesung spricht er über Vorhersagbarkeit der Vermögenspreise.
quelle
Die Zeitreihenanalyse kann auch zu einer wirksamen Erkennung von Anomalien oder Ausreißern in Zeitdaten beitragen.
Beispielsweise ist es möglich, ein ARIMA-Modell anzupassen und ein Prognoseintervall zu berechnen. Abhängig vom Anwendungsfall kann das Intervall verwendet werden, um einen Schwellenwert festzulegen, innerhalb dessen der Prozess als gesteuert angesehen werden kann. Wenn neue Daten den Schwellenwert überschreiten, werden sie zur weiteren Beachtung markiert.
Dieser Blog-Beitrag bietet einen kurzen und umfassenden Überblick über die Zeitreihenanalyse zur Erkennung von Ausreißern. Für eine eingehendere Behandlung erläutern die Forscher bei ebay , wie sie anhand der statistischen Analyse von Zeitreihendaten Anomalien im Maßstab erkennen.
quelle
Sie beantworten Ihre eigene Frage unten: Autokorrelation. Bei Zeitreihen ist dies normalerweise der Fall, was gegen die Annahme einer grundlegenden OLS-Regression verstößt. Zeitreihentechniken haben die entsprechenden Annahmen für Zeitreihen.
Methoden des maschinellen Lernens, die sich mit sequentiellen Daten befassen, sind spezialisiert, wie etwa rekurrente neuronale Netze (RNNs) oder 1-D-Convolutional-Neuronale-Netze (CNNs). Sie haben also immer noch spezialisierte Techniken für Zeitreihen.
Konfidenzintervalle (CIs), die sich aus einer Zeitreihentechnik ergeben, sind wahrscheinlich größer als diejenigen aus einer Nicht-Zeitreihen-Regression. Diese Funktion ist als genau bekannt. Wenn Sie eine Nicht-Zeitreihen-Regression verwenden, ist Ihr CI im Allgemeinen kleiner, aber falsch, weil Sie gegen seine Annahmen verstoßen haben. Wenn Sie nur ein Diagramm mit kleinen CIs anzeigen möchten, erstellen Sie diese oder überspringen Sie die CIs vollständig. Wenn Sie jedoch geeignete CIs verwenden möchten, verwenden Sie geeignete Techniken.
Der Aktienmarkt ist aufgrund seiner Natur schwer vorherzusagen. Andere Zeitreihen sind viel vorhersehbarer. Versuchen Sie, Ihre bevorzugte maschinelle Lerntechnik an der Börse anzuwenden, und ich bezweifle, dass Sie mehr Erfolg haben werden.
Zu prognostizieren. Saisonalität zu sehen. Eine Vorstellung von der Variabilität der Daten über verschiedene Jahreszeiten hinweg haben. Ganz zu schweigen davon, dass es leistungsfähigere Zeitreihentechniken als ARIMA der alten Schule gibt, wie z. B. State-Space-Methoden. ARIMA ist nicht die beste Technik zur Modellierung von Zeitreihen. (Tatsächlich wird bei der ARIMA-Prozedur in der Statistiksoftware Ihrer Wahl wahrscheinlich eine State Space-Darstellung unter der Haube verwendet.)
quelle
Um der Anomalieerkennungsantwort von redhqs etwas Farbe zu verleihen, erstelle ich bei der Arbeit Anomalieerkennungsmodelle für Betriebsmetriken wie Verkäufe und Verkehrsströme. Wir führen die Zeitreihenanalyse durch, um zu verstehen, was Umsatz sein sollte, wenn alles wie erwartet funktioniert, und vergleichen diese dann mit den beobachteten Werten, um festzustellen, ob die Website fehlerhaft ist. Es ist wichtig, weil wir für jede Minute, in der die Website nicht erreichbar ist, viel Geld verlieren.
Es gibt verschiedene Methoden, die Sie verwenden können, und verschiedene Methoden versuchen in vielen Fällen, verschiedene Dinge zu erreichen. Die wichtigste statistische Methode, die ich für die Erkennung von Verkaufsanomalien verwendet habe, heißt beispielsweise "STL" (saisonale Trendzerlegung mit Löss). Dies trennt die reguläre Saisonalität, den Trend und das zufällige Rauschen. Wir verwenden dies tatsächlich, um sowohl tägliche als auch wöchentliche Saisonalitäten zu identifizieren. Dann werfen wir den Lärm aus und kombinieren die Trends / Saisonalitäten, um die erwarteten Umsätze zu schätzen. In unserem Fall verwenden wir den Ansatz, um zu verstehen, wie sich der Umsatz mit der Tageszeit und der Wochenzeit ändert, und um zufällige Geräusche aus den Schätzungen auszuschließen.
quelle
Neben den hervorragenden Antworten anderer möchte ich erläutern, wie Zeitreihenanalysen in der Elektrotechnik eingesetzt werden.
Ein großer Teil der Elektrotechnik besteht darin, Spannungen und Ströme zu modulieren, um Informationen zu übertragen, oder mithilfe von Sensoren ein physikalisches Signal (z. B. eine Schallwelle) in eine elektrische Form umzuwandeln, aus der ein Computer eine Entscheidung treffen soll. Ein Analog-Digital-Wandler (A / D-Wandler) wandelt diese Signale in eine Reihe von zeitlich gleichmäßigen diskreten Abtastwerten oder in eine Zeitreihe um! Zeitreihenanalysemethoden sind die Basis für nahezu alle modernen Signalverarbeitungsalgorithmen.
Beispielsweise besteht die Sprachverarbeitung darin, eine Schallwelle mithilfe eines Mikrofons in eine elektrische Spannung umzuwandeln, die von einem A / D abgetastet wird. Anschließend wird ein Zeitreihenmodell des Signals erstellt. Beispielsweise erzeugen Linear Predictive Coders (LPC) in Mobiltelefonen ein ARMA-Modell der gesprochenen Wörter und übertragen die Modellkoeffizienten (zusammen mit einem Index, der ein Anregungssignal aus einem vordefinierten Wörterbuch darstellt) anstelle der zu erzielenden Datenabtastwerte Datenkompression.
quelle