Ich verstehe, dass eine stationäre Zeitreihe eine ist, deren Mittelwert und Varianz über die Zeit konstant ist. Kann jemand bitte erklären, warum wir sicherstellen müssen, dass unser Datensatz stationär ist, bevor wir verschiedene ARIMA- oder ARM-Modelle darauf ausführen können? Gilt dies auch für normale Regressionsmodelle, bei denen Autokorrelation und / oder Zeit keine Rolle spielen?
92
Antworten:
Stationarität ist eine Art Abhängigkeitsstruktur.
Angenommen, wir haben Daten . Die grundlegendste Annahme ist, dass unabhängig ist, dh wir haben eine Stichprobe. Die Unabhängigkeit ist eine schöne Eigenschaft, da wir mit ihr viele nützliche Ergebnisse erzielen können. Das Problem ist, dass manchmal (oder häufig, je nach Ansicht) diese Eigenschaft nicht gilt.X iX1,...,Xn Xi
Jetzt ist Unabhängigkeit eine einzigartige Eigenschaft. Zwei Zufallsvariablen können nur auf eine Weise unabhängig sein, aber sie können auf verschiedene Arten abhängig sein. Stationarität ist also eine Möglichkeit, die Abhängigkeitsstruktur zu modellieren. Es stellt sich heraus, dass viele schöne Ergebnisse, die für unabhängige Zufallsvariablen gelten (Gesetz der großen Zahlen, zentraler Grenzwertsatz, um nur einige zu nennen), für stationäre Zufallsvariablen gelten (wir sollten genau sagen, Sequenzen). Und es stellt sich natürlich heraus, dass viele Daten als stationär betrachtet werden können. Daher ist das Konzept der Stationarität bei der Modellierung nicht unabhängiger Daten sehr wichtig.
Wenn wir festgestellt haben, dass wir stationär sind, möchten wir dies natürlich modellieren. Hier kommen ARMA-Modelle ins Spiel. Es stellt sich heraus, dass alle stationären Daten dank des Wold-Zerlegungssatzes mit dem stationären ARMA-Modell angenähert werden können . Deshalb sind ARMA-Modelle sehr beliebt, und deshalb müssen wir sicherstellen, dass die Serie stationär ist, um diese Modelle zu verwenden.
Nun gilt wieder das Gleiche wie bei Unabhängigkeit und Abhängigkeit. Stationarität ist eindeutig definiert, dh Daten sind entweder stationär oder nicht, sodass es nur Möglichkeiten gibt, dass Daten stationär sind, aber viele Möglichkeiten, dass sie nicht stationär sind. Es stellt sich wieder heraus, dass viele Daten nach einer bestimmten Transformation stationär werden. Das ARIMA-Modell ist ein Modell für die Nichtstationarität. Es wird davon ausgegangen, dass die Daten nach dem Differenzieren stationär werden.
Im Regressionskontext ist die Stationarität wichtig, da dieselben Ergebnisse, die für unabhängige Daten gelten, gelten, wenn die Daten stationär sind.
quelle
An welchen Größen sind wir normalerweise interessiert, wenn wir statistische Analysen für Zeitreihen durchführen? Wir wollen wissen
Wie berechnen wir diese Dinge? Verwenden eines Mittelwerts über viele Zeiträume.
Der Mittelwert über viele Zeiträume hinweg ist nur dann aussagekräftig, wenn der erwartete Wert über diese Zeiträume hinweg gleich ist. Wenn diese Populationsparameter variieren können, was schätzen wir dann wirklich, indem wir einen Durchschnitt über die Zeit bilden?
(Schwache) Stationarität erfordert, dass diese Bevölkerungsmengen über die Zeit hinweg gleich sind, sodass der Stichprobendurchschnitt eine vernünftige Methode ist, um sie zu schätzen.
Darüber hinaus vermeiden stationäre Prozesse das Problem der störenden Regression .
quelle
Eine Grundidee beim statistischen Lernen ist, dass Sie durch Wiederholen eines Experiments lernen können. Zum Beispiel können wir einen Reißzwecke weiter drehen, um die Wahrscheinlichkeit zu ermitteln, mit der ein Reißzwecke auf dem Kopf landet.
Im Zeitreihenkontext beobachten wir eher einen einzelnen Durchlauf eines stochastischen Prozesses als wiederholte Durchläufe des stochastischen Prozesses. Wir beobachten eher ein langes Experiment als mehrere unabhängige Experimente.
Wir brauchen Stationarität und Ergodizität, damit die Beobachtung eines langen Ablaufs eines stochastischen Prozesses der Beobachtung vieler unabhängiger Abläufe eines stochastischen Prozesses gleicht.
Einige (ungenaue) Definitionen
SeiΩ ein Probenraum. Ein stochastischer Prozess {Yt} ist eine Funktion sowohl der Zeit t∈{1,2,3,…} als auch des Ergebnisses .ω∈Ω
Ein grundlegendes Thema in Zeitreihen
Damit mehrere Beobachtungen im Zeitverlauf eine ähnliche Aufgabe erfüllen können wie Mehrfachentnahmen aus dem Probenraum , benötigen wir Stationarität und Ergodizität .
Beispiel 1: Versagen der Stationarität
Beispiel: Ergodizitätsstörung
quelle
Um zu einigen der anderen Antworten, die gut, aber detaillierter sind, eine Antwort auf hoher Ebene hinzuzufügen, ist die Stationarität wichtig, da ein Modell, das die Daten beschreibt, zu verschiedenen Zeitpunkten hinsichtlich der Genauigkeit variiert. Daher ist für Stichprobenstatistiken wie Mittelwerte, Varianzen und Korrelationen eine Stationarität erforderlich, um die Daten zu allen interessierenden Zeitpunkten genau zu beschreiben.
quelle
Wir suchen jedoch oft nach Stationarität. Warum?
Betrachten Sie das Prognoseproblem. Wie prognostizieren Sie? Wenn morgen alles anders ist, ist es unmöglich vorherzusagen, weil alles anders wird. Der Schlüssel zur Prognose liegt also darin, etwas zu finden , das morgen gleich sein wird, und es auf morgen auszudehnen . Das etwas kann alles sein. Ich gebe Ihnen ein paar Beispiele.
Für die Vorhersage müssen wir unbedingt die konstante (zeitinvariante) Komponente in der Reihe finden, sonst ist eine Vorhersage per Definition nicht möglich. Stationarität ist nur ein besonderer Fall der Invarianz.
quelle
Da ARIMA sich größtenteils selbst zurückbildet, verwendet es eine Art von selbstinduzierter multipler Regression, die durch einen starken Trend oder eine Saisonalität unnötig beeinflusst würde. Diese Mehrfachregressionstechnik basiert auf früheren Zeitreihenwerten, insbesondere den Werten der letzten Zeiträume, und ermöglicht es uns, eine sehr interessante "Wechselbeziehung" zwischen mehreren vergangenen Werten zu extrahieren, die zur Erklärung eines zukünftigen Werts dient.
quelle
Die Idee der Stationarität des ARMA-Modells ist eng mit der Idee der Invertierbarkeit verbunden.
quelle
ARMA und ARIMA werden unter der Annahme gebaut, dass die Serie stationär ist. Wenn die Serie nicht ist, ist die Vorhersage falsch.
Stichprobenstatistiken - Mittelwert, Varianz, Ko-Varianz - sind nur dann als Deskriptoren für das zukünftige Verhalten nützlich, wenn die Reihe stationär ist. Wenn sich die Reihe zum Beispiel im Laufe der Zeit stetig erhöht, nimmt der Stichprobenmittelwert und die Varianz mit der Stichprobengröße zu und sie unterschätzen den Mittelwert und die Varianz in den zukünftigen Perioden immer wieder. Bei der Extrapolation von Regressionsmodellen, die an instationäre Daten angepasst sind, ist Vorsicht geboten.
quelle
Meiner Ansicht nach ist der stochastische Prozess der Prozess, der von drei statistischen Eigenschaften bestimmt wird, die zeitinvariant sein müssen. Das sind die mittlere Varianz und die Autokorrelationsfunktion. Die ersten beiden sagen jedoch nichts über die zeitliche Entwicklung des Prozesses aus Als dritte Eigenschaft sollte die Autokorrelationsfunktion betrachtet werden, die angibt, wie die Abhängigkeit mit fortschreitender Zeit abnimmt (Verzögerung).
quelle
Um irgendetwas zu lösen, müssen wir die Gleichungen mithilfe der Statik mathematisch modellieren.
Während des Konvertierungsprozesses erhalten wir einen Trend und eine Saisonalität
quelle