Warum muss eine Zeitreihe stationär sein?

92

Ich verstehe, dass eine stationäre Zeitreihe eine ist, deren Mittelwert und Varianz über die Zeit konstant ist. Kann jemand bitte erklären, warum wir sicherstellen müssen, dass unser Datensatz stationär ist, bevor wir verschiedene ARIMA- oder ARM-Modelle darauf ausführen können? Gilt dies auch für normale Regressionsmodelle, bei denen Autokorrelation und / oder Zeit keine Rolle spielen?

regression time-series stationarity Alex
quelle

2

Was sind ARM-Modelle? Meinten Sie ARMA?

mpiktas

9

Stationarität erfordert mehr als einen konstanten Mittelwert und eine konstante Varianz. Eine schwache Stationarität erfordert, dass die Kovarianzfunktion nicht von abhängt .

c o v (X_{t}, X_{t + h})

$cov(X_t,X_{t+h})$

t

$t$

mpiktas

11

Sie benötigen keine Stationarität, um ein AR MA-Modell auszuführen , da die Reihenfolge ist und explizit nicht stationär ist . Stationarität ist jedoch eine Annahme von ARMA.

I

$I$

I ()

$I()$

> 0

$>0$

Glen_b

1

+1 für den Bestellungskommentar, allerdings nur, wenn die Bestellung in . Für beliebige Bestellungen gibt es ARFIMA

I

$I$

{0, 1, 2, . . .}

$\{0, 1, 2, ...\}$

conjugateprior

@Glen_b Können ARIMA-Modelle für alle nicht stationären Serien angewendet werden? Oder gibt es bestimmte nicht stationäre Fälle, in denen ARIMA angewendet werden kann?

Nizar

75

Stationarität ist eine Art Abhängigkeitsstruktur.

Angenommen, wir haben Daten . Die grundlegendste Annahme ist, dass unabhängig ist, dh wir haben eine Stichprobe. Die Unabhängigkeit ist eine schöne Eigenschaft, da wir mit ihr viele nützliche Ergebnisse erzielen können. Das Problem ist, dass manchmal (oder häufig, je nach Ansicht) diese Eigenschaft nicht gilt. $X_1,...,X_n$ $X_i$

Jetzt ist Unabhängigkeit eine einzigartige Eigenschaft. Zwei Zufallsvariablen können nur auf eine Weise unabhängig sein, aber sie können auf verschiedene Arten abhängig sein. Stationarität ist also eine Möglichkeit, die Abhängigkeitsstruktur zu modellieren. Es stellt sich heraus, dass viele schöne Ergebnisse, die für unabhängige Zufallsvariablen gelten (Gesetz der großen Zahlen, zentraler Grenzwertsatz, um nur einige zu nennen), für stationäre Zufallsvariablen gelten (wir sollten genau sagen, Sequenzen). Und es stellt sich natürlich heraus, dass viele Daten als stationär betrachtet werden können. Daher ist das Konzept der Stationarität bei der Modellierung nicht unabhängiger Daten sehr wichtig.

Wenn wir festgestellt haben, dass wir stationär sind, möchten wir dies natürlich modellieren. Hier kommen ARMA-Modelle ins Spiel. Es stellt sich heraus, dass alle stationären Daten dank des Wold-Zerlegungssatzes mit dem stationären ARMA-Modell angenähert werden können . Deshalb sind ARMA-Modelle sehr beliebt, und deshalb müssen wir sicherstellen, dass die Serie stationär ist, um diese Modelle zu verwenden.

Nun gilt wieder das Gleiche wie bei Unabhängigkeit und Abhängigkeit. Stationarität ist eindeutig definiert, dh Daten sind entweder stationär oder nicht, sodass es nur Möglichkeiten gibt, dass Daten stationär sind, aber viele Möglichkeiten, dass sie nicht stationär sind. Es stellt sich wieder heraus, dass viele Daten nach einer bestimmten Transformation stationär werden. Das ARIMA-Modell ist ein Modell für die Nichtstationarität. Es wird davon ausgegangen, dass die Daten nach dem Differenzieren stationär werden.

Im Regressionskontext ist die Stationarität wichtig, da dieselben Ergebnisse, die für unabhängige Daten gelten, gelten, wenn die Daten stationär sind.

mpiktas
quelle

4

Ich würde vorschlagen, dass Sie diesen Teil Ihrer Antwort einfügen ("Hier kommen ARMA-Modelle ins Spiel. Es stellt sich heraus, dass alle stationären Daten dank des Wold-Zerlegungssatzes mit einem stationären ARMA-Modell angenähert werden können. Deshalb sind ARMA-Modelle sehr gut beliebt und deshalb müssen wir sicherstellen, dass die Serie stationär ist, um diese Modelle zu verwenden. ") in Fettdruck, da dies in erster Linie die Frage beantwortet.

Poete Maudit

34

An welchen Größen sind wir normalerweise interessiert, wenn wir statistische Analysen für Zeitreihen durchführen? Wir wollen wissen

Sein erwarteter Wert,
Seine Varianz und
Die Korrelation zwischen den Werten Perioden außer für einen Satz von Werten. $s$ $s$

Wie berechnen wir diese Dinge? Verwenden eines Mittelwerts über viele Zeiträume.

Der Mittelwert über viele Zeiträume hinweg ist nur dann aussagekräftig, wenn der erwartete Wert über diese Zeiträume hinweg gleich ist. Wenn diese Populationsparameter variieren können, was schätzen wir dann wirklich, indem wir einen Durchschnitt über die Zeit bilden?

(Schwache) Stationarität erfordert, dass diese Bevölkerungsmengen über die Zeit hinweg gleich sind, sodass der Stichprobendurchschnitt eine vernünftige Methode ist, um sie zu schätzen.

Darüber hinaus vermeiden stationäre Prozesse das Problem der störenden Regression .

Charlie
quelle

12

Eine Grundidee beim statistischen Lernen ist, dass Sie durch Wiederholen eines Experiments lernen können. Zum Beispiel können wir einen Reißzwecke weiter drehen, um die Wahrscheinlichkeit zu ermitteln, mit der ein Reißzwecke auf dem Kopf landet.

Im Zeitreihenkontext beobachten wir eher einen einzelnen Durchlauf eines stochastischen Prozesses als wiederholte Durchläufe des stochastischen Prozesses. Wir beobachten eher ein langes Experiment als mehrere unabhängige Experimente.

Wir brauchen Stationarität und Ergodizität, damit die Beobachtung eines langen Ablaufs eines stochastischen Prozesses der Beobachtung vieler unabhängiger Abläufe eines stochastischen Prozesses gleicht.

Einige (ungenaue) Definitionen

Sei $\Omega$ ein Probenraum. Ein stochastischer Prozess $\{Y_t\}$ ist eine Funktion sowohl der Zeit $t \in \{1, 2, 3, \ldots\}$ als auch des Ergebnisses . $\omega \in \Omega$

Für jeden Zeitpunkt ist eine Zufallsvariable (dh eine Funktion von zu einem bestimmten Raum wie dem Raum von reellen Zahlen). $t$ $Y_t$ $\Omega$
Für jedes Ergebnis wir $\omega$ $X(\omega)$ $\{Y_1(\omega), Y_2(\omega), Y_3(\omega), \ldots \}$

Ein grundlegendes Thema in Zeitreihen

$X_1$ $X_2$ $X_3$ $i = 1, \ldots, n$ $\omega_i \in \Omega$ $X$ $\frac{1}{n} \sum_{i=1}^n X_i$ $\operatorname{E}[X]$

$t$ $\Omega$

$\frac{1}{T} \sum_{t=1}^T Y_t$

Damit mehrere Beobachtungen im Zeitverlauf eine ähnliche Aufgabe erfüllen können wie Mehrfachentnahmen aus dem Probenraum , benötigen wir Stationarität und Ergodizität .

$\operatorname{E}[Y]$ $\frac{1}{T}\sum_{t =1}^T Y_t$ $\operatorname{E}[Y]$

Beispiel 1: Versagen der Stationarität

$\{Y_t\}$ $Y_t = t$ $\{Y_t\}$

$S_t = \frac{1}{t} \sum_{i=1}^t Y_i$ $S_t$ $t \rightarrow \infty$ $S_1 = 1, S_2 = \frac{3}{2}, S_3 = 2, \ldots, S_t = \frac{t+1}{2}$ $Y_t$ $S_t$ $t \rightarrow \infty$

Beispiel: Ergodizitätsstörung

$X$ $Y_t = X$ $t$ $\{Y_t\} = (0, 0, 0, 0, 0, 0, 0, \ldots)$ $\{Y_t\} = (1, 1, 1, 1, 1, 1, 1, \ldots$

$\operatorname{E}[Y_t] = \frac{1}{2}$ $S_t = \frac{1}{t} \sum_{i = 1}^t Y_i$ $Y_t$

Matthew Gunn
quelle

10

Um zu einigen der anderen Antworten, die gut, aber detaillierter sind, eine Antwort auf hoher Ebene hinzuzufügen, ist die Stationarität wichtig, da ein Modell, das die Daten beschreibt, zu verschiedenen Zeitpunkten hinsichtlich der Genauigkeit variiert. Daher ist für Stichprobenstatistiken wie Mittelwerte, Varianzen und Korrelationen eine Stationarität erforderlich, um die Daten zu allen interessierenden Zeitpunkten genau zu beschreiben.

$600<t<800$ $200<t<400$

Jeffrey Girard
quelle

8

$x_t=x_{t-1}+e_t$

Wir suchen jedoch oft nach Stationarität. Warum?

Betrachten Sie das Prognoseproblem. Wie prognostizieren Sie? Wenn morgen alles anders ist, ist es unmöglich vorherzusagen, weil alles anders wird. Der Schlüssel zur Prognose liegt also darin, etwas zu finden , das morgen gleich sein wird, und es auf morgen auszudehnen . Das etwas kann alles sein. Ich gebe Ihnen ein paar Beispiele.

$e_t\sim\mathcal{N}(0,\sigma^2)$ $\sigma^2$ $\Delta x_t\equiv x_t-x_{t-1}=e_t$ $\Delta x_t$

$x_t=\alpha t+e_t$ $E[e_t]=0$ $\alpha$

Für die Vorhersage müssen wir unbedingt die konstante (zeitinvariante) Komponente in der Reihe finden, sonst ist eine Vorhersage per Definition nicht möglich. Stationarität ist nur ein besonderer Fall der Invarianz.

Aksakal
quelle

5

Da ARIMA sich größtenteils selbst zurückbildet, verwendet es eine Art von selbstinduzierter multipler Regression, die durch einen starken Trend oder eine Saisonalität unnötig beeinflusst würde. Diese Mehrfachregressionstechnik basiert auf früheren Zeitreihenwerten, insbesondere den Werten der letzten Zeiträume, und ermöglicht es uns, eine sehr interessante "Wechselbeziehung" zwischen mehreren vergangenen Werten zu extrahieren, die zur Erklärung eines zukünftigen Werts dient.

Robert
quelle

2

$X$ $(X_{t+1},\ldots,X_{t+k})$ $(X_1,\ldots,X_k)$ $t$ $k$ . Aus dem Wiki: Ein stationärer Prozess (oder ein streng (ly) stationärer Prozess oder ein stark (ly) stationärer Prozess) ist ein stochastischer Prozess, dessen gemeinsame Wahrscheinlichkeitsverteilung sich nicht ändert, wenn sie zeitlich oder räumlich verschoben wird. Folglich ändern sich auch Parameter wie Mittelwert und Varianz, falls vorhanden, nicht über die Zeit oder Position. Darüber hinaus muss, wie Cardinal unten richtig ausgeführt hat, die Autokorrelationsfunktion über die Zeit invariant sein (was bedeutet, dass die Kovarianzfunktion über die Zeit konstant ist) und in Parameter des ARMA-Modells konvertiert werden, die für alle Zeitintervalle invariant / konstant sind.

Die Idee der Stationarität des ARMA-Modells ist eng mit der Idee der Invertierbarkeit verbunden.

$y(t)=1.1 \,y(t-1)$ $(1-1.1 B)$

IrishStat
quelle

1

X

$X$

Die Erwähnung von stationär zweiter Ordnung scheint in Ihrer letzten Bearbeitung verloren gegangen zu sein. War das beabsichtigt? (Mein ursprünglicher Kommentar war eher auf Stationarität zweiter Ordnung als auf strikte Stationarität gerichtet.)

Kardinal

: cardinal Ich glaube, ich hatte das Gefühl, dass Ihre Bemerkung wichtig war und es klarer machte, was angenommen wurde. Wenn Sie der Meinung sind, dass die Idee der "stationären zweiten Ordnung" für mehr Klarheit sorgt, helfen Sie mir bitte, sie meiner Antwort auf eine Weise hinzuzufügen, die in einfachem, unkompliziertem Englisch Licht ins Dunkel wirft.

IrishStat

-2

ARMA und ARIMA werden unter der Annahme gebaut, dass die Serie stationär ist. Wenn die Serie nicht ist, ist die Vorhersage falsch.

Stichprobenstatistiken - Mittelwert, Varianz, Ko-Varianz - sind nur dann als Deskriptoren für das zukünftige Verhalten nützlich, wenn die Reihe stationär ist. Wenn sich die Reihe zum Beispiel im Laufe der Zeit stetig erhöht, nimmt der Stichprobenmittelwert und die Varianz mit der Stichprobengröße zu und sie unterschätzen den Mittelwert und die Varianz in den zukünftigen Perioden immer wieder. Bei der Extrapolation von Regressionsmodellen, die an instationäre Daten angepasst sind, ist Vorsicht geboten.

Rama Thamman
quelle

-3

Meiner Ansicht nach ist der stochastische Prozess der Prozess, der von drei statistischen Eigenschaften bestimmt wird, die zeitinvariant sein müssen. Das sind die mittlere Varianz und die Autokorrelationsfunktion. Die ersten beiden sagen jedoch nichts über die zeitliche Entwicklung des Prozesses aus Als dritte Eigenschaft sollte die Autokorrelationsfunktion betrachtet werden, die angibt, wie die Abhängigkeit mit fortschreitender Zeit abnimmt (Verzögerung).

Neugierde
quelle

5

Das verwirrt das Stochastische und das Stationäre und beginnt mit einem fundamentalen Fehler. Was bringt deine Antwort zu den bereits geposteten?

Nick Cox

-3

Um irgendetwas zu lösen, müssen wir die Gleichungen mithilfe der Statik mathematisch modellieren.

Um solche Gleichungen zu lösen, muss es unabhängig und stationär sein (sich nicht bewegen)
Nur in stationären Daten können wir Erkenntnisse gewinnen und mathematische Operationen (Mittelwert, Varianz usw.) für verschiedene Zwecke ausführen
In nicht stationären Umgebungen ist es schwierig, Daten abzurufen

Während des Konvertierungsprozesses erhalten wir einen Trend und eine Saisonalität

Saravanan Saminathan
quelle

2

Keine Ihrer Antworten ergibt einen Sinn. Die Voraussetzung der Frage ist falsch. Viele Zeitreihen können sowohl theoretisch als auch beobachtend als nicht stationär angesehen werden. Es gibt zum Beispiel auch viele Methoden, um damit umzugehen! Differenzierung oder saisonale Differenzierung der Reihe oder 2. einschließlich zyklischer Komponenten wie Sinuswellen.

Michael Chernick

@MichaelChernick Während der Differenzierung und der saisonalen Differenzierung konvertieren wir instationäre Reihen in stationäre. Ich akzeptiere Ihren Standpunkt, dass viele Zeitreihen nicht stationär sind, aber um sie mathematisch zu lösen, müssen wir sie in eine stationäre umwandeln

Saravanan Saminathan

Warum muss eine Zeitreihe stationär sein?

Antworten:

Einige (ungenaue) Definitionen

Ein grundlegendes Thema in Zeitreihen

Beispiel 1: Versagen der Stationarität

Beispiel: Ergodizitätsstörung