Fallstricke in der Zeitreihenanalyse

46

Ich beginne gerade mit dem Selbstlernen in der Zeitreihenanalyse. Ich habe festgestellt, dass es einige potenzielle Fallstricke gibt, die für die allgemeine Statistik nicht zutreffen. Aufbauend auf Was sind häufige statistische Sünden? , Ich würde gerne fragen:

Was sind häufige Fallstricke oder statistische Sünden in der Zeitreihenanalyse?

Dies ist als Community-Wiki gedacht, ein Konzept pro Antwort, und bitte keine Wiederholung allgemeinerer statistischer Fallstricke, die unter Was sind häufige statistische Sünden aufgeführt sind (oder sein sollten) .

naught101
quelle

Antworten:

18

Extrapolieren einer linearen Regression auf eine Zeitreihe, wobei die Zeit eine der unabhängigen Variablen in der Regression ist. Eine lineare Regression kann eine Zeitreihe auf einer kurzen Zeitskala approximieren und kann bei einer Analyse nützlich sein, aber das Extrapolieren einer geraden Linie ist töricht. (Die Zeit ist unendlich und nimmt ständig zu.)

EDIT: Als Antwort auf die Frage von naught101 nach "dumm" mag meine Antwort falsch sein, aber es scheint mir, dass die meisten realen Phänomene nicht für immer kontinuierlich zunehmen oder abnehmen. Die meisten Prozesse haben begrenzende Faktoren: Die Menschen wachsen nicht mehr mit zunehmendem Alter, die Bestände steigen nicht immer, die Populationen können nicht negativ werden, Sie können Ihr Haus nicht mit einer Milliarde Welpen füllen usw. Zeit, im Gegensatz zu den meisten unabhängigen Variablen, die kommen Denken Sie daran, hat unendliche Unterstützung, so dass Sie sich wirklich vorstellen können, wie Ihr lineares Modell den Aktienkurs von Apple in 10 Jahren prognostiziert, denn in 10 Jahren wird es ihn mit Sicherheit geben. (Während Sie keine Höhen-Gewichts-Regression extrapolieren würden, um das Gewicht von 20 Meter großen erwachsenen Männern vorherzusagen: Sie existieren nicht und werden nicht existieren.)

Darüber hinaus weisen Zeitreihen häufig zyklische oder pseudozyklische Komponenten oder Random-Walk-Komponenten auf. Wie IrishStat in seiner Antwort erwähnt, müssen Sie die Saisonalität (manchmal Saisonalitäten auf mehreren Zeitskalen), Pegelverschiebungen (die bei linearen Regressionen, die diese nicht berücksichtigen, merkwürdige Auswirkungen haben) usw. berücksichtigen. Eine lineare Regression, die Zyklen ignoriert, führt dazu kurzfristig passen, aber sehr irreführend sein, wenn Sie es extrapolieren.

Natürlich können Sie Probleme bekommen, wenn Sie extrapolieren, Zeitreihen oder nicht. Aber es scheint mir, dass wir zu oft jemanden sehen, der eine Zeitreihe (Verbrechen, Aktienkurse usw.) in Excel wirft, eine PROGNOSE oder einen ZEITPUNKT darauf ablegt und die Zukunft im Wesentlichen über eine gerade Linie vorhersagt, als ob die Aktienkurse kontinuierlich steigen würden (oder kontinuierlich sinken, einschließlich negativ).

Wayne
quelle
Können Sie näher erläutern, warum das so dumm ist?
Naught101
1
+1 für die tollen Beispiele. Ich berechne genau, wie viele Welpen ich gerade in meinem Haus
unterbringen
3
Dies ist eine großartige Illustration Ihres Punktes: xkcd.com/605
Zach
1
@naught Mark Twain hat großartige Arbeit geleistet und in der einfachsten Sprache gezeigt, warum "dumm" für die lineare Extrapolation einer Zeitreihe geeignet ist.
Whuber
Und das hier: stats.stackexchange.com/a/13904/9007 ... Ein ähnlicher Punkt ist die Extrapolation eines Polynomtrends (insbesondere von hohem Grad) oder eines anderen Modells, das keine physikalische Relevanz hat. Ich schrieb einen Blog-Beitrag darüber, warum dies eine schlechte Idee ist , als ich mir selbst die Oktave beibrachte.
naught101
13

Berücksichtigung der Korrelation zwischen zwei instationären Zeitreihen. (Es ist nicht unerwartet, dass sie einen hohen Korrelationskoeffizienten haben: Suche nach "unsinniger Korrelation" und "Kointegration".)

Beispielsweise haben Hunde und Ohrlöcher bei Google Correlate einen Korrelationskoeffizienten von 0,84.

Eine ältere Analyse finden Sie in Yules Untersuchung des Problems von 1926

Wayne
quelle
Natürlich nicht immer. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
Naught101
@ Wayne Vielen Dank für die Weihnachtszeitung. Ich zitiere dies seit 1970 und habe es nie wirklich gelesen. Es ist in einigen, anscheinend kleinen Kreisen bekannt.
IrishStat
7

Auf der obersten Ebene identifizierte Kolmogorov die Unabhängigkeit als Schlüsselannahme in der Statistik - ohne diese Annahme stimmen viele wichtige Ergebnisse in der Statistik nicht, unabhängig davon, ob sie auf Zeitreihen oder allgemeinere Analyseaufgaben angewendet werden.

Aufeinanderfolgende oder in der Nähe liegende Abtastungen in den meisten zeitdiskreten Signalen der realen Welt sind nicht unabhängig, weshalb darauf geachtet werden muss, einen Prozess in ein deterministisches Modell und eine stochastische Rauschkomponente zu zerlegen. Trotzdem ist die Annahme eines unabhängigen Inkrements im klassischen stochastischen Kalkül problematisch: Erinnern Sie sich an den Wirtschaftsnobel von 1997 und die Implosion des LTCM von 1998, die die Preisträger zu ihren Hauptgrundsätzen zählte (obwohl fair, ist der Fondsmanager Merry, obgleich wahrscheinlich mehr schuld als quantitativ Methoden).

alancalvitti
quelle
"Zeitreihenanalyse" als Studienfach. Grundsätzlich meine ich alles, was jemanden auslöst, der sich mit Zeitreihen befasst (unabhängig von Art und Art der Analyse). Ich suche keine umfassenden Antworten. Überprüfen Sie die Frage, auf die ich in meiner Frage verwiesen habe, um ein Gefühl dafür zu bekommen, was ich hier zu tun versuche.
Naught101
Ich meinte, welche Art von Analyse
alancalvitti
Ich weiß. Ich denke, Sie verpassen den Punkt der Frage. Sie können häufig auftretende Stolpersteine ​​in jeder Art von Analyse und bei jeder Art von Zeitreihenproblem kommentieren , mit denen Sie Erfahrung haben. Behalten Sie es einfach bei Problemen, die spezifisch für Zeitreihen sind.
Naught101
Hey @alancalvitti, das Wirtschaftsbeispiel klingt interessant. Kennen Sie eine gute Beschreibung, auf die wir von hier aus verlinken können?
Naught101
Ich habe diese Antwort bearbeitet, um sie auf den Hauptpunkt zurückzubringen (um sie auf einen Punkt pro Antwort-Stil zurückzubringen). Das bedeutete, das Zeug über die Spektralanalyse zu entfernen. Vielleicht könnte etwas in einer separaten Antwort dazu gesagt werden (obwohl es anscheinend nicht um Fallstricke ging, gibt es wahrscheinlich spektralanalysebezogene Fallstricke, die wir hier feststellen könnten). Die obige Diskussion macht jetzt keinen Sinn, aber Sie bekommen das, denke ich: /
naught101
2

Seien Sie sich der Ergebnisse Ihres Modells zu sicher, da Sie eine Technik / ein Modell (z. B. OLS) verwenden, die / das die Autokorrelation einer Zeitreihe nicht berücksichtigt.

Ich habe keine schöne Grafik, aber das Buch "Introductory Time Series with R" (2009, Cowpertwait et al.) Gibt eine vernünftige intuitive Erklärung: Bei einer positiven Autokorrelation bleiben Werte über oder unter dem Mittelwert bestehen und zusammen in der Zeit gruppiert werden. Dies führt zu einer weniger effizienten Schätzung des Mittelwerts. Dies bedeutet, dass Sie mehr Daten benötigen, um den Mittelwert mit der gleichen Genauigkeit zu schätzen, als wenn keine Autokorrelation vorliegt. Sie haben effektiv weniger Daten als Sie denken.

Der OLS-Prozess (und Sie) gehen daher davon aus, dass keine Autokorrelation vorliegt. Daher gehen Sie auch davon aus, dass die Schätzung des Mittelwerts (für die Menge Ihrer Daten) genauer ist als sie tatsächlich ist. So sind Sie von Ihren Ergebnissen sicherer, als Sie sollten.

(Dies kann bei negativer Autokorrelation auch anders funktionieren: Ihre Schätzung des Mittelwerts ist tatsächlich effizienter als sonst. Ich kann dies nicht beweisen, aber ich würde vorschlagen, dass positive Korrelation in den meisten Fällen in der realen Welt häufiger vorkommt als negative Korrelation.)

Wayne
quelle
Ein Beispiel hier wäre großartig, ich verstehe die Antwort in der
jetzigen Form
Vielen Dank für die Bearbeitung von @Wayne, aber ich meinte irgendwie ein reales Beispiel, vorzugsweise mit etwas Visualisierung. Das können natürlich auch andere hinzufügen - es ist ein Community-Wiki.
Naught101
1
@ naught101: Ah. Zwei meiner drei Vorschläge, die ich hier gemacht habe, basieren auf dem, was ich gelernt habe, aber nicht unbedingt gut genug, um ein gutes Beispiel zu geben. Ich werde versuchen, eine im Web zu suchen.
Wayne
Es sind nur simulierte Daten, aber meine Antwort auf eine andere Frage enthält einen R-Code mit einem Modell, das mit OLS übereinstimmt und dann die Autokorrelation angemessener berücksichtigt - mit dramatisch höheren p-Werten. stats.stackexchange.com/questions/27254/…
Peter Ellis
2

Die Auswirkungen von Pegelverschiebungen, saisonalen Impulsen und lokalen Zeittrends ... zusätzlich zu einmaligen Impulsen. Änderungen der Parameter im Zeitverlauf sind wichtig für die Untersuchung / das Modell. Mögliche Änderungen in der Varianz der Fehler über die Zeit müssen untersucht werden. Wie man feststellt, wie Y von zeitgleichen und verzögerten Werten von X beeinflusst wird. Ermitteln, ob zukünftige Werte von X aktuelle Werte von Y beeinflussen können. Ermitteln, ob bestimmte Tage des Monats Auswirkungen haben. Wie modelliere ich Probleme mit gemischten Frequenzen, bei denen die Stundendaten von Tageswerten beeinflusst werden?

Ich wurde nicht gebeten, spezifischere Informationen / Beispiele zu Pegelverschiebungen und Impulsen bereitzustellen. Zu diesem Zweck füge ich jetzt eine weitere Diskussion hinzu. Eine Serie, die ein ACF zeigt, das auf Nichtstationarität hinweist, liefert tatsächlich ein "Symptom". Eine vorgeschlagene Abhilfe besteht darin, die Daten "zu differenzieren". Ein übersehenes Mittel ist, die Daten zu "de-meanen". Wenn eine Serie eine "Haupt" -Pegelverschiebung im Mittelwert (dh beim Abfangen) aufweist, kann die ACF dieser gesamten Serie leicht falsch interpretiert werden, um eine Differenzierung vorzuschlagen. Ich werde ein Beispiel einer Serie zeigen, die eine Pegelverschiebung aufweist. Wenn ich den Unterschied zwischen den beiden Mitteln hervorgehoben (vergrößert) hätte, würde die ACF der Gesamtserie (fälschlicherweise!) Die Notwendigkeit des Unterschieds nahe legen. Unbehandelte Impulse / Pegelverschiebungen / Saisonale Impulse / Lokale Zeittrends erhöhen die Varianz der Fehler und verschleiern die Bedeutung der Modellstruktur. Sie sind die Ursache für fehlerhafte Parameterschätzungen und schlechte Vorhersagen. Nun zu einem Beispiel. ThBildbeschreibung hier eingebenDies ist eine Liste der 27 monatlichen Werte. Dies ist die Grafik Bildbeschreibung hier eingeben. Es gibt vier Impulse und 1 Pegelverschiebung UND KEIN TREND! Bildbeschreibung hier eingebenund Bildbeschreibung hier eingeben. Die Residuen dieses Modells lassen auf einen Prozess mit weißem Rauschen schließen Bildbeschreibung hier eingeben. Einige (meist!) Kommerzielle und sogar kostenlose Prognosepakete liefern die folgende Dummheit, wenn ein Trendmodell mit additiven saisonalen Faktoren angenommen wird Bildbeschreibung hier eingeben. Zum Abschluss und zur Umschreibung von Mark Twain. "Es gibt Unsinn und es gibt Unsinn, aber der unsinnigste von allen ist statistischer Unsinn!" im Vergleich zu einem vernünftigeren Bildbeschreibung hier eingeben. Hoffe das hilft !

IrishStat
quelle
1
"Ja wirklich?" Das sind alles Fallstricke und Sünden ? (Lesen Sie den hervorgehobenen Teil der Frage noch einmal durch!) Vielleicht meinen Sie das Gegenteil von dem, was Sie geschrieben haben?
Whuber
Mit meinen Kommentaren wollte ich auf die Fallstricke hinweisen, einige dieser möglichen realen Strukturen nicht zu unterhalten oder in Betracht zu ziehen. Man muss Annahmen vermeiden, die nicht vernünftigerweise validiert sind, da sonst einige sehr fragwürdige Ergebnisse erzielt werden können.
IrishStat
3
Ich habe festgestellt, dass dies die Absicht war, aber in der jetzigen Form ist Ihre Antwort leicht zu missverstehen. Ist es beispielsweise eine Sünde, die "Auswirkung" von "einmaligen Impulsen" einzuschätzen, oder ist es eine Sünde, dies nicht zu tun? Dies ist hinreichend vage, so dass für beide Auslegungen ein gutes Argument angeführt werden könnte! (Ja, es ist eine Sünde, weil einmalige Impulse möglicherweise nur Ausreißer sind, auf die Sie keinen unangemessenen Einfluss ausüben möchten und deren Berücksichtigung das Modell möglicherweise überparametrisiert. Nein, sie müssen einbezogen werden, da ihre Auswirkungen möglicherweise anhalten eine lange Zeit und Ignorieren, die Schätzungen anderer Parameter
verzerren
@whuber Wenn die Wirkung eines einmaligen Impulses anhält, könnte dies als Folge von einmaligen Impulsen an aufeinanderfolgenden Punkten modelliert werden. Dies ist nicht so elegant wie es sein mag, aber dennoch effektiv. Wie Sie ganz richtig angegeben haben, möchten Sie keine fehlerhaften Werte haben, die Parameterschätzungen der sich wiederholenden Struktur verzerren. Daher ist es eine "Sünde", nicht spezifizierte deterministische Strukturen wie Impulse, Pegelverschiebungen, saisonale Impulse und / oder lokale Zeittrends nicht zu behandeln.
IrishStat
Ich denke, dies wäre eine wirklich interessante Antwort, wenn der erste Satz (Pegelverschiebungen und Impulse) (mit einigen Beispielen) stark erweitert und der Rest weggelassen würde. Heteroskedastizität würde für eine gute separate Antwort sorgen.
Naught101
1

Trend als lineares Wachstum über die Zeit definieren.

Obwohl einige Trends irgendwie linear sind (siehe Apple-Aktienkurs) und das Zeitreihendiagramm wie ein Liniendiagramm aussieht, in dem Sie eine lineare Regression feststellen können, sind die meisten Trends nicht linear.

Es gibt Schrittänderungen wie Änderungen, wenn zu einem bestimmten Zeitpunkt etwas passiert ist, das das Messverhalten verändert hat ( "Die Brücke ist eingestürzt und seitdem fahren keine Autos mehr darüber ").

Ein weiterer beliebter Trend ist "Buzz" - exponentielles Wachstum und ein ähnlich starker Rückgang danach ( "Unsere Marketingkampagne war ein großer Erfolg, aber der Effekt ließ nach einigen Wochen nach" ).

Die Kenntnis des richtigen Modells (logistische Regression usw.) des Trends in der Zeitreihe ist entscheidend für die Fähigkeit, ihn in den Zeitreihendaten zu erkennen.

Kerl
quelle
1

Zusätzlich zu einigen großartigen Punkten, die bereits erwähnt wurden, möchte ich hinzufügen:

  1. Fehler beim Erkennen langer Zyklen oder der Saisonabhängigkeit - indem nur Daten über einen nicht ausreichend langen Zeitraum untersucht werden
  2. Fehler beim Auswerten des Prognosefehlers für vergangene Perioden ( Backtesting )
  3. Versäumnis, Regimewechsel zu erkennen und zu bewältigen

Diese Probleme hängen nicht mit den statistischen Methoden zusammen, sondern mit dem Design der Studie, dh mit den einzubeziehenden Daten und der Bewertung der Ergebnisse.

Der knifflige Teil mit Punkt 1. ist, sicherzustellen, dass wir einen ausreichenden Zeitraum der Daten eingehalten haben, um Rückschlüsse auf die Zukunft zu ziehen. Während meiner ersten Vorlesung über Zeitreihen zeichnete der Professor eine lange Sinuskurve auf die Tafel und wies darauf hin, dass lange Zyklen bei Betrachtung über ein kurzes Fenster wie lineare Trends aussehen (ganz einfach, aber die Lektion blieb bei mir).

Punkt 2. ist besonders relevant, wenn die Fehler Ihres Modells praktische Auswirkungen haben. Unter anderem wird es in der Finanzbranche häufig verwendet, aber ich würde argumentieren, dass die Bewertung von Prognosefehlern in früheren Perioden für alle Zeitreihenmodelle sehr sinnvoll ist, sofern die Daten dies zulassen.

Punkt 3. geht erneut auf das Thema ein, welcher Teil vergangener Daten für die Zukunft repräsentativ ist. Dies ist ein komplexes Thema mit einer großen Menge an Literatur - ich werde meinen persönlichen Favoriten nennen: Zucchini und MacDonald als Beispiel.

Mittel zur Bedeutung
quelle
1

Vermeiden Sie Aliasing in abgetasteten Zeitreihen. Wenn Sie Zeitreihendaten analysieren, die in regelmäßigen Abständen abgetastet werden, muss die Abtastrate doppelt so hoch sein wie die Frequenz der höchsten Frequenzkomponente in den Daten, die Sie abtasten. Dies ist die Nyquist-Abtasttheorie und gilt für digitales Audio, aber auch für alle Zeitreihen, die in regelmäßigen Abständen abgetastet werden. Um Aliasing zu vermeiden, werden alle Frequenzen über der Nyquist-Rate herausgefiltert, die der halben Abtastrate entspricht. Für digitales Audio beispielsweise ist für eine Abtastrate von 48 kHz ein Tiefpassfilter mit einem Cutoff unter 24 kHz erforderlich.
Der Effekt des Aliasing ist erkennbar, wenn Räder aufgrund eines Strobiskopeffekts, bei dem die Stroboskoprate nahe an der Rotationsrate des Rads liegt, rückwärts zu drehen scheinen. Die beobachtete langsame Geschwindigkeit ist ein Alias ​​für die tatsächliche Umdrehungsgeschwindigkeit.

Marty
quelle