Extrapolieren einer linearen Regression auf eine Zeitreihe, wobei die Zeit eine der unabhängigen Variablen in der Regression ist. Eine lineare Regression kann eine Zeitreihe auf einer kurzen Zeitskala approximieren und kann bei einer Analyse nützlich sein, aber das Extrapolieren einer geraden Linie ist töricht. (Die Zeit ist unendlich und nimmt ständig zu.)
EDIT: Als Antwort auf die Frage von naught101 nach "dumm" mag meine Antwort falsch sein, aber es scheint mir, dass die meisten realen Phänomene nicht für immer kontinuierlich zunehmen oder abnehmen. Die meisten Prozesse haben begrenzende Faktoren: Die Menschen wachsen nicht mehr mit zunehmendem Alter, die Bestände steigen nicht immer, die Populationen können nicht negativ werden, Sie können Ihr Haus nicht mit einer Milliarde Welpen füllen usw. Zeit, im Gegensatz zu den meisten unabhängigen Variablen, die kommen Denken Sie daran, hat unendliche Unterstützung, so dass Sie sich wirklich vorstellen können, wie Ihr lineares Modell den Aktienkurs von Apple in 10 Jahren prognostiziert, denn in 10 Jahren wird es ihn mit Sicherheit geben. (Während Sie keine Höhen-Gewichts-Regression extrapolieren würden, um das Gewicht von 20 Meter großen erwachsenen Männern vorherzusagen: Sie existieren nicht und werden nicht existieren.)
Darüber hinaus weisen Zeitreihen häufig zyklische oder pseudozyklische Komponenten oder Random-Walk-Komponenten auf. Wie IrishStat in seiner Antwort erwähnt, müssen Sie die Saisonalität (manchmal Saisonalitäten auf mehreren Zeitskalen), Pegelverschiebungen (die bei linearen Regressionen, die diese nicht berücksichtigen, merkwürdige Auswirkungen haben) usw. berücksichtigen. Eine lineare Regression, die Zyklen ignoriert, führt dazu kurzfristig passen, aber sehr irreführend sein, wenn Sie es extrapolieren.
Natürlich können Sie Probleme bekommen, wenn Sie extrapolieren, Zeitreihen oder nicht. Aber es scheint mir, dass wir zu oft jemanden sehen, der eine Zeitreihe (Verbrechen, Aktienkurse usw.) in Excel wirft, eine PROGNOSE oder einen ZEITPUNKT darauf ablegt und die Zukunft im Wesentlichen über eine gerade Linie vorhersagt, als ob die Aktienkurse kontinuierlich steigen würden (oder kontinuierlich sinken, einschließlich negativ).
Berücksichtigung der Korrelation zwischen zwei instationären Zeitreihen. (Es ist nicht unerwartet, dass sie einen hohen Korrelationskoeffizienten haben: Suche nach "unsinniger Korrelation" und "Kointegration".)
Beispielsweise haben Hunde und Ohrlöcher bei Google Correlate einen Korrelationskoeffizienten von 0,84.
Eine ältere Analyse finden Sie in Yules Untersuchung des Problems von 1926
quelle
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
Auf der obersten Ebene identifizierte Kolmogorov die Unabhängigkeit als Schlüsselannahme in der Statistik - ohne diese Annahme stimmen viele wichtige Ergebnisse in der Statistik nicht, unabhängig davon, ob sie auf Zeitreihen oder allgemeinere Analyseaufgaben angewendet werden.
Aufeinanderfolgende oder in der Nähe liegende Abtastungen in den meisten zeitdiskreten Signalen der realen Welt sind nicht unabhängig, weshalb darauf geachtet werden muss, einen Prozess in ein deterministisches Modell und eine stochastische Rauschkomponente zu zerlegen. Trotzdem ist die Annahme eines unabhängigen Inkrements im klassischen stochastischen Kalkül problematisch: Erinnern Sie sich an den Wirtschaftsnobel von 1997 und die Implosion des LTCM von 1998, die die Preisträger zu ihren Hauptgrundsätzen zählte (obwohl fair, ist der Fondsmanager Merry, obgleich wahrscheinlich mehr schuld als quantitativ Methoden).
quelle
Seien Sie sich der Ergebnisse Ihres Modells zu sicher, da Sie eine Technik / ein Modell (z. B. OLS) verwenden, die / das die Autokorrelation einer Zeitreihe nicht berücksichtigt.
Ich habe keine schöne Grafik, aber das Buch "Introductory Time Series with R" (2009, Cowpertwait et al.) Gibt eine vernünftige intuitive Erklärung: Bei einer positiven Autokorrelation bleiben Werte über oder unter dem Mittelwert bestehen und zusammen in der Zeit gruppiert werden. Dies führt zu einer weniger effizienten Schätzung des Mittelwerts. Dies bedeutet, dass Sie mehr Daten benötigen, um den Mittelwert mit der gleichen Genauigkeit zu schätzen, als wenn keine Autokorrelation vorliegt. Sie haben effektiv weniger Daten als Sie denken.
Der OLS-Prozess (und Sie) gehen daher davon aus, dass keine Autokorrelation vorliegt. Daher gehen Sie auch davon aus, dass die Schätzung des Mittelwerts (für die Menge Ihrer Daten) genauer ist als sie tatsächlich ist. So sind Sie von Ihren Ergebnissen sicherer, als Sie sollten.
(Dies kann bei negativer Autokorrelation auch anders funktionieren: Ihre Schätzung des Mittelwerts ist tatsächlich effizienter als sonst. Ich kann dies nicht beweisen, aber ich würde vorschlagen, dass positive Korrelation in den meisten Fällen in der realen Welt häufiger vorkommt als negative Korrelation.)
quelle
Die Auswirkungen von Pegelverschiebungen, saisonalen Impulsen und lokalen Zeittrends ... zusätzlich zu einmaligen Impulsen. Änderungen der Parameter im Zeitverlauf sind wichtig für die Untersuchung / das Modell. Mögliche Änderungen in der Varianz der Fehler über die Zeit müssen untersucht werden. Wie man feststellt, wie Y von zeitgleichen und verzögerten Werten von X beeinflusst wird. Ermitteln, ob zukünftige Werte von X aktuelle Werte von Y beeinflussen können. Ermitteln, ob bestimmte Tage des Monats Auswirkungen haben. Wie modelliere ich Probleme mit gemischten Frequenzen, bei denen die Stundendaten von Tageswerten beeinflusst werden?
Ich wurde nicht gebeten, spezifischere Informationen / Beispiele zu Pegelverschiebungen und Impulsen bereitzustellen. Zu diesem Zweck füge ich jetzt eine weitere Diskussion hinzu. Eine Serie, die ein ACF zeigt, das auf Nichtstationarität hinweist, liefert tatsächlich ein "Symptom". Eine vorgeschlagene Abhilfe besteht darin, die Daten "zu differenzieren". Ein übersehenes Mittel ist, die Daten zu "de-meanen". Wenn eine Serie eine "Haupt" -Pegelverschiebung im Mittelwert (dh beim Abfangen) aufweist, kann die ACF dieser gesamten Serie leicht falsch interpretiert werden, um eine Differenzierung vorzuschlagen. Ich werde ein Beispiel einer Serie zeigen, die eine Pegelverschiebung aufweist. Wenn ich den Unterschied zwischen den beiden Mitteln hervorgehoben (vergrößert) hätte, würde die ACF der Gesamtserie (fälschlicherweise!) Die Notwendigkeit des Unterschieds nahe legen. Unbehandelte Impulse / Pegelverschiebungen / Saisonale Impulse / Lokale Zeittrends erhöhen die Varianz der Fehler und verschleiern die Bedeutung der Modellstruktur. Sie sind die Ursache für fehlerhafte Parameterschätzungen und schlechte Vorhersagen. Nun zu einem Beispiel. ThDies ist eine Liste der 27 monatlichen Werte. Dies ist die Grafik . Es gibt vier Impulse und 1 Pegelverschiebung UND KEIN TREND! und . Die Residuen dieses Modells lassen auf einen Prozess mit weißem Rauschen schließen . Einige (meist!) Kommerzielle und sogar kostenlose Prognosepakete liefern die folgende Dummheit, wenn ein Trendmodell mit additiven saisonalen Faktoren angenommen wird . Zum Abschluss und zur Umschreibung von Mark Twain. "Es gibt Unsinn und es gibt Unsinn, aber der unsinnigste von allen ist statistischer Unsinn!" im Vergleich zu einem vernünftigeren . Hoffe das hilft !
quelle
Trend als lineares Wachstum über die Zeit definieren.
Obwohl einige Trends irgendwie linear sind (siehe Apple-Aktienkurs) und das Zeitreihendiagramm wie ein Liniendiagramm aussieht, in dem Sie eine lineare Regression feststellen können, sind die meisten Trends nicht linear.
Es gibt Schrittänderungen wie Änderungen, wenn zu einem bestimmten Zeitpunkt etwas passiert ist, das das Messverhalten verändert hat ( "Die Brücke ist eingestürzt und seitdem fahren keine Autos mehr darüber ").
Ein weiterer beliebter Trend ist "Buzz" - exponentielles Wachstum und ein ähnlich starker Rückgang danach ( "Unsere Marketingkampagne war ein großer Erfolg, aber der Effekt ließ nach einigen Wochen nach" ).
Die Kenntnis des richtigen Modells (logistische Regression usw.) des Trends in der Zeitreihe ist entscheidend für die Fähigkeit, ihn in den Zeitreihendaten zu erkennen.
quelle
Zusätzlich zu einigen großartigen Punkten, die bereits erwähnt wurden, möchte ich hinzufügen:
Diese Probleme hängen nicht mit den statistischen Methoden zusammen, sondern mit dem Design der Studie, dh mit den einzubeziehenden Daten und der Bewertung der Ergebnisse.
Der knifflige Teil mit Punkt 1. ist, sicherzustellen, dass wir einen ausreichenden Zeitraum der Daten eingehalten haben, um Rückschlüsse auf die Zukunft zu ziehen. Während meiner ersten Vorlesung über Zeitreihen zeichnete der Professor eine lange Sinuskurve auf die Tafel und wies darauf hin, dass lange Zyklen bei Betrachtung über ein kurzes Fenster wie lineare Trends aussehen (ganz einfach, aber die Lektion blieb bei mir).
Punkt 2. ist besonders relevant, wenn die Fehler Ihres Modells praktische Auswirkungen haben. Unter anderem wird es in der Finanzbranche häufig verwendet, aber ich würde argumentieren, dass die Bewertung von Prognosefehlern in früheren Perioden für alle Zeitreihenmodelle sehr sinnvoll ist, sofern die Daten dies zulassen.
Punkt 3. geht erneut auf das Thema ein, welcher Teil vergangener Daten für die Zukunft repräsentativ ist. Dies ist ein komplexes Thema mit einer großen Menge an Literatur - ich werde meinen persönlichen Favoriten nennen: Zucchini und MacDonald als Beispiel.
quelle
Vermeiden Sie Aliasing in abgetasteten Zeitreihen. Wenn Sie Zeitreihendaten analysieren, die in regelmäßigen Abständen abgetastet werden, muss die Abtastrate doppelt so hoch sein wie die Frequenz der höchsten Frequenzkomponente in den Daten, die Sie abtasten. Dies ist die Nyquist-Abtasttheorie und gilt für digitales Audio, aber auch für alle Zeitreihen, die in regelmäßigen Abständen abgetastet werden. Um Aliasing zu vermeiden, werden alle Frequenzen über der Nyquist-Rate herausgefiltert, die der halben Abtastrate entspricht. Für digitales Audio beispielsweise ist für eine Abtastrate von 48 kHz ein Tiefpassfilter mit einem Cutoff unter 24 kHz erforderlich.
Der Effekt des Aliasing ist erkennbar, wenn Räder aufgrund eines Strobiskopeffekts, bei dem die Stroboskoprate nahe an der Rotationsrate des Rads liegt, rückwärts zu drehen scheinen. Die beobachtete langsame Geschwindigkeit ist ein Alias für die tatsächliche Umdrehungsgeschwindigkeit.
quelle