Was ist los mit Autokorrelation?

13

Um das vorwegzunehmen, ich habe einen ziemlich tiefen mathematischen Hintergrund, aber ich habe mich nie wirklich mit Zeitreihen oder statistischer Modellierung beschäftigt. Also musst du nicht sehr sanft zu mir sein :)

Ich lese dieses Papier über die Modellierung des Energieverbrauchs in Gewerbegebäuden, und der Autor behauptet:

[Das Vorhandensein von Autokorrelation entsteht], weil das Modell aus Zeitreihendaten des Energieverbrauchs entwickelt wurde, die von Natur aus autokorreliert sind. Jedes rein deterministische Modell für Zeitreihendaten weist eine Autokorrelation auf. Die Autokorrelation nimmt ab, wenn [mehr Fourier-Koeffizienten] im Modell enthalten sind. In den meisten Fällen hat das Fourier-Modell jedoch eine niedrige CV. Das Modell kann daher für praktische Zwecke akzeptabel sein, die (sic) keine hohe Präzision erfordern.

0.) Was bedeutet "ein rein deterministisches Modell für Zeitreihendaten hat Autokorrelation"? Ich kann vage verstehen, was dies bedeutet - wie würden Sie beispielsweise den nächsten Punkt in Ihrer Zeitreihe vorhersagen, wenn Sie keine Autokorrelation hätten? Dies ist allerdings kein mathematisches Argument, weshalb dies 0 ist :)

1.) Ich hatte den Eindruck, dass die Autokorrelation Ihr Modell im Grunde genommen getötet hat, aber wenn ich darüber nachdenke, kann ich nicht verstehen, warum dies der Fall sein sollte. Warum ist Autokorrelation eine schlechte (oder gute) Sache?

2.) Die Lösung, die ich für den Umgang mit Autokorrelation gehört habe, ist die Differenzierung der Zeitreihen. Warum sollte man, ohne zu versuchen, die Gedanken des Autors zu lesen, kein Diff machen, wenn eine nicht zu vernachlässigende Autokorrelation besteht?

3.) Welche Einschränkungen haben nicht zu vernachlässigende Autokorrelationen für ein Modell? Ist dies eine Annahme irgendwo (dh normalverteilte Residuen bei der Modellierung mit einfacher linearer Regression)?

Tut mir leid, wenn dies grundlegende Fragen sind, und vielen Dank im Voraus für Ihre Hilfe.

BenDundee
quelle

Antworten:

10
  1. Ich denke, der Autor spricht wahrscheinlich über die Reste des Modells. Ich argumentiere dies aufgrund seiner Aussage über die Addition weiterer Fourier-Koeffizienten; Wenn er, wie ich glaube, ein Fourier-Modell anpasst, verringert das Hinzufügen weiterer Koeffizienten die Autokorrelation der Residuen auf Kosten eines höheren CV.

    Wenn Sie sich das nicht vorstellen können, stellen Sie sich das folgende Beispiel vor: Angenommen, Sie haben den folgenden 100-Punkte-Datensatz, der von einem Fourier-Modell mit zwei Koeffizienten und zusätzlichem weißen Gaußschen Rauschen stammt:

    Datenpunkte

    Die folgende Grafik zeigt zwei Anpassungen: eine mit 2 Fourier-Koeffizienten und eine mit 200 Fourier-Koeffizienten:

    Passt

    Wie Sie sehen können, passen die 200 Fourier-Koeffizienten besser zu den DATAPOINTS, während die 2-Koeffizienten-Anpassung (das "echte" Modell) besser zum MODELL passt. Dies impliziert, dass die Autokorrelation der Residuen des Modells mit 200 Koeffizienten fast sicher bei allen Verzögerungen näher bei Null liegt als die Residuen des 2-Koeffizienten-Modells, da das Modell mit 200 Koeffizienten genau zu fast allen Datenpunkten passt (dh zu den Residuen) sein fast alle Nullen). Was würde Ihrer Meinung nach jedoch passieren, wenn Sie beispielsweise 10 Datenpunkte aus der Stichprobe herausnehmen und für dieselben Modelle passen? Das 2-Koeffizienten-Modell sagt die Datenpunkte, die Sie aus der Stichprobe herausgelassen haben, besser voraus! Dies führt zu einem niedrigeren CV-Fehler als das 200-Koeffizienten-Modell. Dies nennt man Überanpassung. Der Grund für diese "Magie" liegt darin, dass der Lebenslauf tatsächlich zu messen versucht Vorhersagefehler , dh, wie gut Ihr Modell Datenpunkte vorhersagt, die nicht in Ihrem Datensatz enthalten sind.

  2. In diesem Zusammenhang ist die Autokorrelation der Residuen "schlecht", da Sie die Korrelation zwischen Datenpunkten nicht gut genug modellieren. Der Hauptgrund, warum die Leute die Serie nicht unterscheiden, ist, weil sie es tatsächlich wollen den zugrunde liegenden Prozess modellieren wie er ist. Man unterscheidet die Zeitreihen normalerweise, um Periodizitäten oder Trends loszuwerden, aber wenn diese Periodizität oder dieser Trend tatsächlich das ist, was Sie zu modellieren versuchen, dann scheint das Differenzieren eine letzte Auswegoption (oder eine Option, um die Residuen mit zu modellieren) zu sein ein komplexerer stochastischer Prozess).
  3. Dies hängt wirklich von dem Bereich ab, an dem Sie arbeiten. Es könnte auch ein Problem mit dem deterministischen Modell sein. In Abhängigkeit von der Form der Autokorrelation kann jedoch leicht festgestellt werden, wann die Autokorrelation aufgrund von z. B. Flimmerrauschen, ARMA-ähnlichem Rauschen oder einer verbleibenden zugrunde liegenden periodischen Quelle auftritt (in diesem Fall möchten Sie möglicherweise eine Erhöhung vornehmen) die Anzahl der Fourier-Koeffizienten).
Néstor
quelle
Vielen Dank für Ihre Antwort. Wenn Sie dazu bereit sind, würde ich gerne versuchen, diese nacheinander zu verarbeiten. Gibt es für 1.) eine intuitive Möglichkeit zu verstehen, warum die Einbeziehung weiterer Fourier-Koeffizienten die Autokorrelation verringert und die CV erhöht (ich nehme an, dies ist die CV der Residuen)?
BenDundee
1
Ich habe ein Beispiel hinzugefügt. Ich hoffe es hilft. Und ja, er bezieht sich auf den Lebenslauf der Residuen.
Néstor
Ahh ok, ich glaube ich sehe. Dies hängt damit zusammen, was ich in Bezug auf 2 fragen wollte. Wie könnte man dieses Modell (allgemein) patchen, um die Korrelation besser zu verstehen? Können Sie eine Einschränkung für die Korrelationsmatrix der Fourier-Koeffizienten hinzufügen?
BenDundee
1
Das ist eine schwierige Aufgabe, die ich auch mache. Insbesondere bei periodischen deterministischen Modellen ist es sehr schwierig zu wissen, welche Art von Rauschmodell verwendet werden soll. Das große Problem ist, dass Sie die Anzahl der Koeffizienten des Fourier-Modells nicht von vornherein kennen, also sind es auch Zufallsvariablen, die Sie modellieren müssen. Bei einer geringen Anzahl von Datenpunkten würde ich definitiv einen MCMC mit reversiblem Sprung wählen, um dies zu modellieren. Ich würde verschiedene Rauschmodelle ausprobieren und den AIC / BIC zwischen ihnen vergleichen. Bei großen Datenmengen ist dies jedoch nicht möglich.
Néstor
3

Ich fand dieses Papier ' Spurious Regressions in Econometrics ' hilfreich, als ich versuchte, herauszufinden, warum es notwendig ist, Trends zu beseitigen. Wenn zwei Variablen im Trend liegen, variieren sie im Wesentlichen gleichzeitig. Dies ist ein Rezept für Probleme.

Vermutungen
quelle