Stichprobeneffekte auf Zeitreihenmodelle

9

Ich arbeite intensiv mit finanziellen Zeitreihenmodellen, hauptsächlich AR (I) MA und Kalman.

Ein Problem, mit dem ich immer wieder konfrontiert bin, ist die Abtastfrequenz. Anfangs dachte ich, wenn ich die Möglichkeit hätte, häufiger von einem zugrunde liegenden Prozess abzutasten, sollte ich so häufig wie möglich abtasten, damit ich eine viel größere Anzahl von Stichproben habe, daher variieren meine Modellparameter weniger.

In Wirklichkeit erwies sich diese Idee nicht als gut. Was passiert ist, ist, dass, wenn der zugrunde liegende Prozess nicht genügend Variationen aufweist, das Erhöhen der Abtastfrequenz tatsächlich viele sich wiederholende (gleiche) Werte bedeutet. Und das Aufbauen eines Modells auf solchen Werten führt zu Modellen mit sehr sehr kleinen Modellkoeffizienten, die nicht gut in die Zukunft vorhersagen (natürlich ist die Definition von "gut" subjektiv und eine erhöhte Häufigkeit erfordert, um viel mehr Stichprobenschritte in die Zukunft vorherzusagen den gleichen Zeitschritt in einer niedrigeren Frequenzeinstellung erreichen). Das Modell lernt, was es am meisten trifft - eine flache Linie.

Ich wollte einen adaptiven Stichprobenansatz machen, dh häufiger Stichproben, wenn es Abweichungen gibt, und weniger häufig, wenn es keine gibt. Dies ist jedoch nicht einfach. Zunächst ist nicht klar, welche Art von Verzerrung ich dadurch einführe (und hängt davon ab, wie ich das Sample / Skip auslöse). Zweitens sind Zeitreihenmodelle wie ARIMA für ungleichmäßige Stichprobenschritte nicht gut geeignet.

Gibt es eine gute Möglichkeit, mit diesem Problem umzugehen? Ich frage mich auch, wie man einen nahtlosen Übergang zwischen kontinuierlichen Zeitmodellen und diskreten Zeitmodellen erreicht, wenn Modelle so dramatisch von der Abtastfrequenz beeinflusst werden (insbesondere wenn Zeitschritte immer kleiner werden). Hinweise auf externe Ressourcen sind ebenfalls willkommen.

Vielen Dank

Cagdas Ozgenc
quelle
1
"Stichprobe häufiger, wenn Abweichungen vorliegen, und weniger häufig, wenn keine Abweichungen vorliegen" könnte in der Stichprobe funktionieren, dies wäre jedoch für Vorhersagen außerhalb der Stichprobe schwierig zu verwenden. Interessieren Sie sich für Ersteres oder Letzteres? Wenn Sie auf Regime mit geringer Variation (oder überhaupt keiner Variation) stoßen, gefolgt von Regimen mit hoher Variation, benötigen Sie natürlich separate Modelle für beide. Andernfalls hätten Sie ein Modell für den gesamten Prozess und die Abtastung in ungleichmäßigen Intervallen / Frequenzen würde intuitiv suboptimal erscheinen. Außerdem ist der letzte Absatz meiner Meinung nach eine eigenständige Frage, IMHO.
Richard Hardy
1
Sie können auch in Betracht ziehen, Ihren Titel informativer zu gestalten, um auf die Idee hinzuweisen, an Stellen mit großen Bewegungen häufiger Samples zu erstellen.
Richard Hardy
1
@RichardHardy Ich dachte über Regime-Switching-Modelle nach. Sie sind jedoch notorisch schwer zu trainieren. Wissen Sie, wie Sie Regimewechselmodelle auf dynamische Weise identifizieren und trainieren können (automatisch erkannt, ohne den Punkt des Regimewechsels im Voraus anzugeben)? Können Sie einige Hinweise zeigen?
Cagdas Ozgenc

Antworten:

1

ARIMAs sind möglicherweise nicht gut für Ihren Zweck geeignet, aber Zustandsraummodelle sind: Sie können so oft abtasten, wie Sie möchten (und im Prinzip, je mehr desto besser) und in festgelegten Intervallen eine zeitliche Aktualisierung durchführen, je nach Dynamik Ihres angenommenen Prozesses kann verlangen. Eine der Schönheiten von Zustandsraummodellen besteht darin, dass der Beobachtungsprozess vom Modellprozess getrennt ist und für jedes separate Zeitintervalle verwendet werden können.

F. Tusell
quelle
Das löst mein Problem nicht. Selbst in einem Zustandsraummodell müssen zunächst Modellkoeffizienten bestimmt werden. Die Methode zur Aktualisierung des Zustandsraums gilt für den Zustandsvektor selbst und nicht für die Koeffizientenmatrizen.
Cagdas Ozgenc
Ich verstehe Ihren Kommentar nicht ganz. Wenn Sie Ihr Modell in Zustandsraumform umwandeln, können Sie die Wahrscheinlichkeit (unter der Annahme der Normalität) mit dem Filter Kalman unabhängig von der Abtastfrequenz berechnen. Wenn Sie diese Wahrscheinlichkeit maximieren, können Sie die Parameter in den Systemmatrizen schätzen.
F. Tusell
Das ist wahr, wenn Sie das Modell im Voraus kennen. Wenn alle Zustandsübergangsmatrizen und Rauschkovarianzmatrizen bekannt sind, können Sie die Aktualisierungen durchführen und Zeitschritte überspringen. Wenn Sie zuerst nur die Daten erhalten, müssen Sie auf die Übergangsmatrizen schließen. Und diese Matrizen unterscheiden sich zwischen einer Periode mit hoher Volatilität und einer Periode mit niedriger Volatilität.
Cagdas Ozgenc
1

Ich möchte Sie auf den Artikel verweisen

Ghysels, E, P. Santa-Clara und R. Valkanov (2006): "Vorhersage der Volatilität: Das Beste aus den bei verschiedenen Frequenzen abgetasteten Rückgabedaten herausholen", Journal of Econometrics, vol. 131, S. 59-95.

Die Autoren verwenden selbst eine Technik namens MIDAS (Mixed Data Sampling), um Schätzungen der Volatilität anhand von Daten zu vergleichen, die bei verschiedenen Frequenzen abgetastet wurden. Zugegeben, das ist nicht genau das, wonach Sie gesucht haben, aber die Autoren behaupten, dass ihre Technik geeignet ist, die Ergebnisse auf sinnvolle Weise zu vergleichen. Vielleicht gibt Ihnen dies mindestens eine zweite Möglichkeit, Ihre Daten zu analysieren. Insbesondere im Bereich der Makroökonomie scheint dieser Ansatz auf Interesse gestoßen zu sein.

Dr_Be
quelle
1
Vielen Dank. Das Problem ist nicht spezifisch für finanzielle Zeitreihen. Nehmen Sie jede experimentelle Situation und probieren Sie mit hoher Frequenz in der Zeitdimension. Sie haben eine lange flache Linie und die Modelle lernen das, eine flache Linie. Weil sich wiederholende Samples die aussagekräftigen Samples überfüllen, die tatsächlich die Variation des zugrunde liegenden Prozesses widerspiegeln. Das ist wirklich problematisch und ich kann nicht viel zu diesem Thema finden.
Cagdas Ozgenc
0

Probe häufiger, wenn es Abweichungen gibt, und seltener, wenn es keine gibt

Dies könnte in der Stichprobe funktionieren, wäre jedoch für Vorhersagen außerhalb der Stichprobe schwierig zu verwenden, es sei denn, Sie finden heraus, wie die Variabilität selbst vorhergesagt werden kann (und das muss nicht unmöglich sein). Wenn Sie auf Regime mit geringer Variation (oder überhaupt keiner Variation) stoßen, gefolgt von Regimen mit hoher Variation, benötigen Sie natürlich separate Modelle für beide; Ein Modell für den gesamten Prozess zu haben und in ungleichmäßigen Intervallen / Frequenzen abzutasten, erscheint intuitiv suboptimal. Sie haben Regime-Switching-Modelle erwähnt (bei der Beantwortung meines Kommentars), und das ist ein gutes Beispiel dafür, was Sie hier möglicherweise benötigen.

Ich sollte so oft wie möglich Stichproben machen, damit ich eine viel größere Anzahl von Stichproben habe, daher variieren meine Modellparameter weniger.

Dies ist nicht ganz richtig. In einer Zeitreiheneinstellung ist oft eher die Zeitspanne als die Anzahl der Beobachtungen von Bedeutung. Beispielsweise sind 120 monatliche Beobachtungen (über 10 Jahre) eine aussagekräftigere Stichprobe als 209 wöchentliche Beobachtungen (über 4 Jahre), wenn auf das Vorhandensein einer Einheitswurzel getestet wird. Siehe diesen Blog-Beitrag von Dave Giles und die letzte Referenz darin. Oder betrachten Sie einen Grenzfall, in dem Sie so häufig Proben entnehmen, dass Sie im Wesentlichen dasselbe mehrmals messen. Dies würde Ihre Stichprobengröße erhöhen, aber keine neuen Informationen einbringen, was zu einem falschen Eindruck von Schätzgenauigkeit führen würde. Vielleicht sollten Sie nicht zu viel Zeit damit verbringen, die Abtastfrequenz zu erhöhen und entsprechende Modelle zu erstellen?

Richard Hardy
quelle
Post beantwortet die Frage nicht wirklich. Regimewechsel ist wahrscheinlich der richtige Weg.
Cagdas Ozgenc