Der Mythos der Vorhersehbarkeit mit langem Horizont

8

Ich bin kürzlich auf einen faszinierenden Artikel über die Vorhersage zukünftiger Börsenrenditen gestoßen. Der Autor präsentiert die folgende Grafik und zitiert einen R ^ 2 von 0,913. Dies würde die Methode des Autors allem, was ich jemals zu diesem Thema gesehen habe, weit überlegen machen (die meisten argumentieren, dass der Aktienmarkt unvorhersehbar ist).

Geben Sie hier die Bildbeschreibung ein

Der Autor beschreibt seine Methode sehr detailliert und liefert eine fundierte Theorie, um die Ergebnisse zu stützen. Dann las ich einen zweiten, kritisierenden Artikel, der sich auf dieses Papier bezog: Der Mythos der Vorhersagbarkeit mit langem Horizont . Anscheinend sind die Menschen seit Jahrzehnten auf diese Illusion hereingefallen. Leider verstehe ich das Papier nicht wirklich.

Dies führt mich zu folgenden Fragen:

  • Entsteht das falsche Vertrauen in Langzeitvorhersagen aufgrund der Verwendung desselben Datensatzes für Training und Modellvalidierung? Würde das Problem verschwinden, wenn Trainings- und Validierungsdaten aus getrennten, nicht überlappenden Zeiträumen abgerufen würden?
  • Warum wird dieses Problem, abgesehen von der Validierung am Trainingssatz, über längere Zeiträume hinweg ausgeprägter?
  • Wie kann ich dieses Problem im Allgemeinen überwinden, wenn ich Modelle trainiere, die langfristige Vorhersagen treffen müssen?
Ryan Zotti
quelle
1
Ich bin mir nicht sicher, ob Sie auf diesen Thread im Lebenslauf gestoßen sind, in dem ich auf einige Artikel zu diesem Thema verwiesen habe. stats.stackexchange.com/questions/294489/…
horaceT

Antworten:

4

Ich denke, eine einfache Antwort ist, dass man R ^ 2 nicht auf der ursprünglichen Skala der Zeitreihen messen möchte. Wenn die Prognose nur eine Kopie des zuletzt gesehenen Zeitreihenwerts ist, wäre der R ^ 2 riesig. Beispiel:

Geben Sie hier die Bildbeschreibung ein

Dies könnte als falscher Fall bezeichnet werden. Ich bekomme den Wert 0,96, während diese Prognose total beschissen ist.

R ^ 2 wird einen ehrlichen Wert liefern, wenn es unter Verwendung stationärer Zeitanforderungen gemessen wurde, zum Beispiel der ersten Unterschiede von y und y-hat.

Alexey Burnakov
quelle
1

Das Problem tritt nicht auf, weil wir denselben Datensatz für Training und Validierung verwenden. Dies ergibt sich aus der Auswirkung der Persistenz der Variablen auf die Vergrößerung von Abtastfehlern und kleinen Auswirkungen auf längere Zeithorizonte. Wie im Artikel angegeben, erwarten wir, dass sowie Regressionskoeffizienten in etwa proportional zum Zeithorizont sind , selbst wenn Sie die zukünftigen Aktienmarktrenditen Ihrer interessierenden Variablen nicht vorhersagen können, wenn die Variablen persistent sind. Dies liegt daran (S. 1584):R2

a) Jede ungewöhnliche Ziehung der Renditen zum Zeitpunkt beeinflusst die Renditen für Perioden, wobei der Zeithorizont ist.tkk

b) Ein persistierender Regressor hat sehr ähnliche Werte für , , , ..,tt1t2tk

und somit "Die Auswirkung der ungewöhnlichen Auslosung wird in der Regression mit langem Horizont ungefähr mal größer sein als in der Regression mit einer Periode." In dem verlinkten Artikel unter Berufung auf das sehr hohe beträgt der Zeithorizont zehn Jahre, die Daten sind vierteljährlich verfügbar, sodass bei einem Zeithorizont von 10 Jahren (Zeithorizont ) die Inflation in wahrscheinlich sehr hoch sein wird. kR2k=40R2

Chris Novak
quelle