Interpretation des mittleren absoluten skalierten Fehlers (MASE)

Der mittlere absolute Skalierungsfehler (MASE) ist ein Maß für die von Koehler & Hyndman (2006) vorgeschlagene Prognosegenauigkeit .

M A S E = \frac{M A E}{M A E_{i n - s a m p l e, n a i v e}}

$MASE=\frac{MAE}{MAE_{in-sample, \, naive}}$

wobei ist der mittlere absolute Fehler der tatsächlichen Vorhersage erzeugt; während $MAE$
ist der mittlere absolute Fehler, der durch eine naive Prognose (z. B. unveränderte Prognose für eine integrierte-Zeitreihe) erzeugt wird und anhand der Stichprobendaten berechnet wird. $MAE_{in-sample, \, naive}$ $I(1)$

( Eine genaue Definition und Formel finden Sie in der Veröffentlichung von Koehler & Hyndman (2006) .)

bedeutetdass die tatsächliche Prognose tutschlimmeraus Probe als eine naive Prognose inProbe hatte, in Bezugdem mittleren absoluten Fehlers. Wenn also mittlere absolute Fehler die entsprechende Maß fürPrognosegenauigkeit ist (was das Problem beiHand hängt), legt nahedass die tatsächliche Prognose sollte zugunsten einer naiven Prognose verworfen werdenwenn wir die Out-of erwarten Die Stichprobendaten entsprechen weitgehend den Daten innerhalb der Stichprobe(da wir nur wissen, wie gut eine naive Prognose in der Stichprobe und nicht außerhalb der Stichprobe ausgeführt wurde). $MASE>1$ $MASE>1$

Frage:

wurde als Benchmark in einem Prognosewettbewerb verwendet, der in diesemHyndsight-Blogbeitragvorgeschlagen wurde. Sollte ein offensichtlicher Maßstab nicht ? $MASE=1.38$ $MASE=1$

Natürlich ist diese Frage nicht spezifisch für den jeweiligen Prognosewettbewerb. Ich möchte etwas Hilfe zum Verständnis in einem allgemeineren Kontext.

Meine Vermutung:

Die einzig vernünftige Erklärung, die ich sehe, ist, dass erwartet wurde, dass eine naive Prognose außerhalb der Stichprobe eine wesentlich schlechtere Leistung erbringt als in der Stichprobe, z. B. aufgrund eines Strukturwandels. Dann wäre möglicherweise zu schwierig gewesen. $MASE<1$

Verweise:

Hyndman, Rob J. und Anne B. Koehler. " Ein weiterer Blick auf Messungen der Prognosegenauigkeit. " International Journal of Forecasting 22.4 (2006): 679-688.
Hyndsight-Blogbeitrag .

time-series forecasting accuracy mase Richard Hardy
quelle

In seinem Blogbeitrag stellt Rob fest, woher dieser Benchmark stammt: "Diese Schwellenwerte sind die leistungsstärksten Methoden bei der Analyse dieser Daten, die in Athanasopoulos et al. (2010) beschrieben wurden." Haben Sie sich die Athanosopoulos-Zeitung angesehen?

S. Kolassa - Wiedereinsetzung von Monica

Ich bin ein bisschen verwirrt über "Ihre Vermutung": Ein Strukturwandel würde bedeuten, dass die differenzierte Prognose tatsächlich auf teilweise irrelevanten Vergangenheitsdaten basieren würde. Wie sich ein Strukturbruch auf eine "unveränderte" Prognose auswirken würde, hängt jedoch vom Bruch ab. Wenn wir zum Beispiel einen zufälligen Gang mit Drift betrachten und die strukturelle Unterbrechung bedeutet, dass die Drift, der konstante Term, gerade niedriger geworden ist , dann wird die " unveränderte " Prognose nach der Unterbrechung besser abschneiden als zuvor.

Alecos Papadopoulos

M A S E >> 1

$MASE>>1$

M A S E

$MASE$

Siehe auch

S. Kolassa - Monica

Antworten:

Rob Hyndman ruft im verlinkten Blog-Beitrag zur Teilnahme an einem Tourismus-Prognosewettbewerb auf. Im Wesentlichen dient der Blogbeitrag dazu, die Aufmerksamkeit auf den relevanten IJF-Artikel zu lenken, auf den in dem Blogbeitrag in einer ungekoppelten Version verwiesen wird.

Die Benchmarks, auf die Sie sich beziehen - 1,38 für monatliche, 1,43 für vierteljährliche und 2,28 für jährliche Daten - wurden anscheinend wie folgt ermittelt. Die Autoren (alle sind Experten für Prognosen und im IIF sehr aktiv - hier keine Schlangenölverkäufer) sind durchaus in der Lage, Standard-Prognosealgorithmen oder Prognosesoftware anzuwenden, und sie sind wahrscheinlich nicht an einer einfachen ARIMA-Einreichung interessiert. Also wandten sie einige Standardmethoden auf ihre Daten an. Damit der Gewinner zu einem Vortrag im IJF eingeladen wird werden kann, wird er gebeten, die besten dieser Standardmethoden, gemessen am MASE, zu verbessern.

Ihre Frage lautet also im Wesentlichen:

Angesichts der Tatsache, dass ein MASE von 1 einer Prognose entspricht, die außerhalb der Stichprobe (nach MAD) so gut ist wie die naive Stichprobenprognose, warum können sich Standard-Prognosemethoden wie ARIMA für monatliche Daten nicht auf 1,38 verbessern?

Hier kommt der 1.38 MASE aus Tabelle 4 in der ungated Version. Dies ist die durchschnittliche ASE-Prognose von ARIMA für einen Zeitraum von 1 bis 24 Monaten. Die anderen Standardmethoden wie ForecastPro, ETS usw. schneiden noch schlechter ab.

$\exp(t)$ mit Standardmethoden. Keiner von diesen erfasst den Beschleunigungstrend (und dies ist normalerweise eine gute Sache - wenn Ihr Prognosealgorithmus häufig einen Beschleunigungstrend modelliert, werden Sie wahrscheinlich Ihre Marke weit überschreiten), und sie ergeben einen MASE, der über 1 liegt. Andere Erklärungen könnten Wie Sie sagen, kann es sich um unterschiedliche Strukturbrüche handeln, z. B. Pegelverschiebungen oder externe Einflüsse wie SARS oder 9/11, die von den nicht kausalen Benchmarkmodellen nicht erfasst würden, die jedoch durch spezielle Tourismusvorhersagemethoden (unter Verwendung von SARS) modelliert werden könnten zukünftige Ursachen in einer Holdout-Stichprobe sind eine Art Betrug.

Daher würde ich sagen, dass Sie wahrscheinlich nicht viel dazu sagen können, ohne die Daten selbst zu betrachten. Sie sind bei Kaggle erhältlich. Ihre beste Wette besteht wahrscheinlich darin, diese 518-Serien zu nehmen, die letzten 24 Monate durchzuhalten, die ARIMA-Serien anzupassen, die MASEs zu berechnen, die zehn oder zwanzig schlechtesten MASE-Prognoseserien zu finden, eine große Kanne Kaffee zu trinken, diese Serien anzusehen und zu versuchen um herauszufinden, was ARIMA-Modelle so schlecht im Vorhersagen macht.

BEARBEITEN: Ein weiterer Punkt, der nachträglich offensichtlich erscheint, für den ich jedoch fünf Tage gebraucht habe. Denken Sie daran, dass der Nenner der MASE die stichprobenartige Prognose für den Schritt voraus ist , während der Zähler der Durchschnitt der 1-24-Schritte ist. vorausschauende Prognosen. Es ist nicht verwunderlich, dass sich die Prognosen mit zunehmendem Horizont verschlechtern. Dies könnte ein weiterer Grund für einen MASE von 1,38 sein. Beachten Sie, dass die saisonale naive Prognose ebenfalls in der Benchmark enthalten war und eine noch höhere MASE aufwies.

S. Kolassa - Setzen Sie Monica wieder ein
quelle

Gute Antwort! Vielen Dank für die kurze Zusammenfassung des Originalpapiers (es wird als hilfreiche Abkürzung für alle Uneingeweihten dienen). Es scheint, dass die Hauptidee hinter Ihrer Antwort nicht meiner Vermutung widerspricht (sondern sie vielmehr erweitert); Es gibt etwas Besonderes in der Stichprobe, das der in der Stichprobe enthaltene Fehler der naiven Vorhersage unterschätzt.

Richard Hardy

Keine Antwort, sondern eine Handlung nach dem Aufruf von Stephan Kolassa, sich diese Serien anzuschauen.
Kaggle tourism1 hat 518 jährliche Zeitreihen, für die wir die letzten 4 Werte vorhersagen wollen:

Bildbeschreibung hier eingeben

$5^{th}$
$\qquad Error4( y ) \equiv {1 \over 4} \sum_ {last\ 4} |y_i - y_{-5}|$
Die Zahlen in den Ecken, 81 12 ..., sind $Error4(y)$ in% der Reichweite und $length(y)$ .
Die 3 Reihen sind die 10 schlechtesten, 10 in der Mitte und 10 besten von 518 jährlichen Zeitreihen.

Offensichtlich sind sehr kurze Serien - 12 11 7 7 7 ... in der obersten Reihe - schwer vorherzusagen: keine Überraschung.
(Athanasopoulos, Hyndman, Song und Wu, The Tourism Forecasting Competition (2011, 23p) verwendeten 112 der 518 jährlichen Serien, aber ich sehe nicht, welche.)

Gibt es seit 2010 noch andere, neuere Sammlungen von Zeitreihen, die einen Blick wert sein könnten?

denis
quelle

Vielen Dank! Ich kenne die Antwort auf Ihre letzte Frage nicht.

Richard Hardy

@denis: Ich habe gerade Ihre Frage gesehen. Vielleicht möchten Sie bei OpenData.SE nach Daten fragen .

S. Kolassa - Wiedereinsetzung von Monica