F
F
Die Frage ist nun: Warum verwendet man den Median vonFdie erwarteten minimiert absolute Fehler entdeckt ?
Hierzu empfehle ich häufig "Visualisierung des Medians als Minimum-Deviation-Location" von Hanley et al. (2001, The American Statistician ) . Sie haben zusammen mit ihrem Paper ein kleines Applet erstellt , was mit modernen Browsern leider nicht mehr funktioniert, aber wir können der Logik im Paper folgen.
Angenommen, Sie stehen vor einer Reihe von Aufzügen. Sie können gleich beabstandet angeordnet sein oder einige Abstände zwischen Aufzugstüren können größer sein als andere (z. B. können einige Aufzüge außer Betrieb sein). Vor dem Aufzug soll man stehen , um den minimalen erwarteten Spaziergang haben , wenn einer der Aufzüge nicht ankommen? Beachten Sie, dass dieser erwartete Weg die Rolle des erwarteten absoluten Fehlers spielt!
Angenommen, Sie haben drei Aufzüge A, B und C.
- Wenn Sie vor A warten, müssen Sie möglicherweise von A nach B gehen (wenn B ankommt) oder von A nach C (wenn C ankommt) - vorbei an B!
- Wenn Sie vor B warten, müssen Sie von B nach A (wenn A ankommt) oder von B nach C (wenn C ankommt) gehen.
- Wenn Sie vor C warten, müssen Sie von C nach A gehen (wenn A ankommt) - vorbei an B - oder von C nach B (wenn B ankommt).
Beachten Sie, dass es von der ersten und letzten Warteposition eine Entfernung gibt - AB in der ersten, BC in der letzten Position -, die Sie in mehreren Fällen, in denen Aufzüge ankommen, zurücklegen müssen . Daher ist es am besten, direkt vor dem mittleren Aufzug zu stehen - unabhängig davon, wie die drei Aufzüge angeordnet sind.
Hier ist Abbildung 1 von Hanley et al .:
Dies lässt sich leicht auf mehr als drei Aufzüge verallgemeinern. Oder zu Aufzügen mit unterschiedlichen Chancen, zuerst anzukommen. Oder zu unendlich vielen Aufzügen. Wir können diese Logik also auf alle diskreten Verteilungen anwenden und dann die Grenze überschreiten, um zu kontinuierlichen Verteilungen zu gelangen.
Um zur Prognose zurückzukehren, müssen Sie berücksichtigen, dass für einen bestimmten zukünftigen Zeitbereich eine (normalerweise implizite) Dichtevorhersage oder prädiktive Verteilung vorliegt, die wir mit einer einzelnen Zahlenpunktvorhersage zusammenfassen. Das obige Argument zeigt, warum der Median Ihrer prädiktiven Dichte istF^ist die Punktvorhersage, die den erwarteten absoluten Fehler oder MAE minimiert. (Genauer gesagt, jeder Median kann dies tun, da er möglicherweise nicht eindeutig definiert ist. Im Aufzugsbeispiel entspricht dies einer geraden Anzahl von Aufzügen.)
Und natürlich kann der Median ganz anders sein als die Erwartung, wenn F^ist asymmetrisch. Ein wichtiges Beispiel sind Daten mit geringem Datenvolumen , insbesondere intermittierende Zeitreihen . In der Tat, wenn Sie eine 50% ige oder höhere Chance haben, keine Verkäufe zu tätigen, zλ ≤ ln2Dann minimieren Sie Ihren erwarteten absoluten Fehler, indem Sie eine flache Null prognostizieren - was selbst für stark intermittierende Zeitreihen wenig intuitiv ist. Ich habe eine kleine Abhandlung darüber geschrieben ( Kolassa, 2016, International Journal of Forecasting ).
Wenn Sie also den Verdacht haben, dass Ihre prädiktive Verteilung asymmetrisch ist (oder sein sollte), wie in den beiden oben genannten Fällen, dann verwenden Sie rmse , wenn Sie unvoreingenommene Erwartungsprognosen erhalten möchten . Wenn die Verteilung als symmetrisch angenommen werden kann (normalerweise für großvolumige Serien), stimmen der Median und der Mittelwert überein, und die Verwendung der Mae führt Sie auch zu unvoreingenommenen Vorhersagen - und die MAE ist leichter zu verstehen.
Ebenso kann das Minimieren der Karte zu verzerrten Vorhersagen führen, selbst bei symmetrischen Verteilungen. Diese frühere Antwort von mir enthält ein simuliertes Beispiel mit einer asymmetrisch verteilten, streng positiven (lognormal verteilten) Reihe, die mithilfe von drei verschiedenen Punktvorhersagen sinnvoll punktprognostiziert werden kann, je nachdem, ob die MSE, die MAE oder die MAPE minimiert werden soll.