Dichtevorhersagen sind universeller als Punktvorhersagen; Sie liefern Informationen über die gesamte vorhergesagte Verteilung einer Zufallsvariablen und nicht über eine konkrete Funktion derselben (wie den vorhergesagten Mittelwert, den Median, das Quantil usw.). Durch die Verfügbarkeit einer Dichtevorhersage können verschiedene Benutzer relevante Elemente - Punktvorhersagen - auswählen, die für sie von Interesse sind. Einige Benutzer konzentrieren sich auf den vorhergesagten Mittelwert, andere auf den vorhergesagten Median usw., abhängig von der Verlustfunktion, anhand derer die Prognose bewertet wird (und die von Benutzer zu Benutzer unterschiedlich sein kann). Bei einer Dichtevorhersage werden die Bedürfnisse jedes Benutzers unabhängig von der Verlustfunktion erfüllt, da die Dichtevorhersage alle probabilistischen Informationen über die Zufallsvariable enthält .
Wenn wir jedoch einen konkreten Benutzer im Auge haben und dessen Verlustfunktion kennen, dann
- Bietet die Dichteprognose einen Mehrwert gegenüber einer auf die Verlustfunktion zugeschnittenen Punktprognose?
- Wenn die Antwort im Allgemeinen Nein lautet , unter welchen Bedingungen wird ein Ja angezeigt ?
PS @hejseb zieht eine interessante Parallele zwischen einer auf die Verlustfunktion zugeschnittenen Punktprognose und einer ausreichenden Statistik. Vielleicht kann dies eine Antwort inspirieren.
quelle
Antworten:
Ich kann mir eineinhalb mehr oder weniger realistische Situationen vorstellen, in denen eine volle Dichte besser ist als eine Punktprognose, selbst wenn die Verlustfunktion bekannt ist.
Die pingelige Situation ist die, in der die Verlustfunktion des Benutzers nicht nur von der Punktprognose abhängt, sondern auch von einer zweiseitigen Vorhersageintervalloder sogar die gesamte Dichte, dh die Verlustfunktion ist a Bewertungsregeln.
Ja, eine Verlustfunktion hängt normalerweise von einer Einzelpunktprognose ab, daher habe ich hier keine Nomenklatur mehr. Dennoch treten solche Situationen auf, z. B. bei der Prognose der finanziellen Volatilität. Oder wo ich arbeite, bei der Prognose des Nachschubs im Einzelhandel: Wir möchten möglicherweise ein Serviceniveau von 95% erreichen, sodass wir auf den ersten Blick möglicherweise nur an dieser (Punkt-) Quantilprognose interessiert sind. Eine 95% -Quantilprognose kann jedoch 4 sein, während wir möglicherweise gezwungen sind, in Packungsgrößen von 8 nachzufüllen. In einer solchen Situation kann es hilfreich sein zu wissen, wie viel Prozent 8 Einheiten entsprechen.
quelle
Hintergrund (kann übersprungen werden)
Ich werde in entscheidungstheoretischen Begriffen wie folgt denken. Ein Benutzer muss eine Aktion auswählena unter einer Reihe von Möglichkeiten A . Die Aktion bringt ihm / ihr einen "Nutzen" (ein Begriff, der in der Wirtschaft häufig verwendet wird).u(a;s) je nach Naturzustand s das wird in Zukunft realisiert, wo s∈S eine Menge aller möglichen Zustände. (Der Nutzen ist im Grunde das Negative des Verlusts, und das Folgende könnte entweder in Bezug auf den Nutzen oder den Verlust gleichwertig umformuliert werden.) Der Benutzer zielt darauf ab, den erwarteten Nutzen (oder gleichwertig den erwarteten Verlust) für die Aktion zu maximieren.
Die Wahl der Maßnahme basiert auf der Vorhersage des zu realisierenden Naturzustandes. Bei einer Dichtevorhersage kann ein Benutzer den erwarteten Nutzen einer bestimmten Aktion berechnen, indem er den Nutzen dieser Aktion über die vorhergesagte Verteilung der Naturzustände Dann wählt er / sie die Aktion (unter allen möglichen) aus, die diesen erwarteten Nutzen maximiert: . Der erwartete Nutzenwert bei dieser Aktion für diese Dichtevorhersage ist .f^S(⋅)
Wenn die Utility-Funktion ein eindeutiges Maximum hat (die Verlustfunktion hat ein eindeutiges Minimum), ist die optimale Aktion eindeutig. Wenn der Naturzustand eine kontinuierliche Zufallsvariable ist , existiert ein Punkt in der Verteilung (ein Naturzustand), der genau ergibt . Dieser Punkt definiert das Ziel der "relevanten" Punktprognose. Daher erhält der Benutzer genau das gleiche maximierte (über alle möglichen Aktionen) erwarteten Nutzen unabhängig davon , ob die Prognose bekommt er eine Dichte Prognose ist oder die „relevante“ Punktprognose (eine Einheit Wahrscheinlichkeitsmasse an einem bestimmten Zustand der Natur), zur Verfügung gestellt Die Qualität der beiden Prognosen ist "gleich gut".u^∗
Hauptteil (siehe Hintergrund für weitere Details)
Ich halte es für vernünftig anzunehmen, dass sich die Nützlichkeit einer Prognose vollständig in dem Verlust widerspiegelt, den sie einem bestimmten Benutzer zufügt. Dann ist das Ziel eines Benutzers, eine Prognose auszuwählen, die den erwarteten Verlust minimiert. Bei einer vorhergesagten Verteilung übernimmt der Benutzer daher eine konkrete Funktion davon (z. B. vorhergesagten Mittelwert), die den erwarteten Verlust minimiert. Der Rest der vorhergesagten Dichte hat für den Benutzer keinen Mehrwert.
Wenn die Verlustfunktion ein eindeutiges Minimum hat, ist die Funktion einwertig und dieser Wert ist die für den Benutzer relevante Punktprognose. Wenn beispielsweise die Verlustfunktion des Benutzers quadratisch ist (was ein eindeutiges Minimum im Mittelwert der wahren Verteilung hat), kümmert er sich nur um die Vorhersage des Mittelwerts. Wenn ein anderer Benutzer einem absoluten Verlust ausgesetzt ist (der im Median der tatsächlichen Verteilung ein eindeutiges Minimum aufweist), kümmert er sich nur um die Prognose des Medians. Das Bereitstellen einer Dichteprognose für einen dieser Benutzer zusätzlich zu den Prognosen des Mittelwerts bzw. des Medians hat für sie keinen Mehrwert.
Elliott und Timmermann (2016a) schreiben auf S. 423-424 (zur Auswertung von Dichtevorhersagen):
Darüber hinaus kann bei einer bekannten Verlustfunktion eine Dichteprognose aus den folgenden zwei Gründen einer relevanten Punktprognose sogar unterlegen sein. Erstens sind Dichtevorhersagen typischerweise schwieriger zu erstellen als Punktvorhersagen. Zweitens können sie Präzision / Genauigkeit an einem bestimmten Punkt (z. B. Mittelwert oder Median) gegen Präzision / Genauigkeit über die gesamte vorhergesagte Verteilung austauschen. Das heißt, wenn man die gesamte Dichte vorhersagt, muss man möglicherweise etwas Präzision / Genauigkeit für die Vorhersage des Mittelwerts opfern, um an anderer Stelle eine größere Präzision / Genauigkeit zu erzielen. Wie Elliott und Timmermann (2016b) schreiben,
Ein ähnliches Zitat findet sich in Elliott und Timmermann (2016a) , p. 277-278:
Wenn eine Verlustfunktion angegeben wird, kann es daher sinnvoll sein, sich auf die Vorhersage des bestimmten Punkts zu konzentrieren, der auf die Verlustfunktion zugeschnitten ist, anstatt zu versuchen, die gesamte Verteilung vorherzusagen. Dies ist möglicherweise einfacher und / oder genauer.
Eine kritische Frage an mich: Kann es sein, dass die "relevante" Punktvorhersage nicht als Funktion der unbekannten Dichte ausgedrückt werden kann, sondern für verschiedene Dichten unterschiedlich ist (als Funktion, nicht nur als Wert)? Dann wäre eine Dichtevorhersage erforderlich, um herauszufinden, an welcher Punktprognose man interessiert ist, was eine Dichtevorhersage zu einem unvermeidlichen Schritt im Punktvorhersageprozess macht.
Verweise:
quelle