Fügt eine Dichteprognose einen Wert hinzu, der über eine Punktprognose hinausgeht, wenn die Verlustfunktion angegeben wird?

7

Dichtevorhersagen sind universeller als Punktvorhersagen; Sie liefern Informationen über die gesamte vorhergesagte Verteilung einer Zufallsvariablen und nicht über eine konkrete Funktion derselben (wie den vorhergesagten Mittelwert, den Median, das Quantil usw.). Durch die Verfügbarkeit einer Dichtevorhersage können verschiedene Benutzer relevante Elemente - Punktvorhersagen - auswählen, die für sie von Interesse sind. Einige Benutzer konzentrieren sich auf den vorhergesagten Mittelwert, andere auf den vorhergesagten Median usw., abhängig von der Verlustfunktion, anhand derer die Prognose bewertet wird (und die von Benutzer zu Benutzer unterschiedlich sein kann). Bei einer Dichtevorhersage werden die Bedürfnisse jedes Benutzers unabhängig von der Verlustfunktion erfüllt, da die Dichtevorhersage alle probabilistischen Informationen über die Zufallsvariable enthält .

Wenn wir jedoch einen konkreten Benutzer im Auge haben und dessen Verlustfunktion kennen, dann

  • Bietet die Dichteprognose einen Mehrwert gegenüber einer auf die Verlustfunktion zugeschnittenen Punktprognose?
  • Wenn die Antwort im Allgemeinen Nein lautet , unter welchen Bedingungen wird ein Ja angezeigt ?

PS @hejseb zieht eine interessante Parallele zwischen einer auf die Verlustfunktion zugeschnittenen Punktprognose und einer ausreichenden Statistik. Vielleicht kann dies eine Antwort inspirieren.

Richard Hardy
quelle
Dank der Antwort von @ StephanKolassa, einschließlich Gegenbeispielen zu meinen anfänglichen Gedanken, habe ich die Frage erweitert (den zweiten Teil hinzugefügt).
Richard Hardy
Wie generieren Sie die Dichtevorhersage?
Glen_b -State Monica
@Glen_b, daran habe ich nicht gedacht. Ich hoffe, die Frage ist für generische Punkt- und Dichtevorhersagen sinnvoll. Wenn nicht, könnten Sie eine Konkretisierung vorschlagen?
Richard Hardy
Wenn zum Beispiel die Dichtevorhersage auf der Grundlage der Verlustfunktion erhalten wird (z. B. wobei für einige , angegeben bis zu einer Skalierungskonstante), wäre dies ganz anders, als wenn dies der Fall wäre auf andere Weise abgeleitet. L=log(f)f
Glen_b -Reinstate Monica
1
@Glen_b, ich werde mehr nachdenken und versuchen, es besser zu erklären. Vielen Dank für Ihre bisherigen Beiträge!
Richard Hardy

Antworten:

5

Ich kann mir eineinhalb mehr oder weniger realistische Situationen vorstellen, in denen eine volle Dichte besser ist als eine Punktprognose, selbst wenn die Verlustfunktion bekannt ist.

  • Die pingelige Situation ist die, in der die Verlustfunktion des Benutzers nicht nur von der Punktprognose abhängt, sondern auch von einer zweiseitigen oder sogar die gesamte Dichte, dh die Verlustfunktion ist a .

    Ja, eine Verlustfunktion hängt normalerweise von einer Einzelpunktprognose ab, daher habe ich hier keine Nomenklatur mehr. Dennoch treten solche Situationen auf, z. B. bei der Prognose der finanziellen Volatilität. Oder wo ich arbeite, bei der Prognose des Nachschubs im Einzelhandel: Wir möchten möglicherweise ein Serviceniveau von 95% erreichen, sodass wir auf den ersten Blick möglicherweise nur an dieser (Punkt-) Quantilprognose interessiert sind. Eine 95% -Quantilprognose kann jedoch 4 sein, während wir möglicherweise gezwungen sind, in Packungsgrößen von 8 nachzufüllen. In einer solchen Situation kann es hilfreich sein zu wissen, wie viel Prozent 8 Einheiten entsprechen.

  • Die relevantere Situation ist eine, in der wir an Funktionen prädiktiver Dichten interessiert sind. Berücksichtigen Sie auch hier die Prognose für den Einzelhandel: Aufgrund des Lieferplans muss unser Nachschubauftrag möglicherweise drei Tage von Dienstag bis Donnerstag umfassen. Wir prognostizieren jedoch eine tägliche Granularität. Wir könnten also an der 95% -Quantilprognose der Summe der Anforderungen interessiert sein, und für die Faltung benötigen wir die vollen Dichten. (Wir könnten auch versuchen, eine dreitägige Bucket-Granularität vorherzusagen, aber das wird problematisch, wenn beispielsweise eine Promotion in der Mitte des Buckets beginnt.)
Stephan Kolassa
quelle
Vielen Dank für Ihre Antwort. Ich denke entscheidungstheoretisch wie folgt. Ein Benutzer wählt eine Aktion aus, um den erwarteten Nutzen zu maximieren (negativer erwarteter Verlust). Die Auswahl basiert auf der Prognose. Bei einer gegebenen Dichteprognose kann ein Benutzer den erwarteten Nutzen einer bestimmten Aktion berechnen, indem er den Nutzen dieser Aktion über die vorhergesagte Dichte des Ergebnisses integriert. Dann wählt er / sie die Aktion (unter allen möglichen) aus, die diesen erwarteten Nutzen maximiert. Wenn die Utility-Funktion ein eindeutiges Maximum hat (die Verlustfunktion hat ein eindeutiges Minimum), ist die optimale Aktion eindeutig.
Richard Hardy
Entscheidend ist, dass es in der Ergebnisverteilung einen Punkt gibt, der genau den gleichen erwarteten Nutzen wie oben ergibt, und dieser Punkt definiert das Ziel der "relevanten" Punktprognose. Somit erhält der Benutzer genau den gleichen maximierten (über alle möglichen Aktionen) erwarteten Nutzen, unabhängig davon, ob es sich bei der Prognose um eine Dichteprognose oder um die "relevante" Punktprognose handelt, vorausgesetzt, die Qualität der beiden Prognosen ist "gleich gut". Verstößt eines Ihrer Beispiele dagegen?
Richard Hardy
Vielleicht ist Ihr Beispiel für [eine Aktion basierend auf] einem Vorhersageintervall ein gültiges Gegenbeispiel, obwohl ich es bezweifle (basierend auf dem obigen entscheidungstheoretischen Standpunkt) ... Ich frage mich dann, wie ich die Aussage im OP qualifizieren könnte (fügen Sie einige hinzu Bedingung dazu), um die Antwort "Eine Dichtevorhersage hat keinen Mehrwert" richtig zu machen. Dies dient natürlich nicht dazu, Ihre Antwort ungültig zu machen, sondern nur um meinetwillen die Situation besser zu verstehen. In Bezug auf Bewertungsregeln wäre es auch interessant, ein Beispiel zu erhalten, in dem eine Bewertungsregel als Verlustfunktion für einen bestimmten Benutzer intuitiv sinnvoll ist. (+1)
Richard Hardy
Tatsächlich gilt für Intervallvorhersagen ein ähnliches Argument wie für Dichtevorhersagen. Die Argumentation in meiner Antwort legt nahe, dass eine Intervallprognose für eine bestimmte Verlustfunktion keinen Mehrwert über eine relevante Punktprognose hinaus hat. In Bezug auf Verlustfunktionen in Abhängigkeit von Prognosen ist dies möglich, wenn ein Benutzer seine Aktionen auf die Prognose zuschneidet, eine Intervall- oder Dichteprognose jedoch durch eine relevante Punktprognose ersetzt werden kann und die Verlustfunktion auf der Punktprognose formuliert wird.
Richard Hardy
Ich meine, der Verlust hängt unweigerlich vom Ergebnis ab, aber nicht unbedingt von einer Intervall- oder Dichteprognose, wenn letztere durch eine Punktprognose ersetzt werden kann. Das Ergebnis ist ein grundlegendes Argument für die Verlustfunktion, aber die Art der Prognose ist nicht, wenn der Benutzer zwischen verschiedenen Arten von Prognosen wählen darf (Punkt vs. Intervall vs. Dichte). Daher ist Ihr erstes Beispiel kein gültiges Gegenbeispiel. Ihr zweites Beispiel scheint ebenfalls nicht gültig zu sein, da wir, wie Sie sagen, auch versuchen könnten, eine dreitägige Bucket-Granularität vorherzusagen.
Richard Hardy
4

Hintergrund (kann übersprungen werden)

Ich werde in entscheidungstheoretischen Begriffen wie folgt denken. Ein Benutzer muss eine Aktion auswählena unter einer Reihe von Möglichkeiten A. Die Aktion bringt ihm / ihr einen "Nutzen" (ein Begriff, der in der Wirtschaft häufig verwendet wird).u(a;s) je nach Naturzustand s das wird in Zukunft realisiert, wo sSeine Menge aller möglichen Zustände. (Der Nutzen ist im Grunde das Negative des Verlusts, und das Folgende könnte entweder in Bezug auf den Nutzen oder den Verlust gleichwertig umformuliert werden.) Der Benutzer zielt darauf ab, den erwarteten Nutzen (oder gleichwertig den erwarteten Verlust) für die Aktion zu maximieren.

maxaAESu(a;s).

Die Wahl der Maßnahme basiert auf der Vorhersage des zu realisierenden Naturzustandes. Bei einer Dichtevorhersage kann ein Benutzer den erwarteten Nutzen einer bestimmten Aktion berechnen, indem er den Nutzen dieser Aktion über die vorhergesagte Verteilung der Naturzustände Dann wählt er / sie die Aktion (unter allen möglichen) aus, die diesen erwarteten Nutzen maximiert: . Der erwartete Nutzenwert bei dieser Aktion für diese Dichtevorhersage ist .f^S()

ES^u(a;s)=u(a;s)f^S(s)ds.
a^:=argmaxaAES^u(a;s)u^:=u(a^)

Wenn die Utility-Funktion ein eindeutiges Maximum hat (die Verlustfunktion hat ein eindeutiges Minimum), ist die optimale Aktion eindeutig. Wenn der Naturzustand eine kontinuierliche Zufallsvariable ist , existiert ein Punkt in der Verteilung (ein Naturzustand), der genau ergibt . Dieser Punkt definiert das Ziel der "relevanten" Punktprognose. Daher erhält der Benutzer genau das gleiche maximierte (über alle möglichen Aktionen) erwarteten Nutzen unabhängig davon , ob die Prognose bekommt er eine Dichte Prognose ist oder die „relevante“ Punktprognose (eine Einheit Wahrscheinlichkeitsmasse an einem bestimmten Zustand der Natur), zur Verfügung gestellt Die Qualität der beiden Prognosen ist "gleich gut".u^

Hauptteil (siehe Hintergrund für weitere Details)

Ich halte es für vernünftig anzunehmen, dass sich die Nützlichkeit einer Prognose vollständig in dem Verlust widerspiegelt, den sie einem bestimmten Benutzer zufügt. Dann ist das Ziel eines Benutzers, eine Prognose auszuwählen, die den erwarteten Verlust minimiert. Bei einer vorhergesagten Verteilung übernimmt der Benutzer daher eine konkrete Funktion davon (z. B. vorhergesagten Mittelwert), die den erwarteten Verlust minimiert. Der Rest der vorhergesagten Dichte hat für den Benutzer keinen Mehrwert.

Wenn die Verlustfunktion ein eindeutiges Minimum hat, ist die Funktion einwertig und dieser Wert ist die für den Benutzer relevante Punktprognose. Wenn beispielsweise die Verlustfunktion des Benutzers quadratisch ist (was ein eindeutiges Minimum im Mittelwert der wahren Verteilung hat), kümmert er sich nur um die Vorhersage des Mittelwerts. Wenn ein anderer Benutzer einem absoluten Verlust ausgesetzt ist (der im Median der tatsächlichen Verteilung ein eindeutiges Minimum aufweist), kümmert er sich nur um die Prognose des Medians. Das Bereitstellen einer Dichteprognose für einen dieser Benutzer zusätzlich zu den Prognosen des Mittelwerts bzw. des Medians hat für sie keinen Mehrwert.

Elliott und Timmermann (2016a) schreiben auf S. 423-424 (zur Auswertung von Dichtevorhersagen):

Eine Möglichkeit, [eine Dichtevorhersage auszuwerten], besteht darin, die Dichtevorhersage in eine Punktvorhersage umzuwandeln und die Methoden zur Auswertung der Punktvorhersage zu verwenden. Dieser einfache Ansatz zur Bewertung von Dichtevorhersagen kann aus mehreren Gründen angemessen sein. <...> [D] Sicherheitsprognosen können mit der Begründung begründet werden, dass es mehrere Benutzer mit unterschiedlichen Verlustfunktionen gibt. Jeder dieser Benutzer kann die Leistung einer Dichtevorhersage unter Bezugnahme auf die spezifische Verlustfunktion untersuchen, die für sein Problem als angemessen erachtet wird. Das relevante Maß für die prognostizierte Leistung ist der durchschnittliche Verlust, der aus der spezifischen Verlustfunktion jedes Benutzers berechnet wird.

Darüber hinaus kann bei einer bekannten Verlustfunktion eine Dichteprognose aus den folgenden zwei Gründen einer relevanten Punktprognose sogar unterlegen sein. Erstens sind Dichtevorhersagen typischerweise schwieriger zu erstellen als Punktvorhersagen. Zweitens können sie Präzision / Genauigkeit an einem bestimmten Punkt (z. B. Mittelwert oder Median) gegen Präzision / Genauigkeit über die gesamte vorhergesagte Verteilung austauschen. Das heißt, wenn man die gesamte Dichte vorhersagt, muss man möglicherweise etwas Präzision / Genauigkeit für die Vorhersage des Mittelwerts opfern, um an anderer Stelle eine größere Präzision / Genauigkeit zu erzielen. Wie Elliott und Timmermann (2016b) schreiben,

[D] Die Beziehungen zwischen den in der Literatur populären Bewertungsregeln und den zugrunde liegenden Verlustfunktionen für einzelne Benutzer sind nicht klar. Daher kann es durchaus sein, dass die verwendete Bewertungsregel eine schlechte Schätzung des Merkmals der bedingten Verteilung liefert, die einige Benutzer erstellen möchten.

Ein ähnliches Zitat findet sich in Elliott und Timmermann (2016a) , p. 277-278:

Es scheint, dass die Bereitstellung einer Vorhersagedichte der Berichterstattung über eine Punktprognose überlegen ist, da beide (a) mit einer Verlustfunktion kombiniert werden können, um eine beliebige Punktprognose zu erstellen; und (b) unabhängig von der Verlustfunktion ist. Bei der klassischen Schätzung der Vorhersagedichte hält keiner dieser Punkte in der Praxis wirklich stand. <...> [I] In der klassischen Einstellung hängen die geschätzten Vorhersageverteilungen von der Verlustfunktion ab. Alle Parameter der Vorhersagedichte müssen geschätzt werden, und diese Schätzungen erfordern eine gewisse Verlustfunktion, sodass Verlustfunktionen in die Mischung zurückgeworfen werden. Der Haken dabei ist, dass die Verlustfunktionen, die häufig bei der Dichteschätzung verwendet werden, nicht mit denen übereinstimmen, die für die Punktvorhersage verwendet werden, was zu minderwertigen Punktvorhersagen führen kann. <...> Außerdem

Wenn eine Verlustfunktion angegeben wird, kann es daher sinnvoll sein, sich auf die Vorhersage des bestimmten Punkts zu konzentrieren, der auf die Verlustfunktion zugeschnitten ist, anstatt zu versuchen, die gesamte Verteilung vorherzusagen. Dies ist möglicherweise einfacher und / oder genauer.

Eine kritische Frage an mich: Kann es sein, dass die "relevante" Punktvorhersage nicht als Funktion der unbekannten Dichte ausgedrückt werden kann, sondern für verschiedene Dichten unterschiedlich ist (als Funktion, nicht nur als Wert)? Dann wäre eine Dichtevorhersage erforderlich, um herauszufinden, an welcher Punktprognose man interessiert ist, was eine Dichtevorhersage zu einem unvermeidlichen Schritt im Punktvorhersageprozess macht.

Verweise:

Richard Hardy
quelle