Merkle & Steyvers (2013) schreiben:
Um eine korrekte Bewertungsregel formal zu definieren, sei eine probabilistische Vorhersage eines Bernoulli-Versuchs mit echter Erfolgswahrscheinlichkeit . Richtige Bewertungsregeln sind Metriken, deren erwartete Werte minimiert werden, wenn .
Ich verstehe, dass dies gut ist, weil wir die Prognostiker ermutigen möchten, Prognosen zu erstellen, die ehrlich ihre wahren Überzeugungen widerspiegeln, und ihnen keine perversen Anreize geben möchten, etwas anderes zu tun.
Gibt es Beispiele aus der Praxis, in denen es angebracht ist, eine falsche Bewertungsregel zu verwenden?
classification
forecasting
scoring-rules
user1205901 - Setzen Sie Monica wieder ein
quelle
quelle
Antworten:
Es ist angemessen, eine falsche Bewertungsregel zu verwenden, wenn der eigentliche Zweck die Prognose ist, aber keine Schlussfolgerung. Es ist mir egal, ob ein anderer Prognostiker schummelt oder nicht, wenn ich derjenige bin, der die Prognose machen wird.
Durch geeignete Bewertungsregeln wird sichergestellt, dass sich das Modell während des Schätzprozesses dem tatsächlichen Datenerzeugungsprozess (DGP) annähert. Das klingt vielversprechend, denn wenn wir uns dem wahren DGP nähern, werden wir auch in Bezug auf die Prognose für jede Verlustfunktion gute Ergebnisse erzielen. Der Haken ist, dass unser Modellsuchraum (in Wirklichkeit fast immer) meistens nicht den wahren DGP enthält. Am Ende approximieren wir die wahre DGP mit einer funktionalen Form, die wir vorschlagen.
Wenn unsere Prognoseaufgabe in dieser realistischeren Umgebung einfacher ist, als die gesamte Dichte des tatsächlichen DGP zu ermitteln, können wir tatsächlich bessere Ergebnisse erzielen. Dies gilt insbesondere für die Klassifizierung. Zum Beispiel kann der wahre DGP sehr komplex sein, aber die Klassifizierungsaufgabe kann sehr einfach sein.
Jaroslaw Bulatow lieferte in seinem Blog das folgende Beispiel:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Wie Sie unten sehen können, ist die wahre Dichte verwackelt, es ist jedoch sehr einfach, einen Klassifikator zu erstellen, um die dadurch erzeugten Daten in zwei Klassen zu unterteilen. Einfach wenn Ausgabeklasse 1 und wenn Ausgabeklasse 2.x ≥ 0 x < 0
Anstatt der exakten Dichte oben zu entsprechen, schlagen wir das untere Rohmodell vor, das ziemlich weit vom wahren DGP entfernt ist. Es macht jedoch eine perfekte Klassifizierung. Dies wird durch die Verwendung von Scharnierverlust festgestellt, was nicht richtig ist.
Auf der anderen Seite, wenn Sie sich entscheiden, die richtige DGP mit Protokollverlust zu finden (was richtig ist), dann beginnen Sie, einige Funktionen anzupassen, da Sie nicht wissen, welche genaue Funktionsform Sie a priori benötigen. Aber wenn Sie sich immer mehr anstrengen, um es zu erreichen, beginnen Sie, Dinge falsch zu klassifizieren.
Beachten Sie, dass wir in beiden Fällen die gleichen funktionalen Formen verwendet haben. Im ungeeigneten Schadensfall degenerierte es zu einer Sprungfunktion, die wiederum eine perfekte Klassifikation ergab. Im richtigen Fall wurde es wahnsinnig und versuchte, jeden Bereich der Dichte zu befriedigen.
Grundsätzlich müssen wir nicht immer das wahre Modell erreichen, um genaue Vorhersagen zu erhalten. Oder manchmal müssen wir nicht wirklich auf dem gesamten Gebiet der Dichte Gutes tun, sondern nur auf bestimmten Teilen davon sehr gut sein.
quelle
Die Genauigkeit (dh der korrekt klassifizierte Prozentsatz) ist eine falsche Bewertungsregel. In gewissem Sinne tun dies die Leute die ganze Zeit.
Im Allgemeinen ist jede Bewertungsregel, die Vorhersagen in eine vordefinierte Kategorie zwingt, unangemessen. Die Klassifizierung ist ein extremer Fall (die einzig zulässigen Vorhersagen sind 0% und 100%), aber die Wettervorhersage ist wahrscheinlich auch etwas ungenau - meine lokalen Stationen scheinen die Regenwahrscheinlichkeit in Intervallen von 10 oder 20% zu melden, obwohl ich Ich wette, das zugrunde liegende Modell ist viel genauer.
Die richtigen Bewertungsregeln setzen auch voraus, dass der Prognostiker risikoneutral ist. Dies ist häufig nicht der Fall bei tatsächlichen Prognostikern, die in der Regel risikobehaftet sind, und einige Anwendungen können von einer Bewertungsregel profitieren, die diese Verzerrung reproduziert. Zum Beispiel könnten Sie P (Regen) ein wenig mehr Gewicht geben, da Sie einen Regenschirm tragen, diesen aber nicht benötigen. Dies ist weitaus besser, als von einem Regenschauer erfasst zu werden.
quelle