Auswahl unter den richtigen Bewertungsregeln

22

In den meisten Ressourcen zu den Regeln für die richtige Bewertung werden verschiedene Bewertungsregeln wie Protokollverlust, Brier-Punktzahl oder sphärische Bewertung erwähnt. Häufig geben sie jedoch keine Orientierungshilfe zu den Unterschieden zwischen ihnen. (Anlage A: Wikipedia .)

Die Auswahl des Modells, das die logarithmische Bewertung maximiert, entspricht der Auswahl des Maximum-Likelihood-Modells, das als gutes Argument für die Verwendung der logarithmischen Bewertung erscheint. Gibt es ähnliche Begründungen für Brier oder sphärische Scoring oder andere Scoring-Regeln? Warum sollte jemand eine dieser Methoden verwenden, anstatt eine logarithmische Bewertung vorzunehmen?

Ben Kuhn
quelle
2
Einige Hinweise sind in der Nomenklatur. "Kostenfunktional" ist von der Optimierung oder optimalen Steuerungstechnik. Es gibt kein "Bestes". Ein "Gut" zu haben bedeutet, dass Sie ein gewisses Maß an Güte haben müssen. Es gibt unendlich viele Familien von Maßstäben der Güte. Ein triviales Beispiel ist: Was ist der beste Weg? Wenn Sie zu Ihrer Hinrichtung marschieren - machen Sie es lange angenehm. Wenn Sie zu Ihrem Fields-Metall gehen, machen Sie es am kürzesten. Systemkompetenz hilft Ihnen bei der Auswahl des Maßes für die Güte. Wenn Sie das Maß der Güte haben, können Sie "am besten" finden.
EngrStudent - Wiedereinsetzung von Monica
1
Merkle & Steyvers (2013, Decision Analysis ) könnte Sie auch interessieren : "Die Wahl einer strengen Bewertungsregel" .
S. Kolassa - Wiedereinsetzung von Monica
1
Ich habe mir erlaubt, den Titel genauer und informativer zu gestalten. Wenn ich es falsch interpretiert habe, können Sie die Änderung jederzeit rückgängig machen.
Richard Hardy

Antworten:

18

Warum sollte jemand eine dieser Methoden verwenden, anstatt eine logarithmische Bewertung vorzunehmen?

Am besten, wir unterscheiden immer ein Modell passend aus einer Entscheidung . In der Bayes'schen Methodik sollte die Modellbewertung und -auswahl immer unter Verwendung der Grenzwahrscheinlichkeit erfolgen . Anschließend verwenden Sie das Modell, um probabilistische Vorhersagen zu treffen, und Ihre Verlustfunktion zeigt Ihnen, wie Sie mit diesen Vorhersagen umgehen müssen.

Unglücklicherweise schreibt die Rechenleistung in der realen Welt oft vor, dass wir die Modellauswahl und die Entscheidungsfindung in Konflikt bringen und daher eine Verlustfunktion verwenden, um unsere Modelle anzupassen. Hier schleicht sich die Subjektivität bei der Modellauswahl ein, denn Sie müssen sich vorstellen, wie viel verschiedene Arten von Fehlern Sie kosten werden. Das klassische Beispiel ist eine Krebsdiagnose: Eine Überschätzung der Krebswahrscheinlichkeit ist nicht gut, aber eine Unterschätzung ist viel schlimmer.

Wenn Sie eine Anleitung zum Auswählen einer Bewertungsregel suchen, sollten Sie auch nach Anleitungen zum Auswählen einer Verlustfunktion oder zum Entwerfen einer Hilfsfunktion suchen, da die Literatur zu diesen beiden Themen meiner Meinung nach umfangreich ist voluminöser.

Andy Jones
quelle
3
1) Wollen Sie damit sagen, dass das Brier-Scoring im Wesentlichen eine "Verlustfunktion in Verkleidung" ist - das heißt, obwohl es sich als eine nutzungsfunktionsunabhängige Scoring- / Vergleichsregel tarnt, wird es tatsächlich verwendet, weil die Menschen spezifische Vorlieben gegenüber den Arten von haben Fehler macht das Modell?
Ben Kuhn
2) Haben Sie spezielle Beispiele für Einstellungen, bei denen jemand aus diesen Gründen Brier oder sphärisches Scoring anstelle von logarithmischem Scoring wählen könnte (= marginale Wahrscheinlichkeit, wie ich es verstehe)?
Ben Kuhn
3) Warum ist es besser, Ihre Verlust- / Nutzenfunktionsannahmen in das Modell einzubinden, als sie an die Grenzwahrscheinlichkeit anzupassen und Ihre Verlust- / Nutzenfunktion zu verwenden, wenn Sie tatsächlich eine Entscheidung treffen? Es scheint, als ob für ideale Lernalgorithmen keine Lücke zwischen diesen bestehen sollte.
Ben Kuhn
3
1) Ja. 2) Nicht persönlich, nein. Bewertungsregeln sind in dem Teil von ML, in dem ich arbeite, nicht "in Mode". Da ich mich schnell bei Scholar umgesehen habe , scheinen sie im Allgemeinen etwas veraltet zu sein. Dieses Papier sieht jedoch so aus, als wäre es für Sie interessant. 3) Mit Leistung meinte ich "Rechenleistung", nicht "prädiktive Leistung".
Andy Jones