Alternative Begriffe zu den richtigen Bewertungsregeln und Verwendung von Bewertungsregeln zur Bewertung von Modellen

Eine Bewertungsregel ist ein Mittel zur Bewertung der Einschätzung eines Agenten hinsichtlich der mit einem kategorialen Ereignis verbundenen Wahrscheinlichkeiten bei einem (kategorialen) Ergebnis des Ereignisses. Abhängig von der Vermutung und dem beobachteten Ergebnis gibt die Bewertungsregel dem Agenten eine Punktzahl (eine reelle Zahl). Eine Bewertungsregel soll Punktzahlen so zuweisen, dass der Agent mit der geringsten Punktzahl im Durchschnitt die genauesten Vermutungen anstellt. (Die Konventionen unterscheiden sich darin, ob Bewertungsregeln in Bezug auf Minimierung oder Maximierung festgelegt sind. Hier nehme ich die Minimierungsansicht.)

Eine wichtige Eigenschaft von Bewertungsregeln ist, ob sie eine ordnungsgemäße Bewertungsregel sind. das heißt, ob sie die niedrigste mittlere Punktzahl geben, wenn ein Agent die wahren Wahrscheinlichkeiten errät (oder, in einem subjektiven Bayes'schen Rahmen, geben sie die niedrigste hintere mittlere Punktzahl, wenn die eigenen Prioritäten des Agenten verwendet werden, wenn ein Agent seine eigenen Glaubensgrade verwendet seine Vermutungen). Im Fall eines binären Ereignisses ist ein quadratischer Fehler von 0 oder 1 (der Brier-Score) eine angemessene Bewertungsregel, der absolute Fehler jedoch nicht. Warum? Nun, das Kriterium der Richtigkeit basiert auf dem Mittelwert, und der Mittelwert ist das Maß für die zentrale Tendenz, die die Summe der quadratischen Differenzen minimiert, aber den absoluten Fehler nicht minimieren muss.

Diese Denkweise legt nahe, dass wir, wenn wir den Mittelwert in der Definition einer korrekten Bewertungsregel durch eine andere statistische Funktion wie den Median ersetzen, eine analoge Art von reichhaltiger Familie geeigneter Bewertungsregeln erhalten. Es ist nicht unangemessen, sich eine Situation vorzustellen, in der ein Agent seinen Medianwert und nicht seinen Mittelwert minimieren möchte. Tatsächlich scheint es keine nichttrivialen, für den Median geeigneten Bewertungsregeln zu geben. Betrachtet man den Fall eines binären Ereignisses erneut, so ist die mittlere Punktzahl eines Agenten gleich der Punktzahl, die dem Agenten gegeben wird, wenn das Ereignis nicht eintritt, unabhängig von der des Ereignisses, wenn die wahre Wahrscheinlichkeit kleiner als 1/2 ist genaue Wahrscheinlichkeit. Analoge Spielereien scheinen aufzutreten, wenn wir den Mittelwert beispielsweise durch den geometrischen Mittelwert ersetzen.

Gibt es also das Gefühl, dass die statistische Funktion der Mittelwert sein muss, damit die Theorie der richtigen Bewertungsregeln wie beabsichtigt funktioniert?

Mir ist klar, dass dies eine vage Frage ist, und die beste Antwort ist wahrscheinlich eine Erklärung dafür, warum die Frage nicht wirklich sinnvoll ist. Hier ist also der Kontext, in dem ich sie stelle, um Ihnen zu helfen, mich nicht zu verwirren. Ich bin ein Psychologe der Entscheidungsfindung und möchte häufig die Leistung (entweder prädiktive Leistung, Kreuzvalidierung oder Modellanpassung post-hoc) eines Modells quantifizieren, das Wahrscheinlichkeiten für die Auswahl der Personen ausspuckt ein binäres Entscheidungsszenario. Die obige Diskussion schlägt vor, dass ich eine richtige Bewertungsregel verwenden sollte. Es ist ärgerlich, dass die richtigen Bewertungsregeln nicht mit den Wahrscheinlichkeiten übereinstimmen. Ich möchte zum Beispiel die Quadratwurzel des mittleren quadratischen Fehlers ziehen, anstatt nur den mittleren quadratischen Fehler (dh den mittleren Brier-Wert) zu betrachten, aber im Fall eines Versuchs Der RMSE entspricht einem absoluten Fehler, der nicht richtig ist. Würde ich dann nicht denken, dass weniger genaue Modelle besser sind? Offensichtlich kann ich meine Methode zur Bewertung von Bewertungsregeln nicht einfach von eins in Bezug auf Mittelwerte auf eins in Bezug auf z. B. Mediane ändern. Muss ich mich einfach mit der Skala einer der üblichen Regeln für die ordnungsgemäße Bewertung vertraut machen oder eine statistische Signalerkennungsfläche wie den Bereich unter der ROC-Kurve oder d 'verwenden?

Eine zusätzliche Komplikation besteht darin, dass ich für eine Studie parametrisch bootstrap-Modellanpassungen gemäß Wagenmakers, Ratcliff, Gomez und Iverson (2004) betrachte, was bedeutet, dass ich eher Dichtediagramme von Scores als einzelne Scores betrachte. Dann ist noch weniger klar, ob ich mir Sorgen um die Richtigkeit oder um ein analoges Kriterium machen sollte.

Bearbeiten: Weitere Informationen finden Sie in diesem Kommentarthread zu Reddit .

Wagenmakers, E.-J., Ratcliff, R., Gomez, P. & Iverson, GJ (2004). Bewertung der Modellmimikry mithilfe des parametrischen Bootstraps. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004

scales scoring-rules Kodiologe
quelle

Habe ich Recht, dass Sie zwei Fragen stellen: 1 - Kann "richtig" in Bezug auf den Medianwert und nicht auf den erwarteten Wert einer bestimmten Prognose neu definiert werden? 2 - Gibt es richtige Bewertungen für Wahrscheinlichkeiten, die auf der Skala der Wahrscheinlichkeit liegen?

Fabian

(1) Ich bin mir ziemlich sicher, dass die Antwort auf diese Frage "Nein" lautet. Ich frage, ob es sinnvoll ist, "richtig" in Bezug auf etwas anderes als den Mittelwert (dh die Erwartung) neu zu definieren. (2) Ja, das ist eine Frage, auf die ich die Antwort haben möchte, aber da die Antwort wahrscheinlich wieder "Nein" lautet, würde ich sagen: "Was ist dann eine gute Bewertungsregel, die auf eine Weise interpretiert werden kann, die sich auf natürliche Weise bezieht?" zu Wahrscheinlichkeiten? "

Kodiologe

Zu (1) scheint das folgende Papier mit Ihrer Frage in Zusammenhang zu stehen: ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf Die Autoren betrachten einen Fall, in dem das Interesse nicht an der erwarteten Punktzahl, sondern an der Verteilung liegt von Partituren. Interessanterweise minimieren sie erneut die erwarteten Punktzahlen einer bestimmten Form (siehe Sätze 2.2 und 3.1).

Fabian

Leider scheint es in diesem Papier um Prognosen des gleichen Typs wie beim DV zu gehen, im Gegensatz zu diesem Fall, in dem ich eher nach Vermutungen der Wahrscheinlichkeit eines Ereignisses als nach Vermutungen des wahrscheinlichsten Ereignisses frage. Die Vermutungen sind Wahrscheinlichkeiten, während der DV diskret realisiert wird.

Kodiologe

Antworten:

Im Gegensatz zu dem, was Sie über geometrische Mittelwerte gesagt haben, gibt es tatsächlich richtige Bewertungsregeln für den geometrischen Mittelwert.

Das geometrische Mittel einer Zufallsvariablen ist gleich . Daher das geometrische Mittel aus einem statistischen Score minimiert entspricht das arithmetische Mittel aus einem statistischen Score zu minimieren . Wenn also eine Standardregel für die richtige Bewertung ist (wobei die Punktzahl ist, die Sie erhalten, wenn Sie eine Wahrscheinlichkeit vorhersagen und das Ereignis eintritt), dann ist ist eine geeignete Bewertungsregel für das geometrische Mittel. $X$ $e^{E(\log X)}$ $S$ $\log S$ $f(\hat p)$ $f(\hat p)$ $\hat p$ $g(\hat p) = \log f(\hat p)$

Ähnlich ist die harmonische Mittel von ist , so dass ist eine harmonische richtige scoring Regel . (Das negative Vorzeichen ist dort, sodass die Koordinatentransformation monoton ansteigt.) $X$ $E(X^{-1})^{-1}$ $g(\hat p) = -f(\hat p)^{-1}$

Dies funktioniert für jede zentrale Tendenz, die das arithmetische Mittel in einem monoton transformierten Raum ist. Das Problem ist, dass der Median so nicht funktioniert. Im Allgemeinen funktioniert eine zentrale Tendenz mit einem Durchschlagspunkt ungleich Null nicht, da sie unempfindlich gegenüber Änderungen der Wahrscheinlichkeit ist, wenn klein ist. Zum Beispiel funktioniert der Interquartilbereich nicht, denn wenn , hängt der Interquartilbereich der Scores nicht von (also muss derselbe den IQR für alle Werte von kleiner als minimieren , was ist schlecht). $p$ $p < 0.25$ $p$ $\hat p$ $p$ $0.25$

Auf den ersten Blick kann ich mir keine zentralen Tendenzen mit einem Zusammenbruchspunkt von 0 vorstellen, die nicht als monotone Transformation des arithmetischen Mittels umgeschrieben werden können, aber das liegt wahrscheinlich daran, dass ich nicht genug Variationsrechnung kenne (sicherlich nicht genug um zu beweisen, dass ich recht habe). Wenn ich jedoch richtig liege, wäre es "im Wesentlichen" wahr, dass

Damit die Theorie der richtigen Bewertungsregeln wie beabsichtigt funktioniert, muss die statistische Funktion der Mittelwert sein.

Eine weitere Bemerkung: Sie schlagen vor, den RMSE als Bewertungsregel zu verwenden, sollten dies jedoch nicht tun, da er mit dem absoluten Fehler übereinstimmt, wenn ein Datenpunkt vorhanden ist. Dies scheint einige Verwirrung zu reflektieren. Sie bewerten immer eine Bewertungsregel für jede einzelne Vorhersage. Wenn Sie dann die Ergebnisse zusammenfassen möchten, können Sie anschließend die zentrale Tendenz der Ergebnisse berücksichtigen. Die Vorhersage zur Optimierung des RMSE ist also immer identisch mit der Optimierung des absoluten Fehlers.

Auf der anderen Seite könnten Sie so etwas wie die Quadratwurzel des mittleren Brier-Scores als Zusammenfassung verwenden, wenn Sie eine Score-Zusammenfassung in "Wahrscheinlichkeitseinheiten" wünschen. Ich denke jedoch, dass es produktiver wäre, sich einfach mit den Benchmarks für die Brier-Punkteskala vertraut zu machen, da dies normalerweise der Fall ist:

0 ist ein perfekter Prädiktor;
0,25 bedeutet keine Vorhersagefähigkeit ( ); $\hat p = 0.5$
1 ist ein perfekter Anti-Prädiktor ( oder ). $\hat p = 1, p = 0$ $\hat p = 0, p = 1$

Sie können auch andere Benchmarks erstellen, indem Sie sehr einfache Modelle verwenden. Wenn Sie beispielsweise alle Informationen zu den Ereignissen ignorieren und einfach die Basisrate vorhersagen, beträgt Ihr Brier-Score . Oder wenn Sie Zeitreihen vorhersagen, können Sie sehen, wie gut ein gewichteter Durchschnitt der letzten Ereignisse usw. funktioniert. $p$ $p(1-p)$

Ben Kuhn
quelle

Vielen Dank für Ihre nachdenkliche Antwort. "dann ist eine richtige Bewertungsregel für das geometrische Mittel" - Meinst du ? Dann erhalten wir , das wie gewünscht die gleiche Minimierung wie hat.

g (\hat{p}) = \log f (\hat{p})

$g(\hat p) = \log f(\hat p)$

e^{f (\hat{p})}

$e^{f(\hat p)}$

E [\log S_{2}] = E [\log e^{S}] = E [S]

$E[\log S_2] = E[\log e^S] = E[S]$

\hat{p}

$\hat p$

e^{E (\log S_{2})}

$e^{E(\log S_2)}$

Kodiologe

"Sie bewerten immer eine Bewertungsregel für jede einzelne Vorhersage. Wenn Sie dann die Ergebnisse zusammenfassen möchten, können Sie anschließend die zentrale Tendenz der Ergebnisse berücksichtigen." - In der Praxis scheint es zwei Phasen zu geben, in denen eine zentrale Tendenz involviert ist: (1) bei der Aggregation der Punktzahlen eines einzelnen Agenten über mehrere Ereignisse hinweg (2) bei der Betrachtung der langfristigen Leistung eines Agenten. (2) verwendet die Ausgabe von (1). Man hätte a priori erwarten können, dass man RMSE für (1) verwenden könnte, aber den Mittelwert für Analysen bezüglich (2).

Kodiologe

@ Kodiologist: Danke für die Korrektur! Es tut mir recht, dass ich es nicht zuerst ausgeschrieben habe.

Ben Kuhn

Zu Ihrem zweiten Kommentar: Ich denke, die Verwirrung kann zwischen der Verwendung von RMSE als zentrale Tendenz und der Verwendung von RMSE als Bewertungsregel bestehen. In der Regel ist der RMSE mit dem absoluten Fehler identisch, da die Bewertungen auf Vorhersagebasis bewertet werden. Als zentrale Tendenz ist es in Ordnung - es ist wieder nur der Mittelwert in einem monoton transformierten Koordinatenraum (solange die Bewertungsfunktion positiv ist). Die Verwendung von RMSE als zentrale Tendenz (keine Bewertungsregel) verringert jedoch nicht das Problem, dass Ihre Bewertungen nicht die gleichen Einheiten wie Wahrscheinlichkeiten haben.

Ben Kuhn

@Kodiologe: Beantwortet dies Ihre Frage? Lassen Sie mich wissen, wenn Sie sich noch etwas fragen!

Ben Kuhn

Sie müssen zur Motivation für eine korrekte Bewertungsregel zurückkehren, die Sie lose als "der Agent mit der geringsten Punktzahl macht die genauesten Vermutungen" angeben. Um genau zu sein, besteht der Ursprung der Bewertungsregeln darin, Wahrscheinlichkeiten zu ermitteln, die wahre Überzeugungen widerspiegeln. Wie Sie sagen, kann eine Person nichts Besseres tun, als eine Wahrscheinlichkeit anzubieten, die ihrer Überzeugung entspricht, wenn sie eine Bewertungsregel als Belohnung anbietet. Bewertungsregeln wurden verwendet, um zu definieren, was eine Wahrscheinlichkeit bedeutet, ohne auf die Grenze einer großen Anzahl von Wiederholungen Bezug zu nehmen.

Eine solche Bewertungsregel wird abgeleitet, indem die Erwartung über die Regel genommen wird, daher das Auftreten des Mittelwerts über dem Satz von Vorhersagen. Wenn Sie also fragen müssen, muss "die statistische Funktion der Mittelwert sein?" Sie fragen sich wirklich, wie wir die Erwartung über eine Reihe von Bewertungen mit einer anderen Methode als der herkömmlichen Verwendung des Mittelwerts messen können?

Ich habe in Ihre Besorgnis hineingelesen, dass "richtige Bewertungsregeln nicht auf der gleichen Skala wie Wahrscheinlichkeiten liegen", dass Sie vielleicht ausdrücken möchten, wie gut oder schlecht die berechnete Punktzahl ist? Abgesehen von der Brier-Bewertung ist das Protokoll der absoluten Differenz zwischen der angebotenen Wahrscheinlichkeit und einem Ergebnis von 0,1 auch eine angemessene Bewertungsregel. Dies führt jedoch möglicherweise nicht zu besser interpretierbaren Ergebnissen, insbesondere da es bei großen Fehlern zu Extremwerten abweichen kann.

Bei der Ableitung von Bewertungsregeln ist begraben, dass der Entscheidungsträger einen linearen Nutzen hat, daher wird die Erwartung direkt über die Bewertungsregel und nicht über den Nutzen des Ergebnisses der Bewertungsregeln gestellt. (Eine Person kann einem Risiko ausgesetzt sein, das großen Abweichungen von der Wahrheit entgegensteht, und dies würde ihre ausgelösten Wahrscheinlichkeiten beeinflussen.) Vielleicht denken Sie implizit an eine Nutzenfunktion, die ausdrückt, wie gut oder schlecht die "Wahrscheinlichkeiten dessen sind, was Menschen wählen" anstelle von nur die Wahrscheinlichkeiten selbst?

John Mark
quelle

Verwenden Sie die Bewertungsregeln erneut, um die Wahrscheinlichkeit zu definieren : Interessant, ich hatte keine Ahnung. Ja, es ist mir ein Anliegen, zu beurteilen, wie gut die berechneten Ergebnisse sind. Re logarithmische Bewertung mit extremen Bewertungen für große Fehler: ordnungsgemäß vermerkt. Zu nichtlinearem Dienstprogramm: Sie haben vielleicht Recht, aber die Entscheidung für Dienstprogrammfunktionen scheint ein sehr kniffliges Geschäft zu sein, insbesondere in der Grundlagenforschung.

Kodiologe