Eine Bewertungsregel ist ein Mittel zur Bewertung der Einschätzung eines Agenten hinsichtlich der mit einem kategorialen Ereignis verbundenen Wahrscheinlichkeiten bei einem (kategorialen) Ergebnis des Ereignisses. Abhängig von der Vermutung und dem beobachteten Ergebnis gibt die Bewertungsregel dem Agenten eine Punktzahl (eine reelle Zahl). Eine Bewertungsregel soll Punktzahlen so zuweisen, dass der Agent mit der geringsten Punktzahl im Durchschnitt die genauesten Vermutungen anstellt. (Die Konventionen unterscheiden sich darin, ob Bewertungsregeln in Bezug auf Minimierung oder Maximierung festgelegt sind. Hier nehme ich die Minimierungsansicht.)
Eine wichtige Eigenschaft von Bewertungsregeln ist, ob sie eine ordnungsgemäße Bewertungsregel sind. das heißt, ob sie die niedrigste mittlere Punktzahl geben, wenn ein Agent die wahren Wahrscheinlichkeiten errät (oder, in einem subjektiven Bayes'schen Rahmen, geben sie die niedrigste hintere mittlere Punktzahl, wenn die eigenen Prioritäten des Agenten verwendet werden, wenn ein Agent seine eigenen Glaubensgrade verwendet seine Vermutungen). Im Fall eines binären Ereignisses ist ein quadratischer Fehler von 0 oder 1 (der Brier-Score) eine angemessene Bewertungsregel, der absolute Fehler jedoch nicht. Warum? Nun, das Kriterium der Richtigkeit basiert auf dem Mittelwert, und der Mittelwert ist das Maß für die zentrale Tendenz, die die Summe der quadratischen Differenzen minimiert, aber den absoluten Fehler nicht minimieren muss.
Diese Denkweise legt nahe, dass wir, wenn wir den Mittelwert in der Definition einer korrekten Bewertungsregel durch eine andere statistische Funktion wie den Median ersetzen, eine analoge Art von reichhaltiger Familie geeigneter Bewertungsregeln erhalten. Es ist nicht unangemessen, sich eine Situation vorzustellen, in der ein Agent seinen Medianwert und nicht seinen Mittelwert minimieren möchte. Tatsächlich scheint es keine nichttrivialen, für den Median geeigneten Bewertungsregeln zu geben. Betrachtet man den Fall eines binären Ereignisses erneut, so ist die mittlere Punktzahl eines Agenten gleich der Punktzahl, die dem Agenten gegeben wird, wenn das Ereignis nicht eintritt, unabhängig von der des Ereignisses, wenn die wahre Wahrscheinlichkeit kleiner als 1/2 ist genaue Wahrscheinlichkeit. Analoge Spielereien scheinen aufzutreten, wenn wir den Mittelwert beispielsweise durch den geometrischen Mittelwert ersetzen.
Gibt es also das Gefühl, dass die statistische Funktion der Mittelwert sein muss, damit die Theorie der richtigen Bewertungsregeln wie beabsichtigt funktioniert?
Mir ist klar, dass dies eine vage Frage ist, und die beste Antwort ist wahrscheinlich eine Erklärung dafür, warum die Frage nicht wirklich sinnvoll ist. Hier ist also der Kontext, in dem ich sie stelle, um Ihnen zu helfen, mich nicht zu verwirren. Ich bin ein Psychologe der Entscheidungsfindung und möchte häufig die Leistung (entweder prädiktive Leistung, Kreuzvalidierung oder Modellanpassung post-hoc) eines Modells quantifizieren, das Wahrscheinlichkeiten für die Auswahl der Personen ausspuckt ein binäres Entscheidungsszenario. Die obige Diskussion schlägt vor, dass ich eine richtige Bewertungsregel verwenden sollte. Es ist ärgerlich, dass die richtigen Bewertungsregeln nicht mit den Wahrscheinlichkeiten übereinstimmen. Ich möchte zum Beispiel die Quadratwurzel des mittleren quadratischen Fehlers ziehen, anstatt nur den mittleren quadratischen Fehler (dh den mittleren Brier-Wert) zu betrachten, aber im Fall eines Versuchs Der RMSE entspricht einem absoluten Fehler, der nicht richtig ist. Würde ich dann nicht denken, dass weniger genaue Modelle besser sind? Offensichtlich kann ich meine Methode zur Bewertung von Bewertungsregeln nicht einfach von eins in Bezug auf Mittelwerte auf eins in Bezug auf z. B. Mediane ändern. Muss ich mich einfach mit der Skala einer der üblichen Regeln für die ordnungsgemäße Bewertung vertraut machen oder eine statistische Signalerkennungsfläche wie den Bereich unter der ROC-Kurve oder d 'verwenden?
Eine zusätzliche Komplikation besteht darin, dass ich für eine Studie parametrisch bootstrap-Modellanpassungen gemäß Wagenmakers, Ratcliff, Gomez und Iverson (2004) betrachte, was bedeutet, dass ich eher Dichtediagramme von Scores als einzelne Scores betrachte. Dann ist noch weniger klar, ob ich mir Sorgen um die Richtigkeit oder um ein analoges Kriterium machen sollte.
Bearbeiten: Weitere Informationen finden Sie in diesem Kommentarthread zu Reddit .
Wagenmakers, E.-J., Ratcliff, R., Gomez, P. & Iverson, GJ (2004). Bewertung der Modellmimikry mithilfe des parametrischen Bootstraps. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004
quelle
Antworten:
Im Gegensatz zu dem, was Sie über geometrische Mittelwerte gesagt haben, gibt es tatsächlich richtige Bewertungsregeln für den geometrischen Mittelwert.
Das geometrische Mittel einer Zufallsvariablen ist gleich . Daher das geometrische Mittel aus einem statistischen Score minimiert entspricht das arithmetische Mittel aus einem statistischen Score zu minimieren . Wenn also eine Standardregel für die richtige Bewertung ist (wobei die Punktzahl ist, die Sie erhalten, wenn Sie eine Wahrscheinlichkeit vorhersagen und das Ereignis eintritt), dann ist ist eine geeignete Bewertungsregel für das geometrische Mittel.X. eE.( logX.) S logS f(p^) f(p^) p^ g(p^)=logf(p^)
Ähnlich ist die harmonische Mittel von ist , so dass ist eine harmonische richtige scoring Regel . (Das negative Vorzeichen ist dort, sodass die Koordinatentransformation monoton ansteigt.)X E(X−1)−1 g(p^)=−f(p^)−1
Dies funktioniert für jede zentrale Tendenz, die das arithmetische Mittel in einem monoton transformierten Raum ist. Das Problem ist, dass der Median so nicht funktioniert. Im Allgemeinen funktioniert eine zentrale Tendenz mit einem Durchschlagspunkt ungleich Null nicht, da sie unempfindlich gegenüber Änderungen der Wahrscheinlichkeit ist, wenn klein ist. Zum Beispiel funktioniert der Interquartilbereich nicht, denn wenn , hängt der Interquartilbereich der Scores nicht von (also muss derselbe den IQR für alle Werte von kleiner als minimieren , was ist schlecht).p p<0.25 p p^ p 0.25
Auf den ersten Blick kann ich mir keine zentralen Tendenzen mit einem Zusammenbruchspunkt von 0 vorstellen, die nicht als monotone Transformation des arithmetischen Mittels umgeschrieben werden können, aber das liegt wahrscheinlich daran, dass ich nicht genug Variationsrechnung kenne (sicherlich nicht genug um zu beweisen, dass ich recht habe). Wenn ich jedoch richtig liege, wäre es "im Wesentlichen" wahr, dass
Eine weitere Bemerkung: Sie schlagen vor, den RMSE als Bewertungsregel zu verwenden, sollten dies jedoch nicht tun, da er mit dem absoluten Fehler übereinstimmt, wenn ein Datenpunkt vorhanden ist. Dies scheint einige Verwirrung zu reflektieren. Sie bewerten immer eine Bewertungsregel für jede einzelne Vorhersage. Wenn Sie dann die Ergebnisse zusammenfassen möchten, können Sie anschließend die zentrale Tendenz der Ergebnisse berücksichtigen. Die Vorhersage zur Optimierung des RMSE ist also immer identisch mit der Optimierung des absoluten Fehlers.
Auf der anderen Seite könnten Sie so etwas wie die Quadratwurzel des mittleren Brier-Scores als Zusammenfassung verwenden, wenn Sie eine Score-Zusammenfassung in "Wahrscheinlichkeitseinheiten" wünschen. Ich denke jedoch, dass es produktiver wäre, sich einfach mit den Benchmarks für die Brier-Punkteskala vertraut zu machen, da dies normalerweise der Fall ist:
Sie können auch andere Benchmarks erstellen, indem Sie sehr einfache Modelle verwenden. Wenn Sie beispielsweise alle Informationen zu den Ereignissen ignorieren und einfach die Basisrate vorhersagen, beträgt Ihr Brier-Score . Oder wenn Sie Zeitreihen vorhersagen, können Sie sehen, wie gut ein gewichteter Durchschnitt der letzten Ereignisse usw. funktioniert.p p(1−p)
quelle
Sie müssen zur Motivation für eine korrekte Bewertungsregel zurückkehren, die Sie lose als "der Agent mit der geringsten Punktzahl macht die genauesten Vermutungen" angeben. Um genau zu sein, besteht der Ursprung der Bewertungsregeln darin, Wahrscheinlichkeiten zu ermitteln, die wahre Überzeugungen widerspiegeln. Wie Sie sagen, kann eine Person nichts Besseres tun, als eine Wahrscheinlichkeit anzubieten, die ihrer Überzeugung entspricht, wenn sie eine Bewertungsregel als Belohnung anbietet. Bewertungsregeln wurden verwendet, um zu definieren, was eine Wahrscheinlichkeit bedeutet, ohne auf die Grenze einer großen Anzahl von Wiederholungen Bezug zu nehmen.
Eine solche Bewertungsregel wird abgeleitet, indem die Erwartung über die Regel genommen wird, daher das Auftreten des Mittelwerts über dem Satz von Vorhersagen. Wenn Sie also fragen müssen, muss "die statistische Funktion der Mittelwert sein?" Sie fragen sich wirklich, wie wir die Erwartung über eine Reihe von Bewertungen mit einer anderen Methode als der herkömmlichen Verwendung des Mittelwerts messen können?
Ich habe in Ihre Besorgnis hineingelesen, dass "richtige Bewertungsregeln nicht auf der gleichen Skala wie Wahrscheinlichkeiten liegen", dass Sie vielleicht ausdrücken möchten, wie gut oder schlecht die berechnete Punktzahl ist? Abgesehen von der Brier-Bewertung ist das Protokoll der absoluten Differenz zwischen der angebotenen Wahrscheinlichkeit und einem Ergebnis von 0,1 auch eine angemessene Bewertungsregel. Dies führt jedoch möglicherweise nicht zu besser interpretierbaren Ergebnissen, insbesondere da es bei großen Fehlern zu Extremwerten abweichen kann.
Bei der Ableitung von Bewertungsregeln ist begraben, dass der Entscheidungsträger einen linearen Nutzen hat, daher wird die Erwartung direkt über die Bewertungsregel und nicht über den Nutzen des Ergebnisses der Bewertungsregeln gestellt. (Eine Person kann einem Risiko ausgesetzt sein, das großen Abweichungen von der Wahrheit entgegensteht, und dies würde ihre ausgelösten Wahrscheinlichkeiten beeinflussen.) Vielleicht denken Sie implizit an eine Nutzenfunktion, die ausdrückt, wie gut oder schlecht die "Wahrscheinlichkeiten dessen sind, was Menschen wählen" anstelle von nur die Wahrscheinlichkeiten selbst?
quelle