Wie wählt man die optimale Behälterbreite beim Kalibrieren von Wahrscheinlichkeitsmodellen?

12

Hintergrund: Hier gibt es einige gute Fragen und Antworten zur Kalibrierung von Modellen, die die Wahrscheinlichkeiten eines eintretenden Ergebnisses vorhersagen. Beispielsweise

  1. Brier-Score und seine Zerlegung in Auflösung, Unsicherheit und Zuverlässigkeit .
  2. Kalibrierungsdiagramme und isotonische Regression .

Diese Methoden erfordern häufig die Verwendung einer Binning-Methode für die vorhergesagten Wahrscheinlichkeiten, sodass das Verhalten des Ergebnisses (0, 1) über den Bin geglättet wird, indem das mittlere Ergebnis genommen wird.

Problem: Ich kann jedoch nichts finden, das mich zur Auswahl der Behälterbreite auffordert.

Frage: Wie wähle ich die optimale Behälterbreite aus?

Versuch: Zwei gebräuchliche Behälterbreiten scheinen zu sein:

  1. Binning mit gleicher Breite, z. B. 10 Bins, die jeweils 10% des Intervalls abdecken [0, 1].
  2. Tukeys Binning-Methode wird hier diskutiert .

Aber sind diese Auswahlmöglichkeiten der Behälter am optimalsten, wenn man daran interessiert wäre, Intervalle in den vorhergesagten Wahrscheinlichkeiten zu finden, die am meisten falsch kalibriert sind?

Alex
quelle
1
Wenn das Ergebnis "1" selten ist, sollten Sie überlegen, es in Bins mit der gleichen Anzahl von "1" anstelle der gleichen Anzahl von Samples zu unterteilen. Dies kann bei der Aufrechterhaltung der Diskriminierung (AUC) des Modells nach der Kalibrierung
hilfreich sein

Antworten:

4

Jede statistische Methode, die Binning verwendet, wurde letztendlich als veraltet eingestuft. Die kontinuierliche Schätzung von Kalibrierkurven ist seit Mitte der neunziger Jahre üblich. Häufig verwendete Methoden sind Löss (bei deaktivierter Ausreißererkennung), lineare logistische Kalibrierung und Spline-logistische Kalibrierung. Ich gehe in meinem Buch Regressionsmodellierungsstrategien und in den Kursnotizen ausführlich darauf ein. Siehe http://www.fharrell.com/p/blog-page.html . Das R- rmsPaket macht es einfach, glatte nichtparametrische Kalibrierungskurven zu erhalten, entweder unter Verwendung eines unabhängigen externen Musters oder unter Verwendung des Bootstraps des ursprünglichen Modellentwicklungsmusters.

Frank Harrell
quelle
0

Nach meiner Erfahrung ist Binning gut für die Visualisierung von Wahrscheinlichkeitsverteilungen, aber es ist normalerweise eine schlechte Idee, wenn man es für statistische Tests und / oder Parameter-Inferenz verwenden möchte. In erster Linie, weil man die Genauigkeit sofort durch die Behälterbreite begrenzt. Ein weiteres häufiges Problem ist, wenn die Variable nicht gebunden ist, dh man niedrige und hohe Grenzwerte einführen muss.

Die Arbeit mit kumulativen Verteilungen in Kolmogorov-Smirnov umgeht viele dieser Probleme. In diesem Fall stehen auch viele gute statistische Methoden zur Verfügung. (siehe zB https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

Vadim
quelle