Ich überprüfe ein Modell, das versucht, eine Zählung vorherzusagen. Wenn dies ein Problem mit der binären Klassifizierung wäre, würde ich die Out-of-Fold-AUC berechnen, und wenn dies ein Regressionsproblem wäre, würde ich den Out-of-Fold-RMSE oder MAE berechnen.
Welche Fehlermetriken kann ich für ein Poisson-Modell verwenden, um die "Genauigkeit" der Vorhersagen außerhalb der Stichprobe zu bewerten? Gibt es eine Poisson-Erweiterung von AUC, die angibt, wie gut die Vorhersagen die tatsächlichen Werte ordnen?
Es scheint, dass bei vielen Kaggle-Wettbewerben um die Anzahl der Stimmen (z. B. Anzahl der nützlichen Stimmen, die eine Ja-Bewertung erhalten wird, oder Anzahl der Tage, die ein Patient im Krankenhaus verbringen wird) der mittlere Log-Quadrat-Fehler (Root Mean Log Squared Error, RMLSE) verwendet wird.
/ Edit: Eine Sache, die ich getan habe, ist die Berechnung von Dezilen der vorhergesagten Werte und dann die Betrachtung der tatsächlichen Zählungen, gruppiert nach Dezilen. Wenn Dezil 1 niedrig ist, Dezil 10 hoch ist und die Dezile dazwischen stark zunehmen, habe ich das Modell als "gut" bezeichnet, aber ich habe Probleme, diesen Prozess zu quantifizieren, und ich bin davon überzeugt, dass es einen besseren gibt Ansatz.
/ Edit 2: Ich suche nach einer Formel, die vorhergesagte und tatsächliche Werte annimmt und eine "Fehler" - oder "Genauigkeit" -Metrik zurückgibt. Mein Plan ist es, diese Funktion anhand der Out-of-Fold-Daten während der Kreuzvalidierung zu berechnen und dann eine Vielzahl von Modellen (z. B. eine Poisson-Regression, eine zufällige Gesamtstruktur und eine GBM ) zu vergleichen.
Eine solche Funktion ist zum Beispiel RMSE = sqrt(mean((predicted-actual)^2))
. Eine andere solche Funktion wäre AUC . Keine der beiden Funktionen scheint für Poisson-Daten richtig zu sein.
Antworten:
Für die Anzahl der Daten, die Sie verwenden können, gibt es einige korrekte und streng korrekte Bewertungsregeln. Bewertungsregeln sind die eingeführten Strafen , wobei P die Vorhersageverteilung und y der beobachtete Wert ist. Sie haben eine Reihe von wünschenswerten Eigenschaften, in erster Linie, dass eine Vorhersage, die näher an der wahren Wahrscheinlichkeit liegt, immer weniger Strafe erhält und es eine (eindeutige) beste Vorhersage gibt, und zwar dann, wenn die vorhergesagte Wahrscheinlichkeit mit der wahren Wahrscheinlichkeit übereinstimmt. Das Minimieren der Erwartung von s ( y , P ) bedeutet daher, die wahren Wahrscheinlichkeiten anzugeben. Siehe auch Wikipedia .s ( y, P) P y s ( y, P)
Oft nimmt man einen Durchschnitt von denen über alle vorhergesagten Werte als
Welche Regel Sie anwenden müssen, hängt von Ihrem Ziel ab, aber ich werde eine grobe Beschreibung geben, wann die jeweilige Regel verwendet werden kann.
Streng korrekte Bewertungsregeln
Andere Bewertungsregeln (nicht so richtig, aber oft verwendet)
Beispiel R-Code für die streng korrekten Regeln:
quelle
-log(f(y))
. Sollte das-
Schild wirklich da sein? In Ihrer Bewertungsregel wikipedia link ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ) ist die logarithmische Bewertung kein negatives Vorzeichen:L(r,i)=ln(ri)
Ist es normal? Ist in diesem Fall eine höhere Punktzahl besser oder schlechter?