Ich modelliere ein Ereignis mit zwei Ergebnissen, a und b. Ich habe ein Modell erstellt, das die Wahrscheinlichkeit abschätzt, dass entweder a oder b eintreten wird (dh das Modell berechnet, dass a mit einer Wahrscheinlichkeit von 40% und b mit einer Wahrscheinlichkeit von 60% eintreten wird).
Ich habe eine große Auflistung der Ergebnisse von Studien mit den Schätzungen aus dem Modell. Ich möchte quantifizieren, wie genau das Modell diese Daten verwendet - ist dies möglich und wenn ja, wie?
Antworten:
Angenommen, Ihr Modell sagt tatsächlich voraus, dass A eine Chance von 40% und B eine Chance von 60% hat. Unter bestimmten Umständen möchten Sie dies möglicherweise in eine Klassifizierung umwandeln, bei der B vorkommt (da dies wahrscheinlicher ist als A). Einmal in eine Klassifikation umgewandelt, ist jede Vorhersage entweder richtig oder falsch, und es gibt eine Reihe interessanter Möglichkeiten, die richtigen und falschen Antworten zu zählen. Eine ist die Genauigkeit (der Prozentsatz der richtigen Antworten). Andere umfassen Präzision und Rückruf oder F-Maß . Wie andere bereits erwähnt haben, möchten Sie sich möglicherweise die ROC-Kurve ansehen . Darüber hinaus kann Ihr Kontext eine bestimmte Kostenmatrix bereitstellen, die echte Positive anders als echte Negative belohnt und / oder falsche Positive anders als falsche Negative bestraft.
Ich glaube jedoch nicht, dass Sie danach wirklich suchen. Wenn Sie sagten, dass B eine Chance von 60% hat und ich sagte, dass es eine Chance von 99% hat, haben wir sehr unterschiedliche Vorhersagen, obwohl beide in einem einfachen Klassifizierungssystem auf B abgebildet würden. Wenn stattdessen A passiert, irren Sie sich, während ich mich sehr irre, und ich hoffe, dass ich eine härtere Strafe erhalte als Sie. Wenn Ihr Modell tatsächlich Wahrscheinlichkeiten erzeugt, ist eine Bewertungsregel ein Maß für die Leistung Ihrer Wahrscheinlichkeitsvorhersagen. Insbesondere möchten Sie wahrscheinlich eine korrekte Bewertungsregel, was bedeutet, dass die Bewertung für gut kalibrierte Ergebnisse optimiert ist.
Natürlich kann die Art der Bewertungsregel von der Art des Ereignisses abhängen, das Sie vorhersagen möchten. Dies sollte Ihnen jedoch einige Anregungen für die weitere Forschung geben.
Ich füge eine Einschränkung hinzu: Unabhängig davon, was Sie tun, schlage ich bei dieser Bewertung Ihres Modells vor, dass Sie Ihre Metrik anhand von Daten außerhalb der Stichprobe betrachten (dh Daten, die nicht zum Erstellen Ihres Modells verwendet werden). Dies kann durch Kreuzvalidierung erfolgen . Vielleicht können Sie Ihr Modell einfacher auf einem Datensatz aufbauen und dann auf einem anderen bewerten (wobei darauf zu achten ist, dass keine Rückschlüsse vom Out-of-Sample in die In-Sample-Modellierung gelangen).
quelle