Ich arbeite an einem Klassifizierungsproblem, das eine Ähnlichkeitsmetrik zwischen zwei eingegebenen Röntgenbildern berechnet. Wenn die Bilder von derselben Person stammen (Bezeichnung "rechts"), wird eine höhere Metrik berechnet. Eingabebilder von zwei verschiedenen Personen (Bezeichnung "falsch") führen zu einer niedrigeren Metrik.
Ich habe eine geschichtete 10-fache Kreuzvalidierung verwendet, um die Wahrscheinlichkeit einer Fehlklassifizierung zu berechnen. Meine aktuelle Stichprobengröße beträgt ungefähr 40 richtige Übereinstimmungen und 80 falsche Übereinstimmungen, wobei jeder Datenpunkt die berechnete Metrik ist. Ich erhalte eine Fehlklassifizierungswahrscheinlichkeit von 0,00, benötige jedoch eine Art Konfidenzintervall / Fehleranalyse.
Ich habe versucht, ein Konfidenzintervall für binomiale Proportionen zu verwenden (wobei ich die Ergebnisse der Kreuzvalidierung als korrekte Kennzeichnung oder falsche Kennzeichnung für meine Anzahl von Erfolgen verwenden würde). Eine der Annahmen hinter der Binomialanalyse ist jedoch die gleiche Erfolgswahrscheinlichkeit für jeden Versuch, und ich bin mir nicht sicher, ob die Methode hinter der Klassifizierung von "richtig" oder "falsch" in der Kreuzvalidierung als gegeben angesehen werden kann die gleiche Erfolgswahrscheinlichkeit.
Die einzige andere Analyse, die mir in den Sinn kommt, besteht darin, die Kreuzvalidierung X-mal zu wiederholen und den Mittelwert / die Standardabweichung des Klassifizierungsfehlers zu berechnen. Ich bin mir jedoch nicht sicher, ob dies überhaupt angemessen ist, da ich die Daten aus meinem wiederverwenden würde relativ kleine Stichprobengröße mehrmals.
Irgendwelche Gedanken? Ich verwende MATLAB für alle meine Analysen und habe die Statistik-Toolbox. Würde mich über jede Unterstützung freuen!
Antworten:
Einfluss der Instabilität auf die Vorhersagen verschiedener Ersatzmodelle
Normalerweise ist diese Gleichwertigkeit eine Annahme, die auch erforderlich ist, damit Sie die Ergebnisse der verschiedenen Ersatzmodelle zusammenfassen können.
In der Praxis ist Ihre Intuition, dass diese Annahme verletzt werden könnte, oft richtig. Sie können jedoch messen, ob dies der Fall ist. Hier finde ich die iterierte Kreuzvalidierung hilfreich: Anhand der Stabilität von Vorhersagen für denselben Fall durch verschiedene Ersatzmodelle können Sie beurteilen, ob die Modelle äquivalent sind (stabile Vorhersagen) oder nicht.
Hier ist ein Schema der iterierten (auch wiederholten) fachen Kreuzvalidierung:k
Der Unterricht ist rot und blau. Die Kreise rechts symbolisieren die Vorhersagen. In jeder Iteration wird jede Stichprobe genau einmal vorhergesagt. Normalerweise wird der Mittelwert als Leistungsschätzung verwendet, wobei implizit davon ausgegangen wird, dass die Leistung der Ersatzmodelle gleich ist. Wenn Sie nach jeder Stichprobe anhand der Vorhersagen suchen, die von verschiedenen Ersatzmodellen (dh über die Spalten hinweg) gemacht wurden, können Sie sehen, wie stabil die Vorhersagen für diese Stichprobe sind.i ⋅ k
Sie können auch die Leistung für jede Iteration berechnen (Block mit 3 Zeilen in der Zeichnung). Jede Abweichung zwischen diesen bedeutet, dass die Annahme, dass Ersatzmodelle äquivalent sind (zueinander und darüber hinaus zu dem in allen Fällen aufgebauten "großen Modell"), nicht erfüllt ist. Dies zeigt Ihnen aber auch, wie viel Instabilität Sie haben. Für den Binomialanteil denke ich, solange die wahre Leistung gleich ist (dh unabhängig davon, ob immer dieselben Fälle falsch vorhergesagt werden oder ob dieselbe Anzahl, aber unterschiedliche Fälle falsch vorhergesagt werden). Ich weiß nicht, ob man für die Leistung der Ersatzmodelle vernünftigerweise eine bestimmte Verteilung annehmen könnte. Aber ich denke, es ist auf jeden Fall ein Vorteil gegenüber der derzeit üblichen Meldung von Klassifizierungsfehlern, wenn Sie diese Instabilität überhaupt melden. Ersatzmodelle wurden bereits für jede der Iterationen gepoolt, die Instabilitätsvarianz beträgt ungefähr das k- fache der beobachteten Varianz zwischen den Iterationen.k k
Die Zeichnung ist eine neuere Version von Abb. 5 in diesem Artikel: Beleites, C. & Salzer, R.: Bewertung und Verbesserung der Stabilität chemometrischer Modelle in Situationen mit kleinen Probengrößen, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Beachten Sie, dass ich beim Schreiben des Papiers die verschiedenen Varianzquellen , die ich hier erklärt habe, noch nicht vollständig erkannt habe - denken Sie daran. Ich denke daher, dass die ArgumentationFür eine effektive Schätzung der Probengröße ist dies nicht korrekt, obwohl die Schlussfolgerung der Anwendung, dass unterschiedliche Gewebetypen innerhalb jedes Patienten ungefähr so viele Gesamtinformationen liefern wie ein neuer Patient mit einem bestimmten Gewebetyp, wahrscheinlich immer noch gültig ist (ich habe einen völlig anderen Typ von Beweise, die auch in diese Richtung weisen). Ich bin mir jedoch noch nicht ganz sicher (noch wie ich es besser machen und somit überprüfen kann), und dieses Problem hat nichts mit Ihrer Frage zu tun.
Welche Leistung soll für das Binomial-Konfidenzintervall verwendet werden?
Bisher habe ich die durchschnittlich beobachtete Leistung verwendet. Sie können auch die schlechteste beobachtete Leistung verwenden: Je näher die beobachtete Leistung an 0,5 liegt, desto größer ist die Varianz und damit das Konfidenzintervall. Konfidenzintervalle der beobachteten Leistung, die 0,5 am nächsten kommen, geben Ihnen daher eine konservative "Sicherheitsmarge".
Beachten Sie, dass einige Methoden zur Berechnung von Binomial-Konfidenzintervallen auch dann funktionieren, wenn die beobachtete Anzahl von Erfolgen keine Ganzzahl ist. Ich verwende die "Integration der Bayes'schen posterioren Wahrscheinlichkeit", wie in
Ross, TD, beschrieben: Genaue Konfidenzintervalle für Binomialproportionen und Poisson-Ratenschätzung, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Ich weiß es nicht für Matlab, aber in R können Sie
binom::binom.bayes
beide Formparameter auf 1 setzen).Siehe auch: Bengio, Y. und Grandvalet, Y.: Kein unvoreingenommener Schätzer der Varianz der K-fachen Kreuzvalidierung, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Mehr über diese Dinge nachzudenken steht auf meiner Forschungsliste ... aber da ich aus der experimentellen Wissenschaft komme, möchte ich die theoretischen und simulativen Schlussfolgerungen gerne mit experimentellen Daten ergänzen - was hier schwierig ist, da ich eine große benötigen würde Satz unabhängiger Fälle für Referenztests)
Update: Ist es gerechtfertigt, eine Biomialverteilung anzunehmen?
quelle
Ich denke, Ihre Idee, die Kreuzvalidierung viele Male zu wiederholen, ist genau richtig.
Wiederholen Sie Ihren Lebenslauf sagen wir mal 1000 Mal, jedes Mal Splitting Ihre Daten in 10 Teile (für 10-fach CV) in einer anderen Art und Weise (nicht nicht die Etiketten Shuffle). Sie erhalten 1000 Schätzungen der Klassifizierungsgenauigkeit. Natürlich werden Sie dieselben Daten wiederverwenden, sodass diese 1000 Schätzungen nicht unabhängig sind. Dies ähnelt jedoch dem Bootstrap-Verfahren: Sie können die Standardabweichung über diese Genauigkeiten als Standardfehler des Mittelwerts Ihres Gesamtgenauigkeitsschätzers verwenden. Oder ein 95% -Perzentilintervall als 95% -Konfidenzintervall.
Alternativ können Sie die Kreuzvalidierungsschleife und die Bootstrap-Schleife kombinieren und einfach zufällige (möglicherweise geschichtete zufällige) 10% Ihrer Daten als Testsatz auswählen und dies 1000 Mal tun. Die gleiche Argumentation wie oben gilt auch hier. Dies führt jedoch zu einer höheren Varianz gegenüber Wiederholungen, daher denke ich, dass das obige Verfahren besser ist.
Wenn Ihre Fehlklassifizierungsrate 0,00 beträgt, macht Ihr Klassifizierer keine Fehler, und wenn dies bei jeder Bootstrap-Iteration auftritt, erhalten Sie ein Konfidenzintervall von Null. Aber das würde einfach bedeuten, dass Ihr Klassifikator ziemlich perfekt ist, so gut für Sie.
quelle
Ein Klassifizierungsfehler ist sowohl diskontinuierlich als auch eine falsche Bewertungsregel. Es hat eine geringe Präzision und bei der Optimierung werden die falschen Merkmale ausgewählt und die falschen Gewichte angegeben.
quelle