Ich versuche, einen Detektor für Objekte zu erstellen, die sehr selten vorkommen (in Bildern), und plane, einen binären CNN-Klassifikator zu verwenden, der in einem Schiebe- / Größenänderungsfenster angewendet wird. Ich habe ausgeglichene 1: 1-Positiv-Negativ-Trainings- und Testsätze erstellt (ist es in einem solchen Fall übrigens richtig?), Und der Klassifikator ist in Bezug auf die Genauigkeit bei einem Testsatz gut. Jetzt möchte ich den Rückruf / die Genauigkeit meines Klassifikators steuern, damit er beispielsweise nicht zu viele Vorkommen einer Mehrheitsklasse fälschlicherweise kennzeichnet.
Offensichtliche (für mich) Lösung besteht darin, denselben logistischen Verlust zu verwenden, der jetzt verwendet wird, aber Fehler vom Gewichtstyp I und Typ II unterschiedlich zu bewerten, indem der Verlust in einem der beiden Fälle mit einer Konstanten multipliziert wird, die eingestellt werden kann. Ist es richtig?
PS Bei einem zweiten Gedanken entspricht dies der Gewichtung einiger Trainingsmuster mehr als der anderen. Nur mehr von einer Klasse hinzuzufügen, wird das gleiche erreichen, denke ich.
Antworten:
Die künstliche Konstruktion eines ausgewogenen Trainingssatzes ist umstritten, eigentlich ziemlich kontrovers. Wenn Sie dies tun, sollten Sie empirisch überprüfen, ob es wirklich besser funktioniert, als das Trainingsset unausgeglichen zu lassen. Ein künstliches Ausbalancieren des Test-Sets ist fast nie eine gute Idee. Der Testsatz sollte neue Datenpunkte darstellen, da diese ohne Beschriftung eingehen. Sie erwarten, dass sie unausgeglichen sind, daher müssen Sie wissen, ob Ihr Modell mit einem unausgeglichenen Testsatz umgehen kann. (Wenn Sie nicht erwarten, dass neue Datensätze nicht ausgeglichen sind, warum sind dann alle vorhandenen Datensätze nicht ausgeglichen?)
In Bezug auf Ihre Leistungsmetrik erhalten Sie immer das, was Sie verlangen. Wenn Genauigkeit in einem unausgeglichenen Satz nicht das ist, was Sie in erster Linie benötigen, weil nicht nur die Klassen, sondern auch die Kosten für die Fehlklassifizierung unausgeglichen sind, verwenden Sie sie nicht. Wenn Sie die Genauigkeit als Metrik verwendet und Ihre gesamte Modellauswahl und Hyperparameter-Optimierung durchgeführt haben, indem Sie immer die mit der besten Genauigkeit ausgewählt haben, optimieren Sie die Genauigkeit.
Ich nehme die Minderheitsklasse als positive Klasse, dies ist die herkömmliche Art, sie zu benennen. Präzision und Rückruf, wie unten diskutiert, sind also Präzision und Rückruf der Minderheitsklasse.
quelle
Sie machen mehrere Annahmen. Es ist am besten, sich das Endziel allgemein vorzustellen und dann eine Strategie zu formulieren, die dieses Ziel erreicht. Benötigen Sie beispielsweise wirklich eine Klassifizierung mit erzwungener Auswahl und ist das Signal-Rausch-Verhältnis groß genug, um dies zu unterstützen (gute Beispiele: Ton- und Bilderkennung)? Oder ist das Signal-Rausch-Verhältnis niedrig oder interessieren Sie sich für Tendenzen ? Für letztere ist die Risikoabschätzung für Sie. Die Wahl ist der Schlüssel und bestimmt die von Ihnen gewählte Metrik für die Vorhersagegenauigkeit. Weitere Gedanken zu all dem finden Sie unter http://www.fharrell.com/2017/01/classification-vs-prediction.html und http://www.fharrell.com/2017/03/damage-caused-by-classification .html .
Die meisten Probleme betreffen die Entscheidungsfindung , und optimale Entscheidungen ergeben sich aus der Risikoabschätzung in Verbindung mit einer Verlust- / Kosten- / Nutzenfunktion.
Einer der besten Aspekte eines Risiko- (Wahrscheinlichkeits-) Schätzansatzes besteht darin, dass er Grauzonen behandelt, in denen es ein Fehler wäre, eine Klassifizierung oder Entscheidung zu treffen, ohne weitere Daten zu erfassen. Und dann gibt es die Tatsache, dass die Wahrscheinlichkeitsschätzung nicht erfordert (sogar nicht erlaubt), die Ergebnisse durch künstliche Manipulation der Stichprobe "auszugleichen".
quelle
In Bezug auf Ihre Frage, ob die Neugewichtung von Trainingsmustern gleichbedeutend ist mit der Multiplikation des Verlusts in einem der beiden Fälle mit einer Konstanten: Ja, das ist es. Eine Möglichkeit, die logistische Regressionsverlustfunktion zu schreiben, besteht darin, jeweils positive und negative Instanzen zu bezeichnen, und
quelle