In Ian Goodfellows Deep Learning- Buch steht das geschrieben
Manchmal ist die Verlustfunktion, die uns tatsächlich am Herzen liegt (z. B. Klassifizierungsfehler), nicht effizient zu optimieren. Beispielsweise ist eine genaue Minimierung des erwarteten 0-1-Verlusts selbst für einen linearen Klassifizierer normalerweise nicht möglich (exponentiell in der Eingabedimension). In solchen Situationen optimiert man normalerweise stattdessen eine Ersatzverlustfunktion, die als Proxy fungiert, aber Vorteile hat.
Warum ist ein 0-1-Verlust unlösbar oder wie ist er in den Eingabedimensionen exponentiell?
quelle
Der Klassifizierungsfehler ist tatsächlich manchmal nachvollziehbar. Es kann mithilfe der Nelder-Mead-Methode effizient - wenn auch nicht genau - optimiert werden, wie in diesem Artikel gezeigt:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"Dimensionsreduktion ist der Prozess der Transformation mehrdimensionaler Vektoren in einen niedrigdimensionalen Raum. Bei der Mustererkennung ist es häufig erwünscht, dass diese Aufgabe ohne signifikanten Verlust von Klassifizierungsinformationen ausgeführt wird. Der Bayes-Fehler ist jedoch ein ideales Kriterium für diesen Zweck; Es ist bekannt, dass es für die mathematische Behandlung notorisch schwierig ist. Folglich wurden in der Praxis suboptimale Kriterien verwendet. Wir schlagen ein alternatives Kriterium vor, das auf der Schätzung des Bayes-Fehlers basiert und hoffentlich näher am optimalen Kriterium liegt als die derzeit verwendeten Kriterien Ein Algorithmus zur linearen Dimensionsreduktion, der auf diesem Kriterium basiert, wird konzipiert und implementiert. Experimente zeigen seine überlegene Leistung im Vergleich zu herkömmlichen Algorithmen. "
Der hier erwähnte Bayes-Fehler ist im Grunde der 0: 1-Verlust.
Diese Arbeit wurde im Rahmen der linearen Dimensionsreduktion durchgeführt. Ich weiß nicht, wie effektiv es wäre, Deep-Learning-Netzwerke zu trainieren. Aber der Punkt ist und die Antwort auf die Frage: 0-1 Verlust ist nicht allgemein unlösbar. Es kann zumindest für einige Modelltypen relativ gut optimiert werden.
quelle