Was passiert, wenn wir eine grundlegende Support-Vektor-Maschine (linearer Kernel und kein Soft-Margin) auf nicht linear trennbaren Daten trainieren? Das Optimierungsproblem ist nicht realisierbar. Was gibt der Minimierungsalgorithmus zurück?
Was passiert, wenn wir eine grundlegende Support-Vektor-Maschine (linearer Kernel und kein Soft-Margin) auf nicht linear trennbaren Daten trainieren? Das Optimierungsproblem ist nicht realisierbar. Was gibt der Minimierungsalgorithmus zurück?
Ich denke, Basic Support Vector Machine bedeutet SVM mit hartem Rand. Lassen Sie uns also Folgendes überprüfen:
Kurz gesagt, wir möchten eine Hyperebene mit dem größten Rand finden, die alle Beobachtungen in unserem Trainingsprobenraum korrekt trennen kann.
Was ist angesichts der obigen Definition das Optimierungsproblem, das wir lösen müssen?
max(margin)
margin
die Einschränkung optimieren und auch erfüllen: Keine Fehler in der StichprobeZurück zu Ihrer Frage: Da Sie erwähnt haben, dass der Trainingsdatensatz nicht linear trennbar ist, ist es bei Verwendung von SVM mit hartem Rand ohne Merkmalstransformationen unmöglich, eine Hyperebene zu finden, die "Keine Fehler in der Stichprobe" erfüllt .
Normalerweise lösen wir das SVM-Optimierungsproblem durch quadratische Programmierung, da es Optimierungsaufgaben mit Einschränkungen ausführen kann. Wenn Sie Gradient Descent oder andere Optimierungsalgorithmen verwenden, die die Bedingungen von SVM mit hartem Rand nicht erfüllen, sollten Sie dennoch ein Ergebnis erhalten, aber dies ist keine SVM-Hyperebene mit hartem Rand.
Übrigens wählen wir bei nicht linear trennbaren Daten normalerweise