Ich habe über SVMs gelesen und festgestellt, dass sie ein Optimierungsproblem lösen und die Idee der maximalen Gewinnspanne sehr vernünftig war.
Jetzt können sie mithilfe von Kerneln sogar nichtlineare Trennungsgrenzen finden, was großartig war.
Bisher habe ich wirklich keine Ahnung, wie SVMs (eine spezielle Kernelmaschine) und Kernelmaschinen mit neuronalen Netzen zusammenhängen?
Betrachten Sie die Kommentare von Yann Lecun => hier :
kernel methods were a form of glorified template matching
und auch hier :
Zum Beispiel wurden einige Leute von Kernel-Methoden wegen der niedlichen Mathematik geblendet, die damit einhergeht. Aber wie ich in der Vergangenheit bereits sagte, sind Kernel-Maschinen letztendlich flache Netzwerke, die einen „verherrlichten Vorlagenabgleich“ durchführen. Daran ist nichts auszusetzen (SVM ist eine großartige Methode), aber es gibt schlimme Einschränkungen, die wir alle kennen sollten.
Meine Fragen sind also:
- Wie hängt SVM mit dem neuronalen Netzwerk zusammen? Wie ist es ein flaches Netzwerk?
- SVM löst ein Optimierungsproblem mit einer genau definierten Zielfunktion. Wie wird der Vorlagenabgleich durchgeführt? Was ist hier die Vorlage, mit der eine Eingabe abgeglichen wird?
Ich denke, diese Kommentare erfordern ein gründliches Verständnis von hochdimensionalen Räumen, neuronalen Netzen und Kernelmaschinen, aber bisher habe ich versucht und konnte die Logik dahinter nicht verstehen. Aber es ist sicherlich interessant, die Zusammenhänge zwischen zwei sehr, sehr unterschiedlichen ml-Techniken festzustellen.
EDIT: Ich denke, SVMs aus neuronaler Sicht zu verstehen wäre großartig. Ich suche nach einer gründlichen mathematisch gestützten Antwort auf die beiden oben genannten Fragen, um die Verbindung zwischen SVMs und neuronalen Netzen sowohl bei linearen SVM als auch bei SVMs mit dem Kernel-Trick wirklich zu verstehen.
Antworten:
Das SVM ist ein einschichtiges neuronales Netzwerk mit dem Gelenkverlust als Verlustfunktion und ausschließlich linearer Aktivierung. Das Konzept wurde in früheren Threads wie diesem angedeutet: Single Layer NeuralNetwork mit RelU-Aktivierung gleich SVM?
Die Gramm-Matrix (Kernel-Matrix, wenn Sie es vorziehen) ist ein Maß für die Ähnlichkeit. Da die SVM spärliche Lösungen zulässt, müssen Sie bei der Vorhersage Ihre Stichprobe mit den Vorlagen, dh den Unterstützungsvektoren, vergleichen.
quelle