Für lineare Daten ist dies natürlich nicht hilfreich, aber für nicht lineare Daten scheint dies immer nützlich zu sein. Die Verwendung linearer Klassifikatoren ist in Bezug auf Trainingszeit und Skalierbarkeit viel einfacher als die Verwendung nichtlinearer Klassifikatoren.
@BartoszKP hat bereits erklärt, warum der Kernel-Trick nützlich ist. Um Ihre Frage vollständig zu beantworten, möchte ich jedoch darauf hinweisen, dass die Kernelisierung nicht die einzige Option ist , mit nicht linear trennbaren Daten umzugehen.
Es gibt mindestens drei gute, übliche Alternativen zur Delinearisierung des Modells:
- Neutale netzwerkbasierte Methoden, bei denen Sie eine (oder mehrere) Ebenen von Verarbeitungseinheiten hinzufügen, um Ihre Daten in den linear trennbaren Fall umzuwandeln. Im einfachsten Fall handelt es sich um eine Sigmoid-basierte Schicht, die dem Prozess Nichtlinearität verleiht. Einmal zufällig initialisiert, werden sie während der gradientenbasierten Optimierung der oberen Ebene (die das lineare Problem tatsächlich löst) aktualisiert.
- Insbesondere können hier Tiefenlerntechniken verwendet werden, um Daten für eine weitere lineare Klassifizierung vorzubereiten. Es ist der vorherigen Idee sehr ähnlich, aber hier trainieren Sie zuerst Ihre Verarbeitungsebenen, um einen guten Ausgangspunkt für die weitere Feinabstimmung auf der Grundlage des Trainings eines linearen Modells zu finden.
- Zufällige Projektionen - Sie können (nicht lineare) Projektionen aus einem vordefinierten Raum abtasten und darauf den linearen Klassifikator trainieren. Diese Idee wird beim sogenannten extremen maschinellen Lernen stark ausgenutzt , wo sehr effiziente lineare Löser verwendet werden, um einen einfachen Klassifikator auf zufällige Projektionen auszubilden und eine sehr gute Leistung zu erzielen (bei nicht linearen Problemen sowohl bei der Klassifikation als auch bei der Regression, siehe beispielsweise extremes Lernen Maschinen ).
Zusammenfassend lässt sich sagen, dass Kernelisierung eine großartige Delinearisierungstechnik ist, und Sie können sie verwenden, wenn das Problem nicht linear ist, dies aber nicht blind sein sollte, "wenn dann". Dies ist nur eine von mindestens wenigen interessanten Methoden, die je nach Problem und Anforderungen zu unterschiedlichen Ergebnissen führen können. Insbesondere ELM tendiert dazu, sehr ähnliche Lösungen zu finden wie kernelisierte SVM, während gleichzeitig die Größenreihen schneller trainiert werden können (so dass es viel besser skaliert als kernelisierte SVMs).
Ich werde versuchen, Ihre Frage nicht technisch zu beantworten.
In der Tat sollte linear bevorzugt werden und sollte die erste Wahl sein, aus den von Ihnen genannten Gründen, Trainingszeit, Skalierbarkeit sowie einfacher Interpretation des endgültigen Modells, Wahl der Arbeit an primären oder dualen Modellen, größere Toleranz gegenüber Überanpassung usw.
Wenn das lineare Modell keine zufriedenstellende Leistung erbringt, können Sie nichtlineare Lösungen ausprobieren. Einige zu berücksichtigende Kompromisse sind:
quelle