Ich möchte eine SVM trainieren, um Fälle (TRUE / FALSE) anhand von 20 Attributen zu klassifizieren. Ich weiß, dass einige dieser Attribute stark korrelieren. Daher lautet meine Frage: Ist SVM empfindlich gegenüber der Korrelation oder Redundanz zwischen den Merkmalen? Irgendeine Referenz?
svm
multicollinearity
kernel-trick
user7064
quelle
quelle
Antworten:
Linearer Kernel: Der Effekt hier ähnelt dem der Multikollinearität bei der linearen Regression. Ihr erlerntes Modell ist möglicherweise nicht besonders stabil gegen kleine Abweichungen im Trainingssatz, da unterschiedliche Gewichtsvektoren ähnliche Ergebnisse erzielen. Die Vorhersagen des Trainingssatzes sind jedoch ziemlich stabil und testen auch Vorhersagen, wenn sie aus derselben Verteilung stammen.
RBF-Kernel: Der RBF-Kernel untersucht nur die Abstände zwischen Datenpunkten. Stellen Sie sich also vor, Sie haben tatsächlich 11 Attribute, aber eines davon wird zehnmal wiederholt (ein ziemlich extremer Fall). Dann trägt dieses wiederholte Attribut zehnmal so viel zur Entfernung bei wie jedes andere Attribut, und das erlernte Modell wird wahrscheinlich viel stärker von dieser Funktion betroffen sein.
quelle