Ist Support Vector Machine empfindlich gegenüber der Korrelation zwischen den Attributen?

11

Ich möchte eine SVM trainieren, um Fälle (TRUE / FALSE) anhand von 20 Attributen zu klassifizieren. Ich weiß, dass einige dieser Attribute stark korrelieren. Daher lautet meine Frage: Ist SVM empfindlich gegenüber der Korrelation oder Redundanz zwischen den Merkmalen? Irgendeine Referenz?

user7064
quelle
Meine Vermutung wäre nein, da das Erzeugen einer Trennung basierend auf einer Variablen die anderen korrelierten Variablen hinsichtlich weiterer Trennungen schwach machen würde. Es kann jedoch zu Instabilitäten bei der Auswahl der Variablen kommen.
Mandata
Sprechen Sie über einen linearen SVM- oder RBF-Kernel oder ...?
Dougal
Hmmmm, ich weiß nicht ... hängt die Antwort davon ab?
user7064
Ja absolut. Sie können einen Kernel entwerfen, der sich explizit mit den Korrelationen befasst, wenn Sie möchten.
Dougal
1
@Dougal: Wenn es Methoden gibt, um den Korrelationseffekt zu eliminieren, bedeutet das nicht, dass Standard-SVM korrelationsempfindlich ist?
Siehe

Antworten:

12

Linearer Kernel: Der Effekt hier ähnelt dem der Multikollinearität bei der linearen Regression. Ihr erlerntes Modell ist möglicherweise nicht besonders stabil gegen kleine Abweichungen im Trainingssatz, da unterschiedliche Gewichtsvektoren ähnliche Ergebnisse erzielen. Die Vorhersagen des Trainingssatzes sind jedoch ziemlich stabil und testen auch Vorhersagen, wenn sie aus derselben Verteilung stammen.

RBF-Kernel: Der RBF-Kernel untersucht nur die Abstände zwischen Datenpunkten. Stellen Sie sich also vor, Sie haben tatsächlich 11 Attribute, aber eines davon wird zehnmal wiederholt (ein ziemlich extremer Fall). Dann trägt dieses wiederholte Attribut zehnmal so viel zur Entfernung bei wie jedes andere Attribut, und das erlernte Modell wird wahrscheinlich viel stärker von dieser Funktion betroffen sein.

d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1

Dougal
quelle
Dies ist eine sehr interessante Antwort; Ich würde gerne mehr darüber lesen, wie man solche Probleme lindert. Können Sie eine oder zwei Referenzen hinzufügen?
Sycorax sagt Reinstate Monica
Ich kenne keine gute aus der Hand, aber ich werde mich ein bisschen nach einer umsehen, vielleicht heute Abend.
Dougal
Genial! Poste mich, wenn du zufällig einen coolen Artikel findest. Ich bin froh, dass mein (+1) dich über 3k bringen konnte. (-:
Sycorax sagt Reinstate Monica
1
Die Umkehrung der Kovarianzmatrix in Mahalanobis-Entfernung ist ein Schlüssel. Wenn Sie es zuverlässig einschätzen können, kann dies berücksichtigt werden.
Vladislavs Dovgalecs