Hauptkomponentenanalyse gegen Merkmalsauswahl

11

Ich mache ein maschinelles Lernprojekt mit WEKA. Es ist eine überwachte Klassifizierung und in meinen grundlegenden Experimenten habe ich ein sehr schlechtes Maß an Genauigkeit erreicht. Dann wollte ich eine Funktionsauswahl treffen, aber dann hörte ich von PCA.

Bei der Merkmalsauswahl berücksichtigen wir eine Teilmenge von Attributen, die den größten Einfluss auf unsere gezielte Klassifizierung hat. (Wenn ich richtig bin.)

Soweit ich weiß, generieren wir in PCA eine kleinere Menge künstlicher Attribute, die für unser Ziel verantwortlich sind (bitte korrigieren Sie mich, wenn ich falsch liege).

Aber ich kann nicht verstehen, was der genaue Unterschied zwischen diesen beiden ist. Welches ist besser? Kommt es auf die jeweilige Studie an, die jemand macht?

Und was ist mit einer Kombination der beiden oben genannten Methoden? (Eine PCA nach einer Funktionsauswahl). Macht es irgendeinen Sinn?

Vigamage
quelle
1
Mögliches Duplikat von 27300 ?
GWR

Antworten:

10

Merkmalsauswahl

Wir betrachten eine Teilmenge von Attributen, die den größten Einfluss auf unsere gezielte Klassifizierung hat.

Dieses Verständnis ist vollkommen richtig.

PCA

Wir generieren eine kleinere Menge künstlicher Attribute, die für unser Ziel verantwortlich sind.

Dies ist teilweise richtig. Wir sind kein Bilanzierungsziel in PCA. In Laienbegriffen nehmen wir einige Annahmen über die Daten und ihre Verteilung an und repräsentieren die Daten mit höherer Dimension in einer viel kleineren Dimension (z. B. 3), die den größten Teil des Informationsgehalts als Originaldaten enthalten. Somit wandelt PCA Ihre Attribute in künstliche Mengen um, wobei die meisten Informationen erhalten bleiben.

Vergleich

Welches ist besser? Kommt es auf die jeweilige Studie an, die jemand macht?

Ja, das hängt von der jeweiligen Studie ab. Wenn die in der PCA-Transformation getroffene Annahme zutrifft, erhalten Sie durch Ausführen von PCA dieselben Informationen in einer kleinen Anzahl von Attributen. Wenn die Annahme weitgehend fehlschlägt, kann eine PCA Ihre Klassifizierung ruinieren.

Kombination

Macht es irgendeinen Sinn?

Es macht vollkommen Sinn.

Durch die Auswahl der Features reduzieren Sie die Anzahl der Dimensionen, indem Sie irrelevante Informationen ausgeben. Durch PCA reduzieren Sie die Anzahl der Dimensionen, indem Sie in künstliche Mengen umwandeln, aber dieselben Informationen beibehalten.

Shuaib Ahmed
quelle