Ich mache ein maschinelles Lernprojekt mit WEKA. Es ist eine überwachte Klassifizierung und in meinen grundlegenden Experimenten habe ich ein sehr schlechtes Maß an Genauigkeit erreicht. Dann wollte ich eine Funktionsauswahl treffen, aber dann hörte ich von PCA.
Bei der Merkmalsauswahl berücksichtigen wir eine Teilmenge von Attributen, die den größten Einfluss auf unsere gezielte Klassifizierung hat. (Wenn ich richtig bin.)
Soweit ich weiß, generieren wir in PCA eine kleinere Menge künstlicher Attribute, die für unser Ziel verantwortlich sind (bitte korrigieren Sie mich, wenn ich falsch liege).
Aber ich kann nicht verstehen, was der genaue Unterschied zwischen diesen beiden ist. Welches ist besser? Kommt es auf die jeweilige Studie an, die jemand macht?
Und was ist mit einer Kombination der beiden oben genannten Methoden? (Eine PCA nach einer Funktionsauswahl). Macht es irgendeinen Sinn?
quelle
Antworten:
Merkmalsauswahl
Dieses Verständnis ist vollkommen richtig.
PCA
Dies ist teilweise richtig. Wir sind kein Bilanzierungsziel in PCA. In Laienbegriffen nehmen wir einige Annahmen über die Daten und ihre Verteilung an und repräsentieren die Daten mit höherer Dimension in einer viel kleineren Dimension (z. B. 3), die den größten Teil des Informationsgehalts als Originaldaten enthalten. Somit wandelt PCA Ihre Attribute in künstliche Mengen um, wobei die meisten Informationen erhalten bleiben.
Vergleich
Ja, das hängt von der jeweiligen Studie ab. Wenn die in der PCA-Transformation getroffene Annahme zutrifft, erhalten Sie durch Ausführen von PCA dieselben Informationen in einer kleinen Anzahl von Attributen. Wenn die Annahme weitgehend fehlschlägt, kann eine PCA Ihre Klassifizierung ruinieren.
Kombination
Es macht vollkommen Sinn.
Durch die Auswahl der Features reduzieren Sie die Anzahl der Dimensionen, indem Sie irrelevante Informationen ausgeben. Durch PCA reduzieren Sie die Anzahl der Dimensionen, indem Sie in künstliche Mengen umwandeln, aber dieselben Informationen beibehalten.
quelle