Wie quantifiziere ich die Redundanz von Features?

10

Ich habe drei Funktionen, mit denen ich ein Klassifizierungsproblem lösen kann. Ursprünglich erzeugten diese Features boolesche Werte, sodass ich ihre Redundanz bewerten konnte, indem ich mir ansah, wie stark sich die Sätze positiver und negativer Klassifikationen überschneiden. Jetzt habe ich die Funktionen erweitert, um stattdessen echte Werte (Scores) zu erzeugen, und ich möchte ihre Redundanz erneut analysieren, aber ich bin völlig ratlos, wie das geht. Kann mir jemand einen Hinweis oder eine Idee geben, wie ich das anstellen soll?

Ich weiß, dass diese Frage sehr vage ist, weil ich die Statistik nicht sehr gut verstehe. Wenn Sie also keine Antwort für mich haben, haben Sie vielleicht einige Fragen, die mir helfen können, mich selbst besser zu verstehen.

Bearbeiten: Ich stöbere gerade in Wikipedia zu diesem Thema. Ich habe das Gefühl, dass ich einen Korrelationskoeffizienten haben möchte, bin mir aber immer noch nicht sicher, ob dies der richtige Ansatz ist und welcher der vielen verfügbaren Koeffizienten angemessen ist.

Bearbeiten 2: Im booleschen Fall habe ich zuerst für jedes Feature den Satz von Beispielen erstellt, für die es wahr war. Dann war die Korrelation zwischen zwei Merkmalen die Größe des Schnittpunkts dieser Mengen über die Größe der Vereinigung dieser Mengen. Wenn dieser Wert 1 ist, sind sie vollständig redundant, weil immer gleich. Wenn es 0 ist, sind sie niemals gleich.

Björn Pollex
quelle
Es wäre hilfreich, wenn Sie ein Beispiel dafür liefern würden, wie Sie Redundanz im booleschen Fall definieren und welche Ergebnisse Sie im kontinuierlichen Fall erwarten würden
mpiktas
@mpiktas: Bearbeiten Sie meine Frage als Antwort auf Ihren Kommentar.
Björn Pollex

Antworten:

4

Dies klingt nach einem Problem bei der Merkmalsauswahl. Wenn dies der Fall ist, möchten Sie wahrscheinlich die gegenseitige Information zwischen allen Teilmengen von Merkmalen und der Klassifizierungsausgabe berechnen . Die Teilmenge mit den höchsten gegenseitigen Informationen ist die Menge von Merkmalen, die die meisten "Informationen" über die resultierende Klassifizierung des Datensatzes enthält.

Wenn Sie nur 3 Features haben, können Sie alle möglichen Teilmengen in angemessener Zeit berechnen. Wenn Ihr Feature-Set größer wird, müssen Sie dies annähern (normalerweise mit einem gierigen Ansatz: Nehmen Sie bei jedem Schritt ein Feature mit dem höchsten MI ).

Nick
quelle
2
(+1) zur gegenseitigen Information. Zusätzliche Bemerkung: a) Ich schlage Information Gain als Sonderfall gegenseitiger Information vor. b) Durch die automatische Auswahl von Merkmalen werden nicht nur die redundanten Merkmale entfernt, sondern auch alle Merkmale, die sich negativ auf die Klassendiskriminierung auswirken.
steffen
Vielen Dank! Das klingt sehr vielversprechend, ich werde es untersuchen.
Björn Pollex