Ich versuche, eine Vorstellung davon zu bekommen, warum das Erhöhen der Anzahl von Funktionen die Leistung verringern kann. Ich verwende derzeit einen LDA-Klassifikator, der bei bestimmten Funktionen eine bessere zweigeteilte Leistung erbringt, bei mehr Funktionen jedoch eine schlechtere Leistung. Meine Klassifikationsgenauigkeit wird mit einem geschichteten 10-fachen xval durchgeführt.
Gibt es einen einfachen Fall, in dem ein Klassifikator univarianter als bivarianter Art wäre, um eine physikalische oder räumliche Vorstellung davon zu erhalten, was in diesen höheren Dimensionen geschieht?
classification
feature-selection
dvreed77
quelle
quelle
Antworten:
Siehe " Ein Problem der Dimensionalität: Ein einfaches Beispiel " - ein sehr kurzer und sehr alter Artikel von GV Trunk. Er betrachtet ein Zwei-Klassen-Problem mit Gaußschen Klassen-bedingten Verteilungen, bei denen die Merkmale alle relevant sind, aber mit abnehmender Relevanz. Er zeigt, dass die Fehlerrate eines an einer endlichen Stichprobe trainierten Klassifikators gegen 0,5 konvergiert, während der Bayes-Fehler mit zunehmender Anzahl von Merkmalen gegen 0 geht.
quelle
Dies wird als " Curse Of Dimensionality " bezeichnet. Ich weiß nicht, ob es einen bestimmten Grund für LDA gibt, aber im Allgemeinen haben Merkmalsvektorergebnisse eine große Dimension, die komplexere Entscheidungsgrenzen erfordert. Komplexe Grenzen zu haben, bringt auch die Frage mit sich: "In welchem Maße?" da wir auch überanpassung in betracht ziehen. Ein weiterer Punkt ist, dass mit zusätzlichen Dimensionen auch die Komplexität des Lernalgorithmus zunimmt. Das Arbeiten mit einem relativ langsamen Lernalgorithmus mit großem Merkmalsvektor verschlechtert daher Ihr Jobereignis. Darüber hinaus besteht mit der Dimension möglicherweise eine zunehmende Wahrscheinlichkeit, dass Funktionen korreliert sind, die für viele Lernalgorithmen wie Neural Net oder einige andere nicht geeignet sind.
Möglicherweise zählen Sie andere Gründe, die sich unter "Curse Of Dimensionality" befinden, aber die Tatsache ist, dass genügend Instanzen mit prägnanten Merkmalsvektoren vorhanden sind, die von einigen Merkmalsauswahlroutinen entfernt werden.
quelle