Die Hauptidee von k-Nearest-Neighbor berücksichtigt die nächstgelegenen Punkte und entscheidet über die Klassifizierung der Daten mit Stimmenmehrheit. Wenn ja, sollte es keine Probleme mit höherdimensionalen Daten geben, da Methoden wie lokalitätssensitives Hashing die nächsten Nachbarn effizient finden können.
Darüber hinaus kann die Merkmalsauswahl mit Bayes'schen Netzwerken die Datendimension verringern und das Lernen erleichtern.
In diesem Übersichtsartikel von John Lafferty zum statistischen Lernen wird jedoch darauf hingewiesen, dass nichtparametrisches Lernen in hochdimensionalen Merkmalsräumen immer noch eine Herausforderung und ungelöst ist.
Was läuft falsch?
Antworten:
Dieses Problem ist als Fluch der Dimensionalität bekannt . Grundsätzlich neigen Punkte im Raum dazu, sich von allen anderen Punkten zu entfernen, wenn Sie die Anzahl der Dimensionen erhöhen . Dies macht die Partitionierung des Speicherplatzes (wie er für die Klassifizierung oder Clusterbildung erforderlich ist) sehr schwierig.d
Sie können dies sehr leicht selbst sehen. Ich habe zufällige d- dimensionale Punkte im Einheitshyperwürfel bei 20 gleichmäßig ausgewählten Werten von d aus 1..1000 erzeugt . Für jeden Wert von d habe ich die Entfernung vom ersten Punkt zu allen anderen berechnet und den Durchschnitt dieser Entfernungen genommen. Wenn wir dies darstellen, können wir sehen, dass der durchschnittliche Abstand mit der Dimensionalität zunimmt, obwohl der Raum, in dem wir die Punkte in jeder Dimension erzeugen, gleich bleibt.50 d d 1..1000 d
Durchschnittlicher Abstand vs. Dimensionalität
quelle
Keine vollständige Antwort, aber auf der von Ihnen zitierten Wikipedia-Seite heißt es:
Die Wahrscheinlichkeit, dass dies auftritt, steigt bei Vorhandensein hochdimensionaler Merkmalsräume.
quelle