1999 stellten Beyer et al. gefragt, wann ist "Nächster Nachbar" sinnvoll?
Gibt es seit 1999 bessere Möglichkeiten zur Analyse und Visualisierung der Auswirkung der Abstandsflachheit auf die NN-Suche?
Bietet [ein gegebener] Datensatz aussagekräftige Antworten auf das 1-NN-Problem? Das 10-NN-Problem? Das 100-NN-Problem?
Wie würden Sie Experten diese Frage heute angehen?
Änderungen Montag, 24. Januar:
Wie wäre es mit "Abstand Whiteout" als kürzere Bezeichnung für "Abstand Ebenheit mit zunehmender Dimension"?
Ein einfacher Weg, um "Entfernungs-Whiteout" zu betrachten, besteht darin, 2-NN auszuführen und Entfernungen zum nächsten Nachbarn und zum zweitnächsten Nachbarn zu zeichnen. Das folgende Diagramm zeigt dist 1 und dist 2 für einen Bereich von n-Clustern und Dimensionen von Monte Carlo. Dieses Beispiel zeigt einen ziemlich guten Abstandskontrast für die skalierte absolute Differenz | dist 2 - dist 1 |. (Die relativen Differenzen | dist 2 / dist 1 | → 1 als Dimension → ∞ werden also unbrauchbar.)
Ob in einem gegebenen Kontext absolute oder relative Fehler verwendet werden sollten, hängt natürlich vom "realen" vorhandenen Rauschen ab: schwierig.
Vorschlag: immer 2-NN ausführen; 2 Nachbarn sind nützlich, wenn sie in der Nähe sind, und nützlich, wenn nicht.
Antworten:
Ich habe keine vollständige Antwort auf diese Frage, kann jedoch auf einige analytische Aspekte eine teilweise Antwort geben. Warnung: Ich habe seit dem ersten Artikel unten an anderen Problemen gearbeitet. Es ist also sehr wahrscheinlich, dass es noch andere gute Dinge gibt, die mir nicht bekannt sind.
Zunächst ist anzumerken, dass Beyer et al. Trotz der Überschrift "Wann ist der nächste Nachbar sinnvoll?" Tatsächlich eine andere Frage beantworteten, nämlich wann ist NN nicht sinnvoll? Wir haben das Gegenteil zu ihrem Theorem unter einigen zusätzlichen milden Annahmen über die Größe der Stichprobe in Wann ist 'nächster Nachbar' sinnvoll: Ein umgekehrter Theorem und Implikationen bewiesen. Journal of Complexity, 25 (4), August 2009, S. 385–397.und zeigten, dass es Situationen gibt, in denen (theoretisch) keine Konzentration von Entfernungen auftritt (wir geben Beispiele an, aber im Wesentlichen muss die Anzahl der Nichtrauschmerkmale mit der Dimensionalität wachsen, sodass sie in der Praxis selten auftreten). Die Referenzen 1 und 7, die in unserem Aufsatz zitiert werden, geben einige Beispiele dafür, wie die Entfernungskonzentration in der Praxis gemindert werden kann.
In einem Artikel meines Vorgesetzten, Ata Kaban, wird untersucht, ob diese Probleme mit der Entfernungskonzentration trotz der Anwendung von Dimensionalitätsreduktionstechniken im Abschnitt Über das Bewusstsein für Entfernungskonzentration bei bestimmten Datenreduktionstechniken bestehen . Mustererkennung. Vol. 44, Ausgabe 2, Februar 2011, S. 265–277. . Es gibt auch ein paar nette Diskussionen.
quelle
Sie könnten auch an der Analyse von Nachbarschaftskomponenten von Goldberger et al. Interessiert sein .
Hier wird eine lineare Transformation gelernt, um die erwarteten korrekt klassifizierten Punkte über eine stochastische Auswahl der nächsten Nachbarschaft zu maximieren.
Als Nebeneffekt wird aus den Daten die (erwartete) Anzahl der Nachbarn ermittelt.
quelle