Dies wird sehr oft zitiert, wenn der Fluch der Dimensionalität erwähnt wird und geht
(rechte Formel genannt relativer Kontrast)
Das Ergebnis des Theorems zeigt, dass die Differenz zwischen dem maximalen und dem minimalen Abstand zu einem bestimmten Abfragepunkt nicht so schnell zunimmt wie der nächste Abstand zu einem Punkt im hochdimensionalen Raum. Dies macht eine Annäherungsabfrage bedeutungslos und instabil, da zwischen dem nächsten und dem am weitesten entfernten Nachbarn nur eine geringe Unterscheidung besteht.
Wenn man jedoch tatsächlich versucht, den relativen Kontrast für Stichprobenwerte zu berechnen, bedeutet dies, dass man einen Vektor mit sehr kleinen Werten nimmt und den Abstand zum Nullvektor berechnet und dasselbe für einen Vektor mit viel größeren Werten tut, und man vergleicht dann die Werte für Bei einer Dimension von 3 und einer Dimension, die Mal größer ist, wird man sehen, dass die Änderung zwar abnimmt, die Änderung jedoch so verschwindend gering ist, dass sie für die Anzahl der tatsächlich in der Praxis verwendeten Dimensionen irrelevant ist (oder kennt jemand jemanden, der arbeitet) Bei Daten mit Abmessungen ist die Größe von Grahams Zahl - was meiner Meinung nach die Größe ist, die erforderlich ist, damit der beschriebene Effekt das Papier tatsächlich relevant macht - glaube ich nicht.
Wie bereits erwähnt, wird dieser Satz sehr oft zitiert, um die Aussage zu stützen, dass die Messung der Nähe auf der Grundlage des euklidischen Raums eine schlechte Strategie in einem hochdimensionalen Raum ist, sagen die Autoren selbst, und dennoch findet das vorgeschlagene Verhalten nicht tatsächlich statt, was mich dazu veranlasst Ich denke, dieser Satz wurde irreführend verwendet.
Beispiel: mit d
der Dimension
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
für d = 3
9999999999.0
für d = 1e8
9999999998.9996738
Und mit 1e1 anstelle von 1e5 (sagen wir, die Daten sind normalisiert)
für d = 3
99.0
für d = 1e8
98.999999999989527
Antworten:
Nein, der Satz ist nicht irreführend. Es kann sicherlich falsch angewendet werden, aber das gilt für jeden Satz.
Hier ist ein einfaches MATLAB-Skript, um zu demonstrieren, wie es funktioniert:
Die Ausgabe:
In meinem Code res1 und res2 sind die beiden Ausdrücke in Ihrer Gleichung aus dem Papier: einer für die Varianz und der zweite für den Kontrast.
Sie können sehen, wie beide wie angenommen auf Null gehen, wenn die Abmessungen von 1 auf 10.000 gehen.
quelle
X
die Varianz auf Null geht?