In der Zeitung " Wann ist 'Nächster Nachbar' sinnvoll? " Lesen wir das:
Wir zeigen, dass sich unter bestimmten allgemeinen Bedingungen (in Bezug auf Daten- und Abfrageverteilungen oder Arbeitsbelastung) mit zunehmender Dimensionalität die Entfernung zum nächsten Nachbarn der Entfernung zum entferntesten Nachbarn nähert. Mit anderen Worten, der Kontrast in Abständen zu verschiedenen Datenpunkten wird nicht mehr vorhanden. Die Bedingungen, unter denen dies identifiziert wurde, sind viel breiter als die Annahme unabhängiger und identisch verteilter Dimensionen (IID), die andere Arbeiten annehmen.
Meine Frage ist, wie ich einen Datensatz generieren soll, der diesen Effekt erzeugt.
Ich habe drei Punkte mit jeweils 1000 Dimensionen mit Zufallszahlen zwischen 0 und 255 für jede Dimension erstellt, aber Punkte erzeugen unterschiedliche Abstände und reproduzieren nicht das, was oben erwähnt wurde. Es scheint, dass sich ändernde Dimensionen (z. B. 10 oder 100 oder 1000 Dimensionen) und Bereiche (z. B. [0,1]) nichts ändern. Ich bekomme immer noch unterschiedliche Entfernungen, was beispielsweise für Clustering-Algorithmen kein Problem sein sollte!
Bearbeiten: Ich habe mehr Proben ausprobiert, basierend auf meinen Experimenten konvergieren die Abstände zwischen Punkten nicht zu einer beliebigen Zahl, im Gegenteil, die maximalen und minimalen Abstände zwischen Punkten werden deutlicher. Dies steht auch im Widerspruch zu dem, was im ersten Beitrag von Need more intuition für den Fluch der Dimensionalität und auch für viele andere Orte geschrieben wurde, die dasselbe behaupten wie https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problems . Ich würde es immer noch begrüßen, wenn mir jemand mit einem Code oder einem realen Datensatz zeigen könnte, dass ein solcher Effekt in praktischen Szenarien vorliegt.
Antworten:
Lesen Sie einige der neueren Folgeartikel wie:
und
Wenn ich mich richtig erinnere, zeigen sie die Eigenschaften des theoretischen Distanzkonzentrationseffekts (der bewiesen ist) und die Einschränkungen, warum sich die Realität sehr unterschiedlich verhalten kann. Wenn diese Artikel nicht hilfreich sind, rufen Sie mich an und ich überprüfe die Referenzen erneut (habe nur das, woran ich mich erinnere, in Google Scholar eingegeben und die Artikel nicht erneut heruntergeladen).
Beachten Sie, dass der "Fluch" nicht sagt, dass sich der Unterschied der Entfernungen zum nächsten und am weitesten entfernten Nachbarn 0 nähert. noch dass die Entfernungen zu einer bestimmten Zahl konvergieren würden. sondern dass der relative Unterschied zum absoluten Wert gering wird. Dann können zufällige Abweichungen dazu führen, dass Nachbarn falsch eingestuft werden.
Ignorieren Sie in diesem Bereich nicht den Bruch, den erwarteten Wert undd→∞ ::
quelle
Ich hatte auch vorher noch nichts davon gehört, daher bin ich wenig defensiv, da ich gesehen habe, dass echte und synthetische Datensätze in hohen Dimensionen die Behauptung des fraglichen Papiers wirklich nicht unterstützen.
Als ersten, schmutzigen, ungeschickten und vielleicht nicht guten ersten Versuch würde ich vorschlagen, eine Kugel in einer Dimension Ihrer Wahl zu erzeugen (ich mache das so ) und dann eine Abfrage in die Mitte von zu stellen Die Sphäre.
In diesem Fall liegt jeder Punkt in der gleichen Entfernung zum Abfragepunkt, sodass der nächste Nachbar einen Abstand hat, der dem am weitesten entfernten Nachbarn entspricht.
Dies ist natürlich unabhängig von der Dimension, aber es ist das, woran man nach dem Betrachten der Zahlen des Papiers dachte. Es sollte ausreichen, um Sie anzustarren, aber es können sicherlich bessere Datensätze generiert werden, falls vorhanden.
Bearbeiten über:
Dies wird erwartet, denn je höher der dimensionale Raum ist, desto spärlicher ist der Raum und desto größer ist der Abstand. Darüber hinaus wird dies erwartet, wenn Sie zum Beispiel an die euklidische Distanz denken, die mit zunehmenden Dimensionen größer wird.
quelle