Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie vielen Funktionen ist es "sicher", diese Metrik zu verwenden?
239
Antworten:
Eine großartige Zusammenfassung nicht intuitiver Ergebnisse in höheren Dimensionen stammt aus " Ein paar nützliche Dinge, die Sie über maschinelles Lernen wissen sollten " von Pedro Domingos an der University of Washington:
Der Artikel steckt auch voller zusätzlicher Weisheitsperlen für maschinelles Lernen.
Eine andere Anwendung, die über maschinelles Lernen hinausgeht, ist die Suche nach dem nächsten Nachbarn: Finden Sie bei einer interessierenden Beobachtung die nächsten Nachbarn (in dem Sinne, dass dies die Punkte mit dem geringsten Abstand vom Abfragepunkt sind). In großen Dimensionen tritt jedoch ein merkwürdiges Phänomen auf: Das Verhältnis zwischen dem nächstgelegenen und dem am weitesten entfernten Punkt nähert sich 1 an, dh die Punkte werden im Wesentlichen gleichmäßig voneinander entfernt. Dieses Phänomen kann für eine Vielzahl von Entfernungsmetriken beobachtet werden, ist jedoch für die euklidische Metrik ausgeprägter als beispielsweise die Manhattan-Entfernungsmetrik. Die Prämisse der Suche nach dem nächsten Nachbarn ist, dass "nähere" Punkte relevanter sind als "weiter entfernte" Punkte, aber wenn alle Punkte im Wesentlichen gleich weit voneinander entfernt sind, ist die Unterscheidung bedeutungslos.
Aus Charu C. Aggarwal, Alexander Hinneburg und Daniel A. Keim, " Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum ":
Die Autoren der Arbeit "Surprising Behaviour" schlagen dann vor, Normen mit . Sie liefern einige Ergebnisse, die belegen, dass diese "Bruchnormen" die Eigenschaft aufweisen, den Kontrast zwischen dem entferntesten und dem nächstgelegenen Punkt zu erhöhen. Dies kann in einigen Zusammenhängen nützlich sein, es gibt jedoch eine Einschränkung: Diese "Bruchnormen" sind keine geeigneten Abstandsmetriken, da sie die Dreieckungleichung verletzen. Wenn die Dreiecksungleichheit eine wichtige Eigenschaft in Ihrer Forschung ist, sind Bruchmetriken nicht besonders nützlich. k < 1Lk k < 1
quelle
Der Begriff der euklidischen Distanz, der in der von Euklid untersuchten zweidimensionalen und dreidimensionalen Welt gut funktioniert, hat einige Eigenschaften in höheren Dimensionen, die unserer (vielleicht nur meiner ) geometrischen Intuition, die auch eine Extrapolation aus zwei und drei ist , widersprechen Maße.
Betrachten Sie ein Quadrat mit Eckpunkten bei . Zeichnen Sie vier Einheitsradiuskreise, die bei zentriert sind . Diese "füllen" das Quadrat, wobei jeder Kreis die Seiten des Quadrats an zwei Punkten berührt und jeder Kreis seine zwei Nachbarn berührt. Beispielsweise berührt der bei zentrierte Kreis die Seiten des Quadrats bei und und seine benachbarten Kreise bei und . Als nächstes zeichnen Sie einen kleinen Kreis , der am Ursprung zentriert ist( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) r 2 = √4 × 4 ( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) das berührt alle vier Kreise. Da das Liniensegment, dessen Endpunkte die Mittelpunkte zweier oszillierender Kreise sind, den Oszillationspunkt durchläuft, kann leicht überprüft werden, dass der kleine Kreis den Radius
und die vier größeren Kreise bei . Beachten Sie, dass der kleine Kreis "vollständig von den vier größeren Kreisen umgeben" ist und sich somit auch vollständig innerhalb des Quadrats befindet. Beachten Sie auch, dass der Punkt auf dem kleinen Kreis liegt. Beachten Sie auch, dass man vom Ursprung aus den Punkt am Rand des Quadrats nicht "sehen" kann, da die Sichtlinie durch den Oszillationspunkt der beiden zentrierten Kreise verläuft beimr2= 2-√- 1 ( ± r2/ 2-√, ± r2/ 2-√) ( r2, 0 ) ( 2 , 0 , 0 ) ( 1 , 0 , 0 ) ( 1 , 1 ) und . Das Gleiche gilt für die Sichtlinien zu den anderen Punkten, an denen die Achsen durch die Kanten des Quadrats verlaufen.( 1 , - 1 )
Als nächstes betrachte man einen Würfel mit Eckpunkten bei . Wir füllen es mit Sphären mit oszillierendem Radius in der Mitte und platzieren dann eine kleinere oszillierende Kugel in der Mitte des Ursprungs. Beachten Sie, dass die kleine Kugel den Radius und der Punkt auf der Oberfläche der kleinen Kugel liegt. aber auch, dass man in drei Dimensionen den Punkt "sehen" kann4 × 4 × 4 ( ± 2 , ± 2 , ± 2 ) 8 ( ± 1 , ± 1 , ± 1 ) r3= 3-√- 1 < 1 (r3,0,0) (2,0,0) vom Ursprung; Es gibt keine größeren größeren Kugeln, die die Sicht behindern, wie dies in zwei Dimensionen der Fall ist. Diese klaren Sichtlinien vom Ursprung bis zu den Punkten, an denen die Achsen durch die Oberfläche des Würfels verlaufen, treten auch in allen größeren Dimensionen auf.
Verallgemeinernd können wir einen dimensionalen Hyperwürfel von Seite und ihn mit Hypersphären mit oszillierendem Einheitsradius füllen, die bei zentriert sind und dann einen "kleineren" Oszillierende Kugel mit Radius am Ursprung. Der Punkt liegt auf dieser "kleineren" Kugel. aus dass wenn , und damit die "kleinere" Kugel einen Einheitsradius hat und daher das Soubriquet "kleiner" für wirklich nicht verdientn 4 2n (±1,±1,…,±1) (rn,0,0,…,0)(1)n=4rn=1n≥4n>9(1)rn>2(rn,0,0,…,0)4
Meine Antwort auf die Frage des OP: "Außerdem, was sind" hohe Dimensionen "?" ist .n≥9
quelle
Es ist eine Frage des Signal-Rausch-Verhältnisses . Der euklidische Abstand ist aufgrund der quadratischen Terme besonders rauschempfindlich. Aber selbst Manhattan-Entfernungen und "gebrochene" (nicht metrische) Entfernungen leiden darunter.
Ich fand die Studien in diesem Artikel sehr aufschlussreich:
Es greift die Beobachtungen auf, die z. B. in dem von @Pat erwähnten überraschenden Verhalten von Distanzmetriken im hochdimensionalen Raum von Aggarwal, Hinneburg und Keim gemacht wurden. Aber es zeigt auch , wie aus synthetischen Experimente sind irreführend und dass in der Tat hochdimensionalen Daten können einfacher geworden . Wenn Sie viel (redundantes) Signal haben und die neuen Dimensionen wenig Rauschen hinzufügen.
Letztendlich hängt es also immer noch von Ihren Daten ab. Wenn Sie viele unbrauchbare Attribute haben, wird die euklidische Distanz unbrauchbar. Wenn Sie Ihre Daten leicht in einen niedrigdimensionalen Datenraum einbetten können, sollte der euklidische Abstand auch im volldimensionalen Raum funktionieren. Insbesondere für spärliche Daten, wie z. B. TF-Vektoren aus Text, scheint dies der Fall zu sein, dass die Daten eine viel geringere Dimension aufweisen, als das Vektorraummodell vorschlägt.
Einige Leute glauben, dass der Kosinusabstand bei hochdimensionalen Daten besser ist als der Euklidische. Ich glaube nicht: Kosinusabstand und euklidischer Abstand hängen eng zusammen; Wir müssen also damit rechnen, dass sie unter denselben Problemen leiden. Textdaten, bei denen Cosinus populär ist, sind jedoch in der Regel spärlich , und Cosinus ist bei Daten, die spärlich sind, schneller. und weil die Daten dünn sind, ist die intrinsische Dimensionalität viel geringer als die Vektorraumdimension.
Siehe auch diese Antwort, die ich auf eine frühere Frage gegeben habe: https://stats.stackexchange.com/a/29647/7828
quelle
Am besten beginnen Sie mit dem Buch Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum von Aggarwal, Hinneburg und Keim. Es gibt hier einen Link, der gerade funktioniert (pdf) , aber es sollte sehr gut für Google sein, wenn das nicht funktioniert . Kurz gesagt, mit zunehmender Anzahl von Dimensionen ändert sich der relative euklidische Abstand zwischen einem Punkt in einer Menge und seinem nächsten Nachbarn sowie zwischen diesem Punkt und seinem entferntesten Nachbarn auf nicht offensichtliche Weise. Ob sich dies negativ auf Ihre Ergebnisse auswirkt oder nicht, hängt in hohem Maße davon ab, was Sie erreichen möchten und wie Ihre Daten aussehen.
quelle
Euklidische Distanz ist im maschinellen Lernen sehr selten eine gute Distanz, und dies wird in höheren Dimensionen offensichtlicher. Dies liegt daran, dass Sie sich beim maschinellen Lernen die meiste Zeit nicht mit einem euklidischen, sondern mit einem probabilistischen metrischen Raum beschäftigen und daher probabilistische und informationstheoretische Distanzfunktionen verwenden sollten, z. B. entropiebasierte.
Menschen mögen den euklidischen Raum, weil er einfach zu konzipieren ist. Darüber hinaus ist er mathematisch einfach, da Linearitätseigenschaften bedeuten, dass wir lineare Algebra anwenden können. Wenn wir Entfernungen in Form von beispielsweise Kullback-Leibler-Divergenz definieren, ist es schwieriger, mathematisch zu visualisieren und damit zu arbeiten.
quelle
Stellen Sie sich als Analogie einen am Ursprung zentrierten Kreis vor. Die Punkte werden gleichmäßig verteilt. Angenommen, ein zufällig ausgewählter Punkt liegt bei (x1, x2). Der euklidische Abstand vom Ursprung beträgt ((x1) ^ 2 + (x2) ^ 2) ^ 0,5
Stellen Sie sich nun Punkte vor, die gleichmäßig über eine Kugel verteilt sind. Derselbe Punkt (x1, x2) wird nun wahrscheinlich (x1, x2, x3) sein. Da bei einer gleichmäßigen Verteilung nur wenige Punkte eine der Koordinaten als Null haben, nehmen wir an, dass [x3! = 0] für unseren zufällig ausgewählten gleichmäßig verteilten Punkt gilt. Somit ist unser Zufallspunkt höchstwahrscheinlich (x1, x2, x3) und nicht (x1, x2, 0).
Dies hat folgende Auswirkung: Jeder zufällige Punkt befindet sich nun in einem Abstand von ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0,5 vom Ursprung der 3D-Kugel. Dieser Abstand ist größer als der für einen zufälligen Punkt in der Nähe des Ursprungs eines 2D-Kreises. Dieses Problem verstärkt sich in höheren Dimensionen. Aus diesem Grund wählen wir andere Metriken als euklidische Dimensionen, um mit höheren Dimensionen zu arbeiten.
EDIT: Es gibt ein Sprichwort , das ich jetzt erinnern: „ Der größte Teil der Masse eines höherdimensionalen Orange in der Haut ist, nicht der Zellstoff“, dass in höheren Dimensionen Sinn gleichmäßig verteilte Punkte sind mehr „in der Nähe“ (euklidische Distanz) die Grenze als der Ursprung.
Randnotiz: Der euklidische Abstand ist für Probleme in der realen Welt nicht ZU schlecht, da die Ungleichmäßigkeit gesegnet ist. Grundsätzlich besagt dies, dass Ihre Daten für reale Daten wahrscheinlich NICHT gleichmäßig im höherdimensionalen Raum verteilt werden, sondern wird eine kleine verkrustete Teilmenge des Raumes besetzen. Dies ist intuitiv sinnvoll: Wenn Sie 100 Größen über Menschen wie Größe, Gewicht usw. messen, ist eine gleichmäßige Verteilung über den Dimensionsraum einfach nicht sinnvoll, z. B. eine Person mit (Größe = 65 Zoll, Gewicht = 150 Pfund, avg_calorie_intake) = 4000) was in der realen Welt einfach nicht möglich ist.
quelle
Eine weitere Facette dieser Frage ist die folgende:
Sehr oft sind hohe Dimensionen bei (maschinell lernenden / statistischen) Problemen das Ergebnis von übermäßig eingeschränkten Funktionen.
Das heißt, die Dimensionen sind NICHT unabhängig (oder nicht korreliert), aber die euklidischen Metriken gehen (zumindest) von einer Nicht-Korrelation aus und führen daher möglicherweise nicht zu den besten Ergebnissen
Um Ihre Frage zu beantworten, hängt die Anzahl der "hohen Dimensionen" davon ab, wie viele Funktionen voneinander abhängig, redundant oder überfordert sind
Zusätzlich: Es ist ein Theorem von Csiszar (et al.), Dass euklidische Metriken "natürliche" Inferenzkandidaten sind, wenn die Merkmale bestimmte Formen haben
quelle
Dieses Papier können Ihnen helfen, zu „Verbessern sqrt-Kosinusähnlichkeit Messung“ besuchen https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Dieses Papier erklärt , warum euklidischer Abstand nicht eine gute Metrik in hohem Dimensions ist data und was ist der beste Ersatz für euclidean distance in high dimensional data. Der euklidische Abstand ist die L2-Norm. Indem wir den Wert von k in der Lk-Norm verringern, können wir das Problem des Abstands in hochdimensionalen Daten verringern. Sie finden die Referenzen auch in diesem Artikel.
quelle