Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?

239

Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie vielen Funktionen ist es "sicher", diese Metrik zu verwenden?

teaLeef
quelle
5
Dies ist wahrscheinlich zu einfach für Sie; Ich habe eine Reihe von Blog-Posts zum Thema der euklidischen Metrik in höheren Dimensionen geschrieben und wie sich dies auf die Suche nach Vektorräumen nach Übereinstimmungen in der Nähe auswirkt. blogs.msdn.com/b/ericlippert/archive/tags/…
Eric Lippert
1
@ HorstGrünbusch siehe Antworten unten für einige Referenzen. Die Streuung der Entfernungen wird im Vergleich zum Durchschnitt klein. Irgendwann fällt es Ihnen also schwer, Schwellenwerte, Gewichte und die Reihenfolge zu bestimmen. und möglicherweise treten auch Probleme mit der numerischen Genauigkeit auf. Wenn Ihre Daten jedoch spärlich sind, haben sie wahrscheinlich eine viel geringere intrinsische Dimension.
Anony-Mousse
3
"hohe Dimensionen" scheinen ein irreführender Begriff zu sein - einige Antworten behandeln 9-12 als "hohe Dimensionen", aber in anderen Bereichen würde eine hohe Dimensionalität Tausende oder eine Million Dimensionen bedeuten (z. B. das Messen von Winkeln zwischen Wortbeuteln, bei denen Jede Dimension ist die Häufigkeit eines Wortes in einem Wörterbuch. 100 Dimensionen werden als niedrig und nicht als hoch bezeichnet.
Peteris
2
Diese Frage könnte wirklich einen Zusammenhang haben. Nicht gut für was?
Szabolcs

Antworten:

242

Eine großartige Zusammenfassung nicht intuitiver Ergebnisse in höheren Dimensionen stammt aus " Ein paar nützliche Dinge, die Sie über maschinelles Lernen wissen sollten " von Pedro Domingos an der University of Washington:

[O] ur Intuitionen, die aus einer dreidimensionalen Welt stammen, treffen häufig auf hochdimensionale nicht zu. In hohen Dimensionen befindet sich der größte Teil der Masse einer multivariaten Gaußschen Verteilung nicht in der Nähe des Mittelwerts, sondern in einer immer weiter entfernten "Hülle"; und der größte Teil des Volumens einer hochdimensionalen Orange befindet sich in der Haut, nicht im Fruchtfleisch. Wenn eine konstante Anzahl von Beispielen in einem hochdimensionalen Hyperkubus gleichmäßig verteilt ist, sind die meisten Beispiele über eine gewisse Dimensionalität hinaus näher an einer Fläche des Hyperkubus als an ihrem nächsten Nachbarn. Und wenn wir uns einer Hypersphäre annähern, indem wir sie in einen Hyperwürfel einschreiben, befindet sich in großen Dimensionen fast das gesamte Volumen des Hyperwürfels außerhalb der Hypersphäre. Dies ist eine schlechte Nachricht für das maschinelle Lernen, bei dem Formen eines Typs häufig durch Formen eines anderen angenähert werden.

Der Artikel steckt auch voller zusätzlicher Weisheitsperlen für maschinelles Lernen.

Eine andere Anwendung, die über maschinelles Lernen hinausgeht, ist die Suche nach dem nächsten Nachbarn: Finden Sie bei einer interessierenden Beobachtung die nächsten Nachbarn (in dem Sinne, dass dies die Punkte mit dem geringsten Abstand vom Abfragepunkt sind). In großen Dimensionen tritt jedoch ein merkwürdiges Phänomen auf: Das Verhältnis zwischen dem nächstgelegenen und dem am weitesten entfernten Punkt nähert sich 1 an, dh die Punkte werden im Wesentlichen gleichmäßig voneinander entfernt. Dieses Phänomen kann für eine Vielzahl von Entfernungsmetriken beobachtet werden, ist jedoch für die euklidische Metrik ausgeprägter als beispielsweise die Manhattan-Entfernungsmetrik. Die Prämisse der Suche nach dem nächsten Nachbarn ist, dass "nähere" Punkte relevanter sind als "weiter entfernte" Punkte, aber wenn alle Punkte im Wesentlichen gleich weit voneinander entfernt sind, ist die Unterscheidung bedeutungslos.

Aus Charu C. Aggarwal, Alexander Hinneburg und Daniel A. Keim, " Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum ":

In [Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft, " Wann ist 'nächster Nachbar' sinnvoll? "] Wurde argumentiert, dass unter bestimmten vernünftigen Annahmen über die Datenverteilung das Verhältnis der Entfernungen des nächsten und des entferntesten Nachbarn gilt für ein bestimmtes Ziel im hochdimensionalen Raum ist es für eine Vielzahl von Datenverteilungen und Abstandsfunktionen fast 1. In einem solchen Fall wird das Problem des nächsten Nachbarn schlecht definiert, da der Kontrast zwischen den Abständen zu verschiedenen Datenpunkten nicht existiert. In solchen Fällen ist möglicherweise sogar das Konzept der Nähe aus qualitativer Sicht nicht aussagekräftig: ein Problem, das noch grundlegender ist als die Leistungsminderung von hochdimensionalen Algorithmen.

... Viele hochdimensionale Indexstrukturen und Algorithmen verwenden die [E] -uklidische Distanzmetrik als natürliche Erweiterung ihrer traditionellen Verwendung in zwei- oder dreidimensionalen räumlichen Anwendungen. ... In diesem liefern wir einige überraschende theoretische und experimentelle Ergebnisse zur Analyse der Abhängigkeit der Norm vom Wert von . zeigen wir, dass die relativen Kontraste der Abstände zu einem Abfragepunkt stark von der verwendeten Metrik abhängen . Dies liefert einen beträchtlichen Beweis dafür, dass sich die Aussagekraft der Norm mit zunehmender Dimensionalität für höhere Werte von schneller verschlechtert . Somit ist für ein gegebenes Problem mit einem festen (hohen) Wert für die Dimensionalität k L k L k k d k L 1 L 2LkkLkLkkdkann es bevorzugt sein, niedrigere Werte von . Dies bedeutet, dass die Abstandsmetrik (Manhattan-Abstandsmetrik) für hochdimensionale Anwendungen am besten geeignet ist, gefolgt von der euklidischen Metrik ( ). ...kL1L2

Die Autoren der Arbeit "Surprising Behaviour" schlagen dann vor, Normen mit . Sie liefern einige Ergebnisse, die belegen, dass diese "Bruchnormen" die Eigenschaft aufweisen, den Kontrast zwischen dem entferntesten und dem nächstgelegenen Punkt zu erhöhen. Dies kann in einigen Zusammenhängen nützlich sein, es gibt jedoch eine Einschränkung: Diese "Bruchnormen" sind keine geeigneten Abstandsmetriken, da sie die Dreieckungleichung verletzen. Wenn die Dreiecksungleichheit eine wichtige Eigenschaft in Ihrer Forschung ist, sind Bruchmetriken nicht besonders nützlich. k < 1Lkk<1

Sycorax
quelle
7
Diese Referenz ist fantastisch
Antoine
1
Lesen Sie noch einmal ... Schön ...
Richard Hardy
113

Der Begriff der euklidischen Distanz, der in der von Euklid untersuchten zweidimensionalen und dreidimensionalen Welt gut funktioniert, hat einige Eigenschaften in höheren Dimensionen, die unserer (vielleicht nur meiner ) geometrischen Intuition, die auch eine Extrapolation aus zwei und drei ist , widersprechen Maße.

Betrachten Sie ein Quadrat mit Eckpunkten bei . Zeichnen Sie vier Einheitsradiuskreise, die bei zentriert sind . Diese "füllen" das Quadrat, wobei jeder Kreis die Seiten des Quadrats an zwei Punkten berührt und jeder Kreis seine zwei Nachbarn berührt. Beispielsweise berührt der bei zentrierte Kreis die Seiten des Quadrats bei und und seine benachbarten Kreise bei und . Als nächstes zeichnen Sie einen kleinen Kreis , der am Ursprung zentriert ist( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) r 2 = 4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)das berührt alle vier Kreise. Da das Liniensegment, dessen Endpunkte die Mittelpunkte zweier oszillierender Kreise sind, den Oszillationspunkt durchläuft, kann leicht überprüft werden, dass der kleine Kreis den Radius und die vier größeren Kreise bei . Beachten Sie, dass der kleine Kreis "vollständig von den vier größeren Kreisen umgeben" ist und sich somit auch vollständig innerhalb des Quadrats befindet. Beachten Sie auch, dass der Punkt auf dem kleinen Kreis liegt. Beachten Sie auch, dass man vom Ursprung aus den Punkt am Rand des Quadrats nicht "sehen" kann, da die Sichtlinie durch den Oszillationspunkt der beiden zentrierten Kreise verläuft beimr2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) und . Das Gleiche gilt für die Sichtlinien zu den anderen Punkten, an denen die Achsen durch die Kanten des Quadrats verlaufen.(1,1)

Als nächstes betrachte man einen Würfel mit Eckpunkten bei . Wir füllen es mit Sphären mit oszillierendem Radius in der Mitte und platzieren dann eine kleinere oszillierende Kugel in der Mitte des Ursprungs. Beachten Sie, dass die kleine Kugel den Radius und der Punkt auf der Oberfläche der kleinen Kugel liegt. aber auch, dass man in drei Dimensionen den Punkt "sehen" kann4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)vom Ursprung; Es gibt keine größeren größeren Kugeln, die die Sicht behindern, wie dies in zwei Dimensionen der Fall ist. Diese klaren Sichtlinien vom Ursprung bis zu den Punkten, an denen die Achsen durch die Oberfläche des Würfels verlaufen, treten auch in allen größeren Dimensionen auf.

Verallgemeinernd können wir einen dimensionalen Hyperwürfel von Seite und ihn mit Hypersphären mit oszillierendem Einheitsradius füllen, die bei zentriert sind und dann einen "kleineren" Oszillierende Kugel mit Radius am Ursprung. Der Punkt liegt auf dieser "kleineren" Kugel. aus dass wenn , und damit die "kleinere" Kugel einen Einheitsradius hat und daher das Soubriquet "kleiner" für wirklich nicht verdientn42n(±1,±1,,±1)(rn,0,0,,0)(1)n=4rn=1n4n>9(1)rn>2(rn,0,0,,0)4

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. In der Tat wäre es besser, wenn wir es die "größere Kugel" oder nur "zentrale Kugel" nennen würden. Wie im letzten Absatz erwähnt, gibt es eine klare Sichtlinie vom Ursprung zu den Punkten, an denen die Achsen durch die Oberfläche des Hyperwürfels verlaufen. Schlimmer noch, wenn , wir haben diese , und damit der Punkt auf dem zentralen Bereich liegt außerhalb der hypercube Seite obwohl es "vollständig umgeben" von den Einheitsradius-Hypersphären, die den Hyperwürfel "füllen" (im Sinne des Packens).n>9(1)rn>2(rn,0,0,,0)4 Die zentrale Kugel "wölbt" sich außerhalb des Hyperwürfels im hochdimensionalen Raum. Ich finde das sehr kontraintuitiv, weil meine gedanklichen Übersetzungen des Begriffs der euklidischen Distanz zu höheren Dimensionen unter Verwendung der geometrischen Intuition, die ich aus dem mir vertrauten 2- und 3-Raum entwickelt habe, die Realität von nicht beschreiben hochdimensionaler Raum.

Meine Antwort auf die Frage des OP: "Außerdem, was sind" hohe Dimensionen "?" ist .n9

Dilip Sarwate
quelle
9
@ stackoverflowuser2010: Wenn diese Antwort völlig unverständlich ist, wie können Sie feststellen, ob sie die ursprüngliche Frage anspricht oder versucht, sie anzusprechen? Ein konstruktiverer Ansatz könnte darin bestehen, die Klärung von Punkten anzufordern, die Sie als unklar empfinden, anstatt das Ganze eigenmächtig zu verwerfen.
Scortchi
8
@ stackoverflowuser2010 Da diese Antwort viele Dutzend positive Stimmen hat, scheint es, dass viele Leute das Gefühl haben, dass sie beide einigermaßen verständlich sind und auf eine akzeptable Weise auf die Frage antworten. Vielleicht könnten Sie eine konstruktivere Kritik versuchen - wie könnte diese Antwort Ihrer Meinung nach konkret verbessert werden? Was soll es beinhalten, das es nicht tut?
Glen_b
1
@Scortchi: Vielleicht erwarte ich zu viel, aber eine eindeutige Antwort auf diese Frage, die der Community helfen könnte, wäre etwa "Euklidische Distanz ist keine gute Metrik, weil <X>".
Stackoverflowuser2010
7
@ stackoverflow2010 Sie werden niemals eine "gute" Antwort wie diese sehen, weil <die Dinge viel komplizierter sind als wenn-dann-Aussagen>. Wenn Sie eine einfache Antwort wünschen, ist sie höchstwahrscheinlich falsch. Genau wie verdammte Brexit-Lügner waren sie gut darin, einfache Antworten anzubieten (falsch, aber einfach).
Anony-Mousse
42

Es ist eine Frage des Signal-Rausch-Verhältnisses . Der euklidische Abstand ist aufgrund der quadratischen Terme besonders rauschempfindlich. Aber selbst Manhattan-Entfernungen und "gebrochene" (nicht metrische) Entfernungen leiden darunter.

Ich fand die Studien in diesem Artikel sehr aufschlussreich:

Zimek, A., Schubert, E. und Kriegel, H.-P. (2012),
Eine Umfrage zur unbeaufsichtigten Erkennung von Ausreißern in hochdimensionalen numerischen Daten.
Statistical Analy Data Mining, 5: 363–387. doi: 10.1002 / sam.11161

Es greift die Beobachtungen auf, die z. B. in dem von @Pat erwähnten überraschenden Verhalten von Distanzmetriken im hochdimensionalen Raum von Aggarwal, Hinneburg und Keim gemacht wurden. Aber es zeigt auch , wie aus synthetischen Experimente sind irreführend und dass in der Tat hochdimensionalen Daten können einfacher geworden . Wenn Sie viel (redundantes) Signal haben und die neuen Dimensionen wenig Rauschen hinzufügen.

x,yx,y,x,y,x,y,x,y,...,x,y

Letztendlich hängt es also immer noch von Ihren Daten ab. Wenn Sie viele unbrauchbare Attribute haben, wird die euklidische Distanz unbrauchbar. Wenn Sie Ihre Daten leicht in einen niedrigdimensionalen Datenraum einbetten können, sollte der euklidische Abstand auch im volldimensionalen Raum funktionieren. Insbesondere für spärliche Daten, wie z. B. TF-Vektoren aus Text, scheint dies der Fall zu sein, dass die Daten eine viel geringere Dimension aufweisen, als das Vektorraummodell vorschlägt.

Einige Leute glauben, dass der Kosinusabstand bei hochdimensionalen Daten besser ist als der Euklidische. Ich glaube nicht: Kosinusabstand und euklidischer Abstand hängen eng zusammen; Wir müssen also damit rechnen, dass sie unter denselben Problemen leiden. Textdaten, bei denen Cosinus populär ist, sind jedoch in der Regel spärlich , und Cosinus ist bei Daten, die spärlich sind, schneller. und weil die Daten dünn sind, ist die intrinsische Dimensionalität viel geringer als die Vektorraumdimension.

Siehe auch diese Antwort, die ich auf eine frühere Frage gegeben habe: https://stats.stackexchange.com/a/29647/7828

Anony-Mousse
quelle
[1,1]nn
Und was wäre die Schlussfolgerung daraus? Auf [-1; 1] ^ d sollte man keinen Kosinus verwenden, da dieser nicht mit 0 definiert ist, der Durchschnitt nichts über den Fluch aussagt und einheitliche Daten unrealistisch sind.
Anony-Mousse
Ich habe es bis jetzt noch nicht ausprobiert, aber ich denke, dass die Winkel für echte Daten ähnlich aussehen. Die Tatsache, dass es nicht auf 0 definiert ist, sollte eigentlich keine Rolle spielen, da es sich nur um einen einzelnen Punkt handelt. Meine Schlussfolgerung ähnelt Ihrer: Die Kosinusdistanz ist nicht für hochdimensionale Räume geeignet (obwohl es Domänen geben könnte, in denen sie noch funktioniert)
Martin Thoma
Ein realistischeres Szenario wären Punkte auf der nichtnegativen Einheitssphäre. Und das Maß des Interesses wäre wahrscheinlich Varianz, nicht Mittelwert.
Anony-Mousse
Um zur nicht-negativen Einheitssphäre zu gelangen, müssen Sie nur +1 addieren und durch 2 teilen ...
Martin Thoma
34

Am besten beginnen Sie mit dem Buch Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum von Aggarwal, Hinneburg und Keim. Es gibt hier einen Link, der gerade funktioniert (pdf) , aber es sollte sehr gut für Google sein, wenn das nicht funktioniert . Kurz gesagt, mit zunehmender Anzahl von Dimensionen ändert sich der relative euklidische Abstand zwischen einem Punkt in einer Menge und seinem nächsten Nachbarn sowie zwischen diesem Punkt und seinem entferntesten Nachbarn auf nicht offensichtliche Weise. Ob sich dies negativ auf Ihre Ergebnisse auswirkt oder nicht, hängt in hohem Maße davon ab, was Sie erreichen möchten und wie Ihre Daten aussehen.

Klopfen
quelle
6

Euklidische Distanz ist im maschinellen Lernen sehr selten eine gute Distanz, und dies wird in höheren Dimensionen offensichtlicher. Dies liegt daran, dass Sie sich beim maschinellen Lernen die meiste Zeit nicht mit einem euklidischen, sondern mit einem probabilistischen metrischen Raum beschäftigen und daher probabilistische und informationstheoretische Distanzfunktionen verwenden sollten, z. B. entropiebasierte.

Menschen mögen den euklidischen Raum, weil er einfach zu konzipieren ist. Darüber hinaus ist er mathematisch einfach, da Linearitätseigenschaften bedeuten, dass wir lineare Algebra anwenden können. Wenn wir Entfernungen in Form von beispielsweise Kullback-Leibler-Divergenz definieren, ist es schwieriger, mathematisch zu visualisieren und damit zu arbeiten.

samthebest
quelle
2
Dies kann problematisch sein, da KL-Divergenz keine Metrik ist. :-)
agarie
2
Wenn man Symmetrie benötigt, kann man Gegenseitige Informationen verwenden, die, wie angedeutet, in Form von KL definiert werden können.
Samthebest
3

Stellen Sie sich als Analogie einen am Ursprung zentrierten Kreis vor. Die Punkte werden gleichmäßig verteilt. Angenommen, ein zufällig ausgewählter Punkt liegt bei (x1, x2). Der euklidische Abstand vom Ursprung beträgt ((x1) ^ 2 + (x2) ^ 2) ^ 0,5

Stellen Sie sich nun Punkte vor, die gleichmäßig über eine Kugel verteilt sind. Derselbe Punkt (x1, x2) wird nun wahrscheinlich (x1, x2, x3) sein. Da bei einer gleichmäßigen Verteilung nur wenige Punkte eine der Koordinaten als Null haben, nehmen wir an, dass [x3! = 0] für unseren zufällig ausgewählten gleichmäßig verteilten Punkt gilt. Somit ist unser Zufallspunkt höchstwahrscheinlich (x1, x2, x3) und nicht (x1, x2, 0).

Dies hat folgende Auswirkung: Jeder zufällige Punkt befindet sich nun in einem Abstand von ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0,5 vom Ursprung der 3D-Kugel. Dieser Abstand ist größer als der für einen zufälligen Punkt in der Nähe des Ursprungs eines 2D-Kreises. Dieses Problem verstärkt sich in höheren Dimensionen. Aus diesem Grund wählen wir andere Metriken als euklidische Dimensionen, um mit höheren Dimensionen zu arbeiten.

EDIT: Es gibt ein Sprichwort , das ich jetzt erinnern: „ Der größte Teil der Masse eines höherdimensionalen Orange in der Haut ist, nicht der Zellstoff“, dass in höheren Dimensionen Sinn gleichmäßig verteilte Punkte sind mehr „in der Nähe“ (euklidische Distanz) die Grenze als der Ursprung.

Randnotiz: Der euklidische Abstand ist für Probleme in der realen Welt nicht ZU schlecht, da die Ungleichmäßigkeit gesegnet ist. Grundsätzlich besagt dies, dass Ihre Daten für reale Daten wahrscheinlich NICHT gleichmäßig im höherdimensionalen Raum verteilt werden, sondern wird eine kleine verkrustete Teilmenge des Raumes besetzen. Dies ist intuitiv sinnvoll: Wenn Sie 100 Größen über Menschen wie Größe, Gewicht usw. messen, ist eine gleichmäßige Verteilung über den Dimensionsraum einfach nicht sinnvoll, z. B. eine Person mit (Größe = 65 Zoll, Gewicht = 150 Pfund, avg_calorie_intake) = 4000) was in der realen Welt einfach nicht möglich ist.

Abhishek Divekar
quelle
Wenn sich zukünftige Leser für das Zitat "Orange / Fruchtfleisch" oder die Bemerkung "Segen der Ungleichmäßigkeit" interessieren, werden beide in "Ein paar nützliche Dinge zum Erlernen des maschinellen Lernens" aufgeführt, auf die ich in meiner Antwort verwiesen habe Faden.
Sycorax
1

Eine weitere Facette dieser Frage ist die folgende:

Sehr oft sind hohe Dimensionen bei (maschinell lernenden / statistischen) Problemen das Ergebnis von übermäßig eingeschränkten Funktionen.

Das heißt, die Dimensionen sind NICHT unabhängig (oder nicht korreliert), aber die euklidischen Metriken gehen (zumindest) von einer Nicht-Korrelation aus und führen daher möglicherweise nicht zu den besten Ergebnissen

Um Ihre Frage zu beantworten, hängt die Anzahl der "hohen Dimensionen" davon ab, wie viele Funktionen voneinander abhängig, redundant oder überfordert sind

Zusätzlich: Es ist ein Theorem von Csiszar (et al.), Dass euklidische Metriken "natürliche" Inferenzkandidaten sind, wenn die Merkmale bestimmte Formen haben

Nikos M.
quelle
3
Euklidische Metriken gehen nicht von einer Entkorrelation aus. Euklidische Abstände funktionieren in hohen Dimensionen mit nicht korrelierten Variablen am schlechtesten. Betrachten Sie den Extremfall: Sie haben sehr viele Dimensionen, die alle perfekt korreliert sind, r = 1, jetzt sind Ihre Daten tatsächlich eindimensional, und der euklidische Abstand funktioniert gut mit eindimensionalen Daten.
gung
Nein, ich glaube nicht, die euklidische Distanz geht per Definition von nicht korrelierten Daten aus (außer bei Verwendung einer verallgemeinerten euklidischen Distanz mit Korrelationsmatrix)
Nikos M.
Features mit totaler Korrelation (r = 1) sind ein triviales Beispiel und äquivalent zu einer "trivialen Korrelationsmatrix", aber vielleicht irre ich mich
Nikos M.
@gung Sie können einen euklidischen Verlust als einen Kreuzentropieverlust von Gaußschen mit einer festen Einheit der isotropen Varianzmatrix interpretieren. Ich denke, das ist ein guter Punkt, aber es könnte besser erklärt werden.
Neil G
1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02
0

Dieses Papier können Ihnen helfen, zu „Verbessern sqrt-Kosinusähnlichkeit Messung“ besuchen https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Dieses Papier erklärt , warum euklidischer Abstand nicht eine gute Metrik in hohem Dimensions ist data und was ist der beste Ersatz für euclidean distance in high dimensional data. Der euklidische Abstand ist die L2-Norm. Indem wir den Wert von k in der Lk-Norm verringern, können wir das Problem des Abstands in hochdimensionalen Daten verringern. Sie finden die Referenzen auch in diesem Artikel.

Sahar
quelle
2
Willkommen auf der Seite. Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Aus diesem Grund sind wir aufgrund von Linkrot vorsichtig, wenn nur Links beantwortet werden. Kannst du ein vollständiges Zitat und eine Zusammenfassung der Informationen unter dem Link posten, falls sie tot sind?
Gung