Verwendet jemand die Metriken oder für das Clustering und nicht ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum
gaben
Aggarwal et al.
(2001) an, dass
istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik
und behauptete, dass oder noch besser kann.
Gründe für die Verwendung von oder können theoretische oder experimentelle Gründe sein, z. B. Empfindlichkeit gegenüber Ausreißern / Kabáns Papieren oder Programme, die auf realen oder synthetischen Daten basieren (bitte reproduzierbar). Ein Beispiel oder ein Bild würde der Intuition meines Laien helfen.
Diese Frage ist eine Fortsetzung von Bob Durrants Antwort auf die Frage, wann der nächste Nachbar heute eine Bedeutung hat . Wie er sagt, wird die Wahl von sowohl daten- als auch anwendungsabhängig sein; Berichte über echte Erfahrungen wären jedoch hilfreich.
Anmerkungen hinzugefügt Dienstag, 7. Juni:
Ich bin auf "Statistische Datenanalyse basierend auf der L1-Norm und verwandten Methoden" gestoßen, Dodge ed., 2002, 454p, isbn 3764369205 - Dutzende von Konferenzbeiträgen.
Kann jemand die Entfernungskonzentration auf exponentielle Merkmale untersuchen? Ein Grund für Exponentiale ist, dass ; eine andere (nicht fachkundige) ist, dass es sich um die Max-Entropie-Verteilung ≥ 0 handelt; Ein Drittel ist, dass einige reale Datensätze, insbesondere SIFTs, ungefähr exponentiell aussehen.
Antworten:
Der Schlüssel hier ist das Verstehen des "Fluches der Dimensionalität", auf den sich das Papier bezieht. Aus Wikipedia: Wenn die Anzahl der Dimensionen sehr groß ist,
Infolgedessen wird es schwierig, darüber nachzudenken, welche Punkte in der Nähe welcher anderen Punkte liegen, weil sie alle ungefähr gleich weit voneinander entfernt sind. Dies ist das Problem im ersten Artikel, zu dem Sie einen Link erstellt haben.
Das Problem mit hohem p ist, dass es die größeren Werte betont - fünf Quadrat und vier Quadrat sind neun Einheiten voneinander entfernt, aber ein Quadrat und zwei Quadrat sind nur drei Einheiten voneinander entfernt. So dominieren die größeren Dimensionen (Dinge in den Ecken) alles und man verliert den Kontrast. Dieses Aufblasen großer Entfernungen möchten Sie also vermeiden. Bei einem gebrochenen p liegt die Betonung auf Unterschieden in den kleineren Dimensionen - Dimensionen, die tatsächlich Zwischenwerte aufweisen -, wodurch Sie mehr Kontrast erhalten.
quelle
Es gibt eine Arbeit mit der Lp-Metrik mit p zwischen 1 und 5, die Sie sich ansehen möchten:
Amorim, RC und Mirkin, B., Minkowski-Metrik, Merkmalsgewichtung und anomale Clusterinitialisierung beim K-Means-Clustering, Pattern Recognition, vol. 45 (3), S. 1061–1075, 2012
Download, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf
quelle
Ich weiß nicht, ob es sich bei Ihrem um ein Inferenzproblem handelt. Wenn das Problem darin besteht, unter bestimmten Bedingungen (die eine geschlossene konvexe Menge definieren sollten) einen Vektor aus abzuleiten, wenn vorher angenommen wird, dass u vorliegt, wird der Vektor durch Minimieren der ℓ 2 -Distanz von u über die Bedingungsmenge abgeleitet (wenn Das Priorum u wird dann nicht nur durch Minimieren der ℓ 2 -Norm gegeben. Das obige Prinzip ist in diesem Artikel unter bestimmten Umständen als richtig zu bezeichnen: http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rn u ℓ2 u u ℓ2
quelle