oderMetriken für Clustering?

14

Verwendet jemand die Metriken L1 oder L.5 für das Clustering und nicht L2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben
Aggarwal et al. (2001) an, dass

L1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik L2

und behauptete, dass oder noch besser kann.L.5L.1

Gründe für die Verwendung von oder können theoretische oder experimentelle Gründe sein, z. B. Empfindlichkeit gegenüber Ausreißern / Kabáns Papieren oder Programme, die auf realen oder synthetischen Daten basieren (bitte reproduzierbar). Ein Beispiel oder ein Bild würde der Intuition meines Laien helfen.L1L.5

Diese Frage ist eine Fortsetzung von Bob Durrants Antwort auf die Frage, wann der nächste Nachbar heute eine Bedeutung hat . Wie er sagt, wird die Wahl von sowohl daten- als auch anwendungsabhängig sein; Berichte über echte Erfahrungen wären jedoch hilfreich.p


Anmerkungen hinzugefügt Dienstag, 7. Juni:

Ich bin auf "Statistische Datenanalyse basierend auf der L1-Norm und verwandten Methoden" gestoßen, Dodge ed., 2002, 454p, isbn 3764369205 - Dutzende von Konferenzbeiträgen.

Kann jemand die Entfernungskonzentration auf exponentielle Merkmale untersuchen? Ein Grund für Exponentiale ist, dass ; eine andere (nicht fachkundige) ist, dass es sich um die Max-Entropie-Verteilung 0 handelt; Ein Drittel ist, dass einige reale Datensätze, insbesondere SIFTs, ungefähr exponentiell aussehen.|expexp|exp

denis
quelle
Es ist wichtig zu erwähnen, dass Aggarwal et al. In diesem speziellen Artikel wurde nach dem Verhalten der -Normen bei Problemen wie Clustering, nächster Nachbar und Indexierung gesucht . Lp
deps_stats
Sie meinten wahrscheinlich Metriken für die Sequenzen und nicht L p für Funktionen? Wenn es meiner Meinung nach ein Optimierungskriterium gibt, könnte das Problem gelöst werden, indem man es optimiert. Faustregel bezieht sich normalerweise auf die genaue Lösung von solchen. Versuchen Sie auf jeden Fall, über die Eigenschaften der bekannten Lösung nachzudenken. Nachdem ich die Artikel gelesen habe, könnte ich wahrscheinlich noch etwas mehr zum Thema sagen. lpLp
Dmitrij Celov
@deps_stats, ja, danke; änderte den Titel und die erste Zeile. @Dmitrij, 1) Ja, little-l ist genau genommen korrekt, big-L ist jedoch üblich und verständlich. 2) Ja, man kann ein optimales p für ein gegebenes Problem finden, aber was ist Ihre erste Wahl und warum?
Denis

Antworten:

6

Der Schlüssel hier ist das Verstehen des "Fluches der Dimensionalität", auf den sich das Papier bezieht. Aus Wikipedia: Wenn die Anzahl der Dimensionen sehr groß ist,

Fast der gesamte hochdimensionale Raum ist "weit vom Zentrum entfernt", oder anders ausgedrückt, der hochdimensionale Einheitsraum besteht fast ausschließlich aus den "Ecken" des Hyperwürfels, mit fast keiner "Mitte"

Infolgedessen wird es schwierig, darüber nachzudenken, welche Punkte in der Nähe welcher anderen Punkte liegen, weil sie alle ungefähr gleich weit voneinander entfernt sind. Dies ist das Problem im ersten Artikel, zu dem Sie einen Link erstellt haben.

Das Problem mit hohem p ist, dass es die größeren Werte betont - fünf Quadrat und vier Quadrat sind neun Einheiten voneinander entfernt, aber ein Quadrat und zwei Quadrat sind nur drei Einheiten voneinander entfernt. So dominieren die größeren Dimensionen (Dinge in den Ecken) alles und man verliert den Kontrast. Dieses Aufblasen großer Entfernungen möchten Sie also vermeiden. Bei einem gebrochenen p liegt die Betonung auf Unterschieden in den kleineren Dimensionen - Dimensionen, die tatsächlich Zwischenwerte aufweisen -, wodurch Sie mehr Kontrast erhalten.

David J. Harris
quelle
(+1) @David, gibt es im Allgemeinen ein Kriterium, das die Kontrastqualität beschreibt?
Dmitrij Celov
Wie es aussieht, schlägt das erste Papier, das Sie verlinkt haben, den maximalen Abstand minus den minimalen Abstand vor. Es könnte jedoch bessere Wege geben.
David J. Harris
gute klare Intuition, +1 (obwohl nicht klar ist, wo die Ecken in Abstandsverteilungen liegen). Haben Sie oder L .5 für echte Daten verwendet? L1L.5
Denis
1
@Denis Danke! Ich denke, dass das Eckenbit am sinnvollsten ist, wenn die Daten innerste oder alle Dimensionen begrenzt sind. Wie auch immer, ich fürchte, ich habe nicht genug Erfahrung mit Clustering, um eine gute Vorstellung von verschiedenen Metriken für Sie zu haben. So ärgerlich es ist, der beste Ansatz könnte sein, ein paar zu probieren und zu sehen, was passiert
David J. Harris
1

Es gibt eine Arbeit mit der Lp-Metrik mit p zwischen 1 und 5, die Sie sich ansehen möchten:

Amorim, RC und Mirkin, B., Minkowski-Metrik, Merkmalsgewichtung und anomale Clusterinitialisierung beim K-Means-Clustering, Pattern Recognition, vol. 45 (3), S. 1061–1075, 2012

Download, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf

Homer Simpson
quelle
0

Ich weiß nicht, ob es sich bei Ihrem um ein Inferenzproblem handelt. Wenn das Problem darin besteht, unter bestimmten Bedingungen (die eine geschlossene konvexe Menge definieren sollten) einen Vektor aus abzuleiten, wenn vorher angenommen wird, dass u vorliegt, wird der Vektor durch Minimieren der 2 -Distanz von u über die Bedingungsmenge abgeleitet (wenn Das Priorum u wird dann nicht nur durch Minimieren der 2 -Norm gegeben. Das obige Prinzip ist in diesem Artikel unter bestimmten Umständen als richtig zu bezeichnen: http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rnu2uu2

Ashok
quelle
L2L1L.5