Ich habe eine Gruppe von n Mengen, für die ich eine Art "Eindeutigkeit" oder "Ähnlichkeit" -Wert berechnen muss. Ich habe mich für den Jaccard-Index als geeignete Metrik entschieden. Leider arbeitet der Jaccard-Index nur mit zwei Sätzen gleichzeitig. Um die Ähnlichkeit zwischen allen Sätzen zu berechnen , werden Jaccard-Berechnungen benötigt.
(Wenn es hilft, liegt normalerweise zwischen 10 und 10000, und jede Menge enthält durchschnittlich 500 Elemente. Letztendlich ist es mir auch egal, wie ähnlich zwei spezifische Mengen sind - es ist mir vielmehr nur wichtig, was die interne Ähnlichkeit ist der gesamten Gruppe von Mengen ist. (Mit anderen Worten, der Mittelwert (oder zumindest eine ausreichend genaue Annäherung an den Mittelwert) aller Jaccard-Indizes in der Gruppe)
Zwei Fragen:
- Gibt es eine Möglichkeit, den Jaccard-Index weiterhin ohne die Komplexität von ?
- Gibt es eine bessere Methode zur Berechnung der Ähnlichkeit / Eindeutigkeit von Mengen für eine Gruppe von Mengen als die oben vorgeschlagene?
quelle
Antworten:
Eine Option wäre die Verwendung des Signaturschemas von [1], der größenbasierten Filterung : Ein Schema, das Größeninformationen verwendet, um die Anzahl der zu berücksichtigenden Gruppenpaare zu verringern.
Sie experimentieren auch mit einer gewichteten Form; bei Gewichten auf IDF-Basis.
[1] Arasu, Arvind, Venkatesh Ganti und Raghav Kaushik. "Efficient Exact Set-Similarity Joins". In Proceedings of the 32. International Conference on Very Large Data Bases, 918–929. VLDB '06. VLDB-Stiftung, 2006
quelle
Eine andere Möglichkeit wäre die Verwendung eines Wiki-Links für lokales Sensitivity-Hashing . Ich habe gesehen, wie es bei der Community-Ähnlichkeitserkennung von Wu und Zou ( eine inkrementelle Community-Erkennungsmethode für Social-Tagging-Systeme unter Verwendung von lokalitätssensitivem Hashing , Neural Networks 58: 14–28; ACM DL ) verwendet wird, bei der Ähnlichkeit zwischen Ganzzahlen oder Zahlen erkannt wird Saitensätze.
quelle