Gleichbedeutend damit , dass es für eine Ähnlichkeitsrangfolge zwischen einem Vektor u und einer Menge von Vektoren V zu gleichen Ergebnissen kommt .
Ich habe ein Vektorraummodell, dessen Parameter Distanzmessung (euklidische Distanz, Kosinusähnlichkeit) und Normalisierungstechnik (keine, l1, l2) sind. Nach meinem Verständnis sollten die Ergebnisse der Einstellungen [cosine, none] identisch oder zumindest wirklich sehr ähnlich zu [euclidean, l2] sein, aber sie sind es nicht.
Es besteht tatsächlich eine gute Chance, dass das System immer noch fehlerhaft ist - oder habe ich etwas Kritisches an Vektoren?
edit: Ich habe vergessen zu erwähnen, dass die Vektoren auf Wortzählungen aus Dokumenten in einem Korpus basieren. Bei einem Abfragedokument (das ich auch in einen Wortzählvektor umwandle) möchte ich das Dokument aus meinem Korpus finden, das ihm am ähnlichsten ist.
Die Berechnung des euklidischen Abstands ist ein einfaches Maß, aber bei der Art der Aufgabe, mit der ich arbeite, wird die Kosinusähnlichkeit häufig als Ähnlichkeitsindikator bevorzugt, da Vektoren, die sich nur in der Länge unterscheiden, immer noch als gleich angesehen werden. Das Dokument mit der geringsten Entfernung / Cosinus-Ähnlichkeit wird als das ähnlichste angesehen.
Antworten:
Für -normalisierte Vektoren x , y , | | x | | 2 = | | y | | 2 = 1 , wir haben, dass der quadratische euklidische Abstand proportional zum Kosinusabstand ist , | | x - y | | 2 2ℓ2 x , y
quelle
quelle