Ich arbeite gerade mit dem Buch Collective Intelligence (von Toby Segaran) und bin auf die euklidische Distanz-Bewertung gestoßen. In dem Buch zeigt der Autor, wie die Ähnlichkeit zwischen zwei Empfehlungsarrays (dh berechnet wird .
Er berechnet den euklidischen Abstand für zwei Personen und p 2 durch d ( p 1 , p 2 ) = √
Das macht für mich völlig Sinn. Was ich nicht wirklich verstehe, ist, warum er am Ende Folgendes berechnet, um eine "entfernungsbasierte Ähnlichkeit" zu erhalten:
Ich verstehe also irgendwie, dass dies die Umwandlung von einer Entfernung in eine Ähnlichkeit sein muss (oder?). Aber warum sieht das Formular so aus? Kann das jemand erklären?
distance-functions
similarities
navige
quelle
quelle
Antworten:
Die Umkehrung besteht darin, von Abstand zu Ähnlichkeit zu wechseln.
Die 1 im Nenner soll es so machen, dass der maximale Wert 1 ist (wenn der Abstand 0 ist).
Die Quadratwurzel - da bin ich mir nicht sicher. Wenn der Abstand normalerweise größer als 1 ist, macht die Wurzel große Abstände weniger wichtig. Wenn der Abstand kleiner als 1 ist, werden große Abstände wichtiger.
quelle
Um den Abstand und die Ähnlichkeit (im semantischen Sinne) zu messen, müssen Sie zunächst prüfen, ob Sie sich in einem euklidischen Raum bewegen oder nicht. Eine empirische Möglichkeit, dies zu überprüfen, besteht darin, den Abstand eines Wertepaares zu schätzen, für das Sie die Bedeutung kennen.
quelle
Wie Sie bereits erwähnt haben, kennen Sie die Berechnung der Euklidenzdistanz, also erkläre ich die zweite Formel.
Die euklidische Formel berechnet den Abstand, der für Personen oder Gegenstände, die ähnlicher sind, kleiner ist. Wenn sie gleich sind, ist der Abstand 0 und völlig anders als höher als 0.
Wir brauchen jedoch eine Funktion, deren höherer Wert ähnlich ist. Dies kann erreicht werden, indem der Funktion eine 1 hinzugefügt wird (damit Sie keinen Fehler durch Division durch Null erhalten) und diese invertiert wird. Wie wenn Distanz 0 und Ähnlichkeit 1/1 = 1 sind
quelle