Artikelbasierte und benutzerbasierte Empfehlungsunterschiede in Mahout

14

Ich würde gerne wissen, wie genau sich mahout benutzerbasierte und artikelbasierte Empfehlungen voneinander unterscheiden.

Es definiert das

Benutzerbasiert : Empfehlen Sie Artikel, indem Sie nach ähnlichen Benutzern suchen. Dies ist aufgrund der Dynamik der Benutzer oft schwieriger zu skalieren.

Artikelbasiert : Berechnen Sie die Ähnlichkeit zwischen Artikeln und geben Sie Empfehlungen ab. Elemente ändern sich normalerweise nicht viel, daher kann dies häufig offline berechnet werden.

Obwohl zwei Arten von Empfehlungen zur Verfügung stehen, wird meines Wissens nach für beide ein Datenmodell verwendet (z. B. 1,2 oder 1,2, .5 als item1, item2, value oder user1, user2, value, wobei value nicht ist obligatorisch) und führt alle Berechnungen als die von uns gewählte Ähnlichkeitsmaß- und Empfehlungsfunktion durch, und wir können sowohl benutzer- als auch artikelbasierte Empfehlungen mit denselben Daten ausführen (ist dies eine korrekte Annahme?).

Ich möchte also wissen, wie genau und in welchen Aspekten sich diese beiden Algorithmusarten unterscheiden.

Sreejithc321
quelle

Antworten:

11

Sie haben Recht, dass beide Modelle problemlos mit denselben Daten arbeiten. Beide Elemente arbeiten mit einer Matrix von Benutzerelementbewertungen.

Bei dem benutzerbasierten Ansatz erzeugt der Algorithmus eine Bewertung für einen Gegenstand idurch einen Benutzer, uindem die Bewertungen anderer Benutzer kombiniert werden u', die ähnlich sind u. Ähnlich bedeutet hier, dass die Bewertungen der beiden Benutzer eine hohe Pearson-Korrelation oder Kosinus-Ähnlichkeit oder etwas Ähnliches aufweisen.

Beim artikelbasierten Ansatz erstellen wir eine Bewertung für, iindem wir uns udie Menge der Artikel ansehen i', die ähnlich sind i(im gleichen Sinne wie oben, außer dass wir uns jetzt die Bewertungen ansehen würden, die Artikel von Benutzern erhalten haben), udie bewertet haben und kombiniert dann die Ratings von uvon i'zu einem vorhergesagten Rating von ufür i.

Der artikelbasierte Ansatz wurde bei Amazon ( http://dl.acm.org/citation.cfm?id=642471 ) erfunden , um die Skalierungsprobleme durch benutzerbasiertes Filtern zu lösen. Die Anzahl der Dinge, die sie verkaufen, ist immer weniger dynamisch als die Anzahl der Benutzer, sodass die Ähnlichkeiten zwischen Artikeln offline berechnet werden können und bei Bedarf darauf zugegriffen werden kann.

mrmcgreg
quelle
21

Artikelbasierter Algorithmus

for every item i that u has no preference for yet

  for every item j that u has a preference for

    compute a similarity s between i and j

    add u's preference for j, weighted by s, to a running average

 return the top items, ranked by weighted average

Benutzerbasierter Algorithmus

for every item i that u has no preference for yet

 for every other user v that has a preference for i

   compute a similarity s between u and v

   add v's preference for i, weighted by s, to a running average

 return the top items, ranked by weighted average

Item vs User based:

1) Die Empfehlung richtet sich nach der Anzahl der Elemente oder Benutzer, mit denen sie sich befassen müssen, sodass es Szenarien gibt, in denen jeder Typ eine bessere Leistung als der andere erzielen kann

2) Ähnlichkeitsschätzungen zwischen Elementen konvergieren mit der Zeit eher als Ähnlichkeiten zwischen Benutzern

3) Wir können konvergierende Ähnlichkeiten berechnen und zwischenspeichern, was artikelbasierten Empfehlern einen Leistungsvorteil verschafft

4) Artikelbasierte Empfehlungsgeber beginnen mit einer Liste der bevorzugten Artikel eines Benutzers und benötigen daher keine nächstgelegene Artikelumgebung wie benutzerbasierte Empfehlungsgeber

SRS
quelle
Faire Warnung: Links werden auf dieser Site nicht als Antworten akzeptiert. Ich empfehle das Bearbeiten oder Löschen, bevor Sie Abwertungen erhalten!
Sheldonkreger
1
höchstwahrscheinlich gibt es einen Tippfehler in "benutzerbasierten Algorithmus" - vierte Zeile sollte mit "add u Präferenz für i ..." beginnen
Bernardo Aflalo
@BernardoAflalo Ich glaube nicht, dass es ein Tippfehler ist, Sie bevorzugen alle v und nehmen dann einen gewichteten Durchschnitt
Oswald