Es ist sehr häufig, dass wir Benutzerproduktdaten haben, die als "Klick" gekennzeichnet sind. Um das Modell zu lernen, benötige ich Klick- und No-Click-Daten.
Der einfachste Ansatz zum Generieren besteht darin, Benutzer-Produkt-Paare zu verwenden, die nicht in Klickdaten enthalten sind. Dies kann jedoch irreführend sein. Beispiel:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Ich kann Benutzer1 mit allen Produkten außer Produkt1 nehmen und sie als "no_click" usw. kennzeichnen. Dies kann jedoch nicht wahr sein. Vielleicht hätte Benutzer1 auf Produkt2 geklickt, wenn ihm Produkt2 gezeigt worden wäre. Aber nur weil ihm andere Produktgruppen gezeigt wurden, hatte er keine Gelegenheit, sich für ein Klick- / No-Click-Produkt zu entscheiden2.
Wie kann man also ein Problem mit unären Daten lösen?
quelle
Antworten:
Es gibt also zwei Probleme.
Für (1) sollten Sie diese Informationen aufzeichnen. Wenn es gerade nicht aufgezeichnet wird, sollten Sie mit der Aufzeichnung dieser Informationen beginnen. Da Sie nicht über diese Informationen verfügen, möchten Sie Empfehlungen geben. Glücklicherweise können Sie mit nur Klickdaten immer noch eine Dienstprogrammmatrix erstellen (siehe 9.1.1).
http://i.stanford.edu/~ullman/mmds/ch9.pdf
Sie können dann die benutzer- oder artikelbasierte kollaborative Filterung verwenden, wie im Dokument beschrieben. Dies ist im Grunde eine Übung zum Auffüllen der Utility-Matrix und zum Versuch, "Punktzahlen" für nicht angeklickte Elemente zu finden. Ihre Empfehlung wäre ein nicht angeklicktes Element mit der höchsten Punktzahl.
Für (2) geben Sie weiterhin Empfehlungen zu nicht angeklickten Elementen. Das allein ist also kein Problem. Sie sollten jedoch Ihre Impressionen optimieren. Sie können auch nicht vollständig wissen, wo ein Benutzer alle möglichen Optionen sehen kann. Sie müssen Eindrücke aufzeichnen und eine Reihe von Dingen verstehen.
Dies ist ein großes Thema und im Grunde ist dies die Problemdomäne der Online-Werbung. Eine Empfehlungs-Engine versucht jedoch, interessante Elemente im Long Tail zu finden, was sich ein wenig von der Anzeigenoptimierung unterscheidet. Dies ist eine Rückkopplungsschleife, um Ihre Empfehlung zu bewerten. A / B-Tests sind üblich. Sie möchten Klickraten und Empfehlungsfehler zwischen Ihrem aktuellen System und dem neuen System testen.
Siehe auch hier.
http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf
http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
quelle