Benchmark-Datensätze für die kollaborative Filterung

9

Ich möchte einen neuen Algorithmus für die kollaborative Filterung testen . Ein typischer Anwendungsfall besteht darin, Filme zu empfehlen, die auf den Vorlieben von Benutzern basieren, die dem jeweiligen Benutzer ähnlich sind.

Welche gängigen Benchmark-Datensätze verwenden Forscher häufig, um ihre Algorithmen zu testen? Ich weiß, dass in Computer Vision häufig MNIST oder CIFAR verwendet werden, aber ich habe keine ähnlichen Datensätze für die kollaborative Filterung gefunden.

pir
quelle
1
Haben Sie sich den Netflix-Preisdatensatz angesehen? Ja, der Wettbewerb ist längst vorbei und wurde aus Datenschutzgründen von der offiziellen Website gestrichen. Sie können immer noch versuchen, es an anderen Orten zu finden.
Vladislavs Dovgalecs
Kaggle.com hat eine Menge. Suchen Sie einfach nach "Empfehlung in: Datensatz" oder "Empfehlung in: Wettbewerb".
ran8

Antworten:

8

Die offensichtliche Antwort wäre der Netflix-Preisdatensatz, es wird viel recherchiert und die meisten CF-Algorithmen haben bekannte Ergebnisse.

Es gibt andere verfügbare Datensätze, die normalerweise als Benchmark verwendet werden:

  • Movie Lens Dataset : Ein Datensatz mit 20 Millionen Bewertungen, der zum Benchmarking von CF-Algorithmen verwendet wird.

  • Jester Dataset : Ein Witzempfehlungsdatensatz mit mehr als 6 Millionen Bewertungen;

  • Unter diesem Link finden Sie viele weitere Datensätze

João Almeida
quelle
1

Ich habe ein Repository, das Ihnen helfen könnte.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

Arthur Fortes
quelle
3
Bitte posten Sie keine Nur-Link-Antworten. Die Antworten sollten in sich geschlossen sein. Ich empfehle, Ihre Antwort zu bearbeiten, um mindestens einige der Informationen hinzuzufügen, die der Link enthält, und dann den Link für die weitere Untersuchung bereitzustellen.
Mephy