Ich möchte einen neuen Algorithmus für die kollaborative Filterung testen . Ein typischer Anwendungsfall besteht darin, Filme zu empfehlen, die auf den Vorlieben von Benutzern basieren, die dem jeweiligen Benutzer ähnlich sind.
Welche gängigen Benchmark-Datensätze verwenden Forscher häufig, um ihre Algorithmen zu testen? Ich weiß, dass in Computer Vision häufig MNIST oder CIFAR verwendet werden, aber ich habe keine ähnlichen Datensätze für die kollaborative Filterung gefunden.
Antworten:
Die offensichtliche Antwort wäre der Netflix-Preisdatensatz, es wird viel recherchiert und die meisten CF-Algorithmen haben bekannte Ergebnisse.
Es gibt andere verfügbare Datensätze, die normalerweise als Benchmark verwendet werden:
Movie Lens Dataset : Ein Datensatz mit 20 Millionen Bewertungen, der zum Benchmarking von CF-Algorithmen verwendet wird.
Jester Dataset : Ein Witzempfehlungsdatensatz mit mehr als 6 Millionen Bewertungen;
Unter diesem Link finden Sie viele weitere Datensätze
quelle
Ich habe ein Repository, das Ihnen helfen könnte.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
quelle