Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?

8

Ich beschäftige mich eingehender mit der kollaborativen Filterung. Ein wirklich interessantes Papier ist "Eine vergleichende Studie über kollaborative Filteralgorithmen" http://arxiv.org/pdf/1205.3193.pdf

Um auszuwählen, welcher CF-Algorithmus verwendet werden soll, bezieht sich das Papier auf die Dichte des Datensatzes. Es wird nicht erklärt, wie Sie die Dichte Ihres Datensatzes tatsächlich berechnen.

Kann mir im Zusammenhang mit dem obigen Artikel jemand helfen, mir zu erklären, wie ich die Dichte eines Datensatzes berechnen würde? Das Papier bezieht sich regelmäßig auf die Dichte im Bereich von 1 bis 5%.

Djones
quelle

Antworten:

7

Es ist tatsächlich auf der ersten Seite definiert:

... Sparsity Level (Verhältnis von beobachteten zu Gesamtbewertungen) ...

Mit anderen Worten, der Bruchteil der Benutzer- / Artikelbewertungsmatrix, der nicht leer ist. Denken Sie daran, dass das Problem darin besteht, dass die meisten Benutzer-Artikel-Paare keine Bewertung haben und wir sie schätzen möchten.

Beispiel :

Es sollen drei Benutzer und vier Produkte sein. Die Anzahl der möglichen Bewertungen beträgt3×4=12. Wenn jeder Benutzer jeweils nur ein Produkt bewertet (unabhängig davon, welches Produkt), beträgt die Dichte 3/12 = 25%.

Emre
quelle
1
Angesichts dieser einfachen Beispieldaten: Benutzer 1 bewertet Produkt A. Benutzer 2 bewertet Produkt B. Benutzer 3 bewertet Produkt A. Produkt C und Produkt D werden ohne Bewertungen beendet. Wie hoch wäre die Dichte? 50%?
Djones
1
Es gibt drei Benutzer (1,2,3) und vier Produkte (A, B, C, D). Es gibt drei Bewertungen (1A, 2B, 3A), daher beträgt die Dichte 3/12 = 25%.
Emre
1
@Emre Sie sollten dieses Beispiel in Ihre Antwort einfügen.
Martin Thoma
Ich mag die Antwort hier wirklich, aber. Genauer gesagt sind Sparsity und Dichte ein Bruchteil der nicht gefüllten Bewertungen bzw. der gefüllten Bewertungen. Sie können nicht austauschbar behandelt werden. Dichte + Sparsity sollten jedoch zu 1,0 führen. Ich weiß, dass aufgrund der Definition aus dem Artikel @Emre die gute Antwort gegeben hat. Die Definition von Sparsity als tatsächliche Dichte ist jedoch irreführend.
Bartłomiej Twardowski
Ich stimme zu, aber so haben sie es definiert, und es ist üblich.
Emre