Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?

Es ist tatsächlich auf der ersten Seite definiert:

... Sparsity Level (Verhältnis von beobachteten zu Gesamtbewertungen) ...

Mit anderen Worten, der Bruchteil der Benutzer- / Artikelbewertungsmatrix, der nicht leer ist. Denken Sie daran, dass das Problem darin besteht, dass die meisten Benutzer-Artikel-Paare keine Bewertung haben und wir sie schätzen möchten.

Beispiel :

Es sollen drei Benutzer und vier Produkte sein. Die Anzahl der möglichen Bewertungen beträgt $3\times4 = 12$ . Wenn jeder Benutzer jeweils nur ein Produkt bewertet (unabhängig davon, welches Produkt), beträgt die Dichte 3/12 = 25%.

Emre
quelle

Angesichts dieser einfachen Beispieldaten: Benutzer 1 bewertet Produkt A. Benutzer 2 bewertet Produkt B. Benutzer 3 bewertet Produkt A. Produkt C und Produkt D werden ohne Bewertungen beendet. Wie hoch wäre die Dichte? 50%?

Djones

Es gibt drei Benutzer (1,2,3) und vier Produkte (A, B, C, D). Es gibt drei Bewertungen (1A, 2B, 3A), daher beträgt die Dichte 3/12 = 25%.

Emre

@Emre Sie sollten dieses Beispiel in Ihre Antwort einfügen.

Martin Thoma

Ich mag die Antwort hier wirklich, aber. Genauer gesagt sind Sparsity und Dichte ein Bruchteil der nicht gefüllten Bewertungen bzw. der gefüllten Bewertungen. Sie können nicht austauschbar behandelt werden. Dichte + Sparsity sollten jedoch zu 1,0 führen. Ich weiß, dass aufgrund der Definition aus dem Artikel @Emre die gute Antwort gegeben hat. Die Definition von Sparsity als tatsächliche Dichte ist jedoch irreführend.

Bartłomiej Twardowski

Ich stimme zu, aber so haben sie es definiert, und es ist üblich.

Emre

Wie berechnen Sie, wie dicht oder dünn ein Datensatz ist?

Antworten: