Ein Bewertungssystem gewichten, um Artikel zu bevorzugen, die von mehr Personen hoch bewertet wurden, gegenüber Artikeln, die von weniger Personen hoch bewertet wurden?

9

Vielen Dank im Voraus, dass Sie sich mit mir in Verbindung gesetzt haben. Ich bin kein Statistiker und weiß nicht, wie ich beschreiben soll, was ich mir vorstelle. Google hilft mir hier also nicht weiter ...

Ich füge ein Bewertungssystem in eine Webanwendung ein, an der ich arbeite. Jeder Benutzer kann jeden Artikel genau einmal bewerten.

Ich stellte mir eine Skala mit 4 Werten vor: "stark nicht mögen", "nicht mögen", "mögen" und "stark mögen", und ich hatte geplant, diese Werte von -5, -2, +2 bzw. +5 zuzuweisen .

Wenn nun jeder Artikel die gleiche Anzahl von Bewertungen haben würde, wäre ich mit diesem Bewertungssystem sehr zufrieden, da ich die beliebtesten und die am wenigsten beliebten Artikel klar unterscheide. Die Elemente haben jedoch nicht die gleiche Anzahl von Bewertungen, und die Unterschiede zwischen der Anzahl der Stimmen auf verschiedenen Fotos können sehr dramatisch sein.

In diesem Fall bedeutet der Vergleich der kumulativen Bewertungen für zwei Elemente, dass ein altes Element mit vielen mittelmäßigen Bewertungen eine viel höhere Bewertung aufweist als ein außergewöhnliches neues Element mit viel weniger Stimmen.

Das erste offensichtliche, was ich von uns dachte, ist ein Durchschnitt ... aber wenn ein Artikel nur eine Bewertung von "+5" hat, hat er einen besseren Durchschnitt als ein Artikel mit einer Bewertung von 99 "+5" und 1 "+2" Bewertung. Intuitiv ist dies keine genaue Darstellung der Beliebtheit eines Artikels.

Ich stelle mir vor, dass dieses Problem häufig auftritt, und ich brauche es nicht, um es mit weiteren Beispielen zu erläutern. Deshalb werde ich an dieser Stelle aufhören und bei Bedarf Kommentare ausarbeiten.

Meine Fragen sind:

  1. Wie heißt diese Art von Problem und gibt es einen Begriff für die Techniken, mit denen es gelöst wird? Ich würde das gerne wissen, damit ich es nachlesen kann.
  2. Wenn Sie Laien zu diesem Thema kennen, würde ich mich über einen Link sehr freuen.
  3. Schließlich würde ich mich über weitere Vorschläge zur effektiven Erfassung und Analyse dieser Art von Daten freuen.
Andrew
quelle

Antworten:

14

Eine Möglichkeit, dem entgegenzuwirken, besteht darin, Proportionen in jeder Kategorie zu verwenden, sodass Sie nicht für jede Kategorie Zahlen eingeben müssen (Sie können 80% als "stark gefällt" bewerten). Die Proportionen leiden jedoch unter der geringen Anzahl von Ratings . Dies zeigt in Ihrem Beispiel, dass das Foto mit der Bewertung 1 +5 eine höhere durchschnittliche Punktzahl (und einen höheren Anteil) erhalten würde als eines mit der Bewertung 99 +5 und 1 +2. Das passt nicht gut zu meiner Intuition (und ich vermute die meisten Leute).

Eine Möglichkeit, dieses Problem mit der kleinen Stichprobengröße zu umgehen, ist die Verwendung einer Bayes'schen Technik, die als " Laplace-Nachfolge-Regel " bekannt ist (die Suche nach diesem Begriff kann nützlich sein). Es geht einfach darum, jeder Kategorie 1 "Beobachtung" hinzuzufügen, bevor die Wahrscheinlichkeiten berechnet werden. Wenn Sie einen Durchschnitt für einen numerischen Wert verwenden möchten, würde ich einen gewichteten Durchschnitt vorschlagen, bei dem die Gewichte die nach der Sukzessionsregel berechneten Wahrscheinlichkeiten sind.

Für die mathematische Form bezeichnen die Anzahl der Antworten von "stark nicht mögen", "nicht mögen", "mögen" bzw. "stark mögen" (In den beiden Beispielen ist und ). Sie berechnen dann die Wahrscheinlichkeit (oder das Gewicht) für stark wiensd,nd,nl,nslnsl=1,nsd=nd=nl=0nsl=99,nl=1,nsd=nd=0

Pr("Strongly Like")=nsl+1nsd+nd+nl+nsl+4

Für die beiden von Ihnen angegebenen Beispiele geben sie Wahrscheinlichkeiten von "stark ähnlich" als und was meiner Meinung nach dem "gesunden Menschenverstand" besser entspricht. Das Entfernen der hinzugefügten Konstanten ergibt und , wodurch das erste Ergebnis höher erscheint als es sein sollte (zumindest für mich).1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

Die jeweiligen Bewertungen werden nur durch den gewichteten Durchschnitt angegeben, den ich unten geschrieben habe als:

Score=5nsl+1nsd+nd+nl+nsl+4+2nl+1nsd+nd+nl+nsl+42nd+1nsd+nd+nl+nsl+45nsd+1nsd+nd+nl+nsl+4

Oder prägnanter als

Score=5nsl+2nl2nd5nsdnsd+nd+nl+nsl+4

Dies ergibt Punktzahlen in den beiden Beispielen von und . Ich denke, dies zeigt einen angemessenen Unterschied zwischen den beiden Fällen.49755=14971044.8

Dies war vielleicht ein bisschen "mathsy", also lassen Sie mich wissen, wenn Sie weitere Erklärungen benötigen.

Wahrscheinlichkeitslogik
quelle
Das war ein bisschen "matschig" für mich und anfangs verstand ich die Formel nicht, aber ich las sie ungefähr dreimal sorgfältig und es klickte! Dies ist genau das , wonach ich gesucht habe, und Ihre Erklärung war sehr klar, selbst für jemanden, der überhaupt kein Mathematiker oder Statistiker ist. Vielen Dank!
Andrew
2
Sehr nette nicht-technische Antwort und ein Ansatz, an den ich nicht gedacht hätte. Ich möchte nur hinzufügen, dass es möglich ist, jeder Kategorie eine beliebige Anzahl gefälschter 'Beobachtungen' anstelle von 1 hinzuzufügen, einschließlich nicht ganzzahliger Zahlen. Auf diese Weise können Sie flexibel entscheiden, um wie viel Sie die Punktzahl von Elementen mit wenigen Stimmen auf Null verkleinern möchten. Und wenn Sie eine technisch klingende Beschreibung dieser Methode wünschen, können Sie sagen, dass Sie eine Bayes'sche Analyse von Daten aus einer Multinomialverteilung mit einem symmetrischen Dirichlet durchführen.
Onestop
1
Während sie wie "gefälschte" Beobachtungen erscheinen mögen, haben sie eine genau definierte Bedeutung, wenn sie +1 ist (im Gegensatz zu +2 oder höher, bei denen es sich tatsächlich um "gefälschte" Zahlen oder Zahlen aus einer früheren Datenerfassung handelt). Es beschreibt im Wesentlichen einen Stand des Wissens , dass es möglich für jede Kategorie für abgestimmt werden soll, vor , um alle Daten zu beobachten. Genau das macht die Wohnung vor dem (N-1) Simplex.
Wahrscheinlichkeitslogik
Noch eine Beobachtung für zukünftige Leute, die diesen Beitrag finden: Bei der Implementierung in meinem Modell habe ich die endgültige Punktzahl genommen und mit 20 multipliziert, was einen Bereich von -100 bis 100 von der schlechtesten bis zur bestmöglichen Punktzahl ergibt (obwohl ich technisch diese nehme sind Grenzen, die man nie ganz erreichen kann, aber man kommt auf die Idee). Dies macht die Ausgabe für Benutzer in meiner App sehr intuitiv!
Andrew
@probabilityislogic: Sicherlich beschreiben streng positive Parameter für den Dirichlet-Prior, dass alle Wahrscheinlichkeiten streng zwischen 0 und 1 liegen? Und dieses Argument schlägt vor, sie auf 2 / m zu setzen, wobei m die Anzahl der Kategorien ist und nicht 1: en.wikipedia.org/wiki/…
onestop
2

Ich würde einen grafischen Ansatz verfolgen. Die x-Achse könnte eine durchschnittliche Bewertung sein und das y könnte eine Anzahl von Bewertungen sein. Ich habe dies mit Sportstatistiken gemacht, um den Beitrag junger Phänomene mit dem von Veteranenstars zu vergleichen. Je näher ein Punkt an der oberen rechten Ecke liegt, desto näher am Ideal. Natürlich wäre die Entscheidung für den "besten" Gegenstand immer noch eine subjektive Entscheidung, aber dies würde eine gewisse Struktur bieten.

Wenn Sie die durchschnittliche Bewertung gegen eine andere Variable zeichnen möchten, können Sie die Anzahl der Bewertungen als dritte Variable mithilfe der Blasengröße in einem Blasendiagramm festlegen, z. B. in XL oder SAS.

rolando2
quelle