Wenn ich ein Sternebewertungssystem habe, in dem Benutzer ihre Präferenz für ein Produkt oder einen Artikel ausdrücken können, wie kann ich statistisch feststellen, ob die Stimmen stark "geteilt" sind. Das heißt, selbst wenn der Durchschnitt für ein bestimmtes Produkt 3 von 5 ist, wie kann ich anhand der Daten feststellen, ob dies eine Aufteilung von 1 bis 5 im Vergleich zu einem Konsens 3 ist (keine grafischen Methoden)?
variance
average
dispersion
David Williams
quelle
quelle
Antworten:
Man könnte einen Polarisationsindex konstruieren; Wie genau man es definiert, hängt davon ab, was es bedeutet, polarisierter zu sein (dh was genau meinen Sie in bestimmten Randfällen mit mehr oder weniger polarisiert?):
Wenn der Mittelwert beispielsweise "4" ist, ist eine 50-50-Aufteilung zwischen "3" und "5" mehr oder weniger polarisiert als 25% "1" und 75% "5"?
Sowieso ohne diese Art der spezifischen Definition von, was Sie bedeuten, schlage ich ein Maß vor, das von der Abweichung basiert:
Definieren Sie bei einem bestimmten Mittelwert die möglichst polarisierte Aufteilung als diejenige, die die Varianz maximiert *.
* (Hinweis: 25% '1' und 75% '5' sind wesentlich mehr Split polarisieren als 50-50 von ‚3s und‘ 5 ist, und wenn das nicht verwenden Varianz nicht Ihre Intuition entspricht)
Dieser Polarisationsindex ist also der Anteil der größtmöglichen Varianz ( mit dem beobachteten Mittelwert) ) an der beobachteten Varianz.
Nennen Sie die Durchschnittsnote ( m = ˉ xm m =x¯ ).
Die maximale Varianz tritt auf, wenn ein Anteil ist bei5und1-pist bei1; dies hat eine Varianz von (m-1)(5-m)⋅np = m - 14 5 1 - p 1 ( m - 1 ) ( 5 - m ) ≤ nn - 1 .
Nimm einfach die Varianz der Stichprobe und dividiere durch ; Dies ergibt eine Zahl zwischen0(perfekte Übereinstimmung) und1( m - 1 ) ( 5 - m ) ≤ nn - 1 0 1 (vollständig polarisiert).
Für eine Reihe von Fällen, in denen die durchschnittliche Bewertung 4 ist, würde dies Folgendes ergeben:
Sie bevorzugen könnten stattdessen nicht sie in Bezug auf die größtmögliche Varianz mit dem gleichen Mittelwert zu berechnen, sondern als Prozentsatz der größtmöglichen Varianz für jede mittlere Bewertung . Das würde bedeuten, stattdessen durch 4 ⋅ n zu teilen und ergibt wieder einen Wert zwischen 0 (perfekte Übereinstimmung) und14 ⋅ nn - 1 1 (an den Extremen in einem Verhältnis von 50 zu 50 polarisiert). Dies würde die gleichen Relativitäten ergeben wie das obige Diagramm, aber alle Werte wären 3/4 so groß (dh von links nach rechts, von oben nach unten wären sie 0, 16,5%, 25%, 25%, 50) % und 75%).
Beides ist eine absolut gültige Wahl - ebenso wie jede andere alternative Möglichkeit, einen solchen Index zu erstellen.
quelle
m = 1
Sie1 - 1 = 0
und bekommen0 / 0
. Wie korrigieren Sie das?"Keine grafischen Methoden" ist eine Art großes Handicap, aber ... hier sind ein paar seltsame Ideen. Beide behandeln die Bewertungen als fortlaufend, was eine konzeptionelle Schwäche darstellt und wahrscheinlich nicht die einzige ...
Kurtosis
Negative binomiale Regression
FWIW, hier ist der r Code , den ich mit dem Spielen um habe:
Kann nicht widerstehen, in einem Grundstück zu werfen ...
DasR a t i n g------√
Bearbeiten: Ich habe gerade gesehen, wie diese Frage in der Seitenleiste beworben wurde: und als ich darauf klickte, habe ich sie in den Hot Network Questions gesehen, die sich wieder auf sich selbst verlinken, wie es manchmal passiert ,
Daher dachte ich, dass dies in einer allgemeineren, nützlichen Art und Weise eine Wiederholung verdienen könnte. Ich habe mich entschlossen, meine Methoden an den Amazon-Kundenrezensionen für The Mountain Three Wolf Moon - Kurzärmliges T-Shirt zu testen :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
quelle
Ich denke, ein einfacher Weg ist, die Varianz zu berechnen. In einem einfachen System wie diesem würde eine höhere Varianz mehr 1s / 5s bedeuten. BEARBEITEN Kurzes Beispiel: Wenn Ihre Werte 1,3,3,5 sind, beträgt Ihre Varianz:
quelle
Ich bezweifle, dass ich den geschickten Antworten, die ich bereits gegeben habe, etwas Wertvolles hinzufügen kann. Insbesondere, um die gute Idee von @ Glen_b zu beurteilen, wie die beobachtete Varianz relativ nahe an der maximalen Varianz liegt, die unter dem beobachteten Mittelwert möglich ist. Bei meinem eigenen Vorschlag, der direkt von der Schulter ausgeht, geht es stattdessen um ein robustes Maß für die Streuung, das nicht auf Abweichungen von einem Mittelpunkt, sondern direkt auf Abständen zwischen Datenpunkten basiert.
Berechnen Sie paarweise Abstände (absolute Differenzen) zwischen allen Datenpunkten. Aussteigendich ich Null Entfernungen. Berechnen Sie eine zentrale Tendenz bei der Verteilung der Abstände (Sie haben die Wahl; dies kann zum Beispiel ein Mittelwert, ein Median oder ein Hodges-Lehmann-Zentrum sein ).
Wie Sie sehen, können die 3 Statistiken als Maß für "Polarisation" sehr unterschiedlich sein (wenn ich "Nichtübereinstimmung" anstelle einer bipolaren Konfrontation messen würde, würde ich wahrscheinlich HL wählen). Es ist deine Entscheidung. Eine Idee: Wenn Sie quadrierte Entfernungen berechnen , wird der Mittelwert direkt mit der üblichen Abweichung in den Daten in Beziehung gesetzt (und Sie gelangen zu @ Duncans Vorschlag, die Abweichung zu berechnen). Die Berechnung von Entfernungen wird auch mit großen nicht allzu schwierigN da hier die bewertungsskala deskret und mit relativ wenigen noten versehen ist, bietet sich natürlich ein frequenzgewichtungsalgorithmus zur entfernungsberechnung an.
quelle
Wie wäre es, wenn die 3-Sterne-Bewertung kleiner ist als der Durchschnitt der 5 und 4 und auch kleiner als der Durchschnitt der 1 und 2:
Ich kann mir keine Situation vorstellen, in der das nicht funktionieren würde. Am Beispiel oben: Amazon-Kundenrezensionen für The Mountain Three Wolf Moon-Kurzarmshirt :
In diesem Fall:
Dies würde den Test bestehen und als geteilte Meinung angesehen werden.
quelle
Ich denke, was Sie suchen, ist Standardabweichung:
Ich weiß nicht, um welche Programmiersprache es sich handelt, aber hier ist eine Java-Methode, mit der Sie die Standardabweichung ermitteln können:
quelle