Wie finde ich Konfidenzintervalle für Bewertungen?

32

Evan Millers " Wie man nicht nach Durchschnittsbewertung sortiert " schlägt vor, die Untergrenze eines Konfidenzintervalls zu verwenden, um eine vernünftige Gesamtpunktzahl für bewertete Artikel zu erhalten. Es funktioniert jedoch mit einem Bernoulli-Modell: Bewertungen sind entweder Daumen hoch oder Daumen runter.

Was ist ein angemessenes Konfidenzintervall für ein Bewertungsmodell, das eine diskrete Punktzahl von bis Sternen zuweist , vorausgesetzt, die Anzahl der Bewertungen für einen Artikel ist möglicherweise gering?k1k

Ich denke, ich kann sehen, wie man das Zentrum der Wilson- und Agresti-Coull-Intervalle so anpasst

p~=i=1nxi+zα/22p0n+zα/22

Dabei ist entweder oder (wahrscheinlich besser) die durchschnittliche Bewertung aller Elemente. Ich bin mir jedoch nicht sicher, wie ich die Breite des Intervalls anpassen soll. Meine (überarbeitete) beste Vermutung wärep0=k+12

p~±zα/2n~ich=1n(xich-p~)2+zα/2(p0-p~)2n~

mit , aber ich kann es nicht rechtfertigen, wenn ich es als Analogie zu Agresti-Coull von Hand winken~=n+zα/22

Schätzen(X¯)±zα/2n~Schätzen(Var(X))

Gibt es Standard-Konfidenzintervalle, die gelten? (Bitte beachten Sie, dass ich keine Zeitschriften abonniert habe und keinen einfachen Zugang zu einer Universitätsbibliothek habe. Geben Sie auf jeden Fall die richtigen Referenzen an, aber ergänzen Sie diese mit dem tatsächlichen Ergebnis!)

Peter Taylor
quelle
4
Da in den aktuellen Antworten (möglicherweise aus Höflichkeit) dieses Problem umgangen wurde, möchte ich darauf hinweisen, dass es sich bei dieser Anwendung um einen schrecklichen Missbrauch von Vertrauensgrenzen handelt. Es gibt keine theoretische Rechtfertigung für die Verwendung der LCL zur Einstufung der Mittelwerte (und viele Gründe, warum die LCL für Einstufungszwecke tatsächlich schlechter ist als der Mittelwert selbst). Daher beruht diese Frage auf einem stark fehlerhaften Ansatz, weshalb sie möglicherweise relativ wenig Beachtung gefunden hat.
whuber
2
Ein nettes Merkmal dieser speziellen Frage ist, dass sie genügend Kontext enthält, damit wir die eigentliche Frage ignorieren und uns auf das konzentrieren können, was als das wichtigere zugrunde liegende Problem erscheint.
Karl
1
Ich bin froh, dass Sie den geänderten Titel nach Ihren Wünschen geändert haben, Peter. Meine ursprüngliche Bearbeitung war nicht eigennützig, sondern so, dass der Titel den Text der Frage widerspiegelt. Sie sind der letzte Schiedsrichter dessen, was Sie wirklich meinen.
whuber

Antworten:

23

Wie Karl Broman in seiner Antwort sagte, wäre ein Bayes-Ansatz wahrscheinlich viel besser als die Verwendung von Konfidenzintervallen.

Das Problem mit den Konfidenzintervallen

Warum funktioniert die Verwendung von Konfidenzintervallen möglicherweise nicht gut? Ein Grund dafür ist, dass Ihr Konfidenzintervall sehr breit ist, wenn Sie nicht viele Bewertungen für einen Artikel haben, sodass die Untergrenze des Konfidenzintervalls klein ist. So landen Artikel ohne viele Bewertungen am Ende Ihrer Liste.

Intuitiv möchten Sie jedoch wahrscheinlich, dass sich Artikel ohne viele Bewertungen in der Nähe des durchschnittlichen Artikels befinden. Sie möchten also Ihre geschätzte Bewertung des Artikels in Richtung der mittleren Bewertung über alle Artikel bewegen (dh Sie möchten Ihre geschätzte Bewertung auf einen früheren Wert verschieben ). . Genau das leistet ein Bayes'scher Ansatz.

Bayesianischer Ansatz I: Normalverteilung über Ratings

Eine Möglichkeit, die geschätzte Bewertung auf eine Prioritätsstufe zu verschieben, besteht, wie in Karls Antwort, darin, eine Schätzung der Form :wR+(1-w)C

  • R ist der Mittelwert über den Bewertungen für die Artikel.
  • C ist der Mittelwert über alle Elemente (oder was auch immer zuvor Sie Ihre Bewertung schrumpfen möchten).
  • Beachten Sie, dass die Formel nur eine gewichtete Kombination von und .CRC
  • Rvmw=vv+m ist das zugewiesene Gewicht , wobei die Anzahl der Bewertungen für das Bier und eine Art konstanter "Schwellen" -Parameter ist.Rvm
  • Beachten Sie, dass wenn sehr groß ist, dh wenn wir viele Bewertungen für das aktuelle Element haben, sehr nahe bei 1 liegt, unsere geschätzte Bewertung also sehr nahe bei und wir dem vorherigen wenig Aufmerksamkeit schenken . Wenn jedoch klein ist, liegt sehr nahe bei 0, so dass die geschätzte Bewertung dem vorherigen viel Gewicht beimisst .w R C v w CvwRCvwC

Diese Schätzung kann in der Tat als hintere Schätzung der mittleren Bewertung des Artikels nach Bayes interpretiert werden, wenn die einzelnen Bewertungen aus einer Normalverteilung stammen , die um diesen Mittelwert zentriert ist.

Unter der Annahme, dass Ratings von einer Normalverteilung stammen, gibt es jedoch zwei Probleme:

  • Eine Normalverteilung ist kontinuierlich , aber die Bewertungen sind diskret .
  • Bewertungen für einen Artikel folgen nicht unbedingt einer unimodalen Gaußschen Form. Zum Beispiel ist Ihr Artikel möglicherweise sehr polarisierend, daher geben die Leute ihm entweder eine sehr hohe oder eine sehr niedrige Bewertung.

Bayesianischer Ansatz II: Multinomiale Verteilung über Ratings

Anstatt eine Normalverteilung für Ratings anzunehmen, nehmen wir eine multinomiale Verteilung an. Das heißt, bei einem bestimmten Gegenstand gibt es eine Wahrscheinlichkeit dass ein zufälliger Benutzer ihm 1 Stern gibt, eine Wahrscheinlichkeit dass ein zufälliger Benutzer ihm 2 Sterne gibt, und so weiter.p 2p1p2

Natürlich haben wir keine Ahnung, wie hoch diese Wahrscheinlichkeiten sind. Da wir immer mehr Bewertungen für diesen Artikel erhalten, können wir davon ausgehen, dass in der Nähe von , wobei die Anzahl der Benutzer ist, die ihm 1 Stern gegeben haben, und die Gesamtzahl der Benutzer ist, die bewertet haben das Einzelteil, aber wenn wir zuerst anfangen, haben wir nichts. Daher setzen wir diesen Wahrscheinlichkeiten ein Dirichlet vor .n 1p1n1nn1n Dichr(α1,,αk)

Was hat dieses Dirichlet vor? Wir können uns jeden Parameter als "virtuelle Zählung" der , mit der eine virtuelle Person den Gegenstand mit Sternen bewertet hat. Wenn beispielsweise , und alle anderen gleich 0 sind, können wir uns dies so vorstellen, dass zwei virtuelle Personen den Gegenstand 1 Stern und eine virtuelle Person den Gegenstand 2 gegeben haben Sterne. Bevor wir also überhaupt tatsächliche Benutzer erhalten, können wir diese virtuelle Verteilung verwenden, um eine Schätzung der Bewertung des Elements bereitzustellen.αichichα1=2α2=1αich

[Eine Möglichkeit, die Parameter , besteht darin, gleich dem Gesamtanteil der Stimmen von Sternen zu setzen. (Beachten Sie, dass die Parameter nicht unbedingt ganze Zahlen sind.)]αichαichichαich

Sobald die tatsächlichen Bewertungen eingegangen sind, addieren Sie einfach ihre Anzahl zu der virtuellen Anzahl Ihres Dirichlet-Vorgängers. Wenn Sie die Bewertung Ihres Artikels schätzen möchten, geben Sie einfach den Mittelwert über alle Bewertungen des Artikels an (sowohl die virtuellen Bewertungen als auch die tatsächlichen Bewertungen).

raegtin
quelle
1
Ansatz 2 funktioniert genauso wie Ansatz 1, aber mit einer anderen Begründung?
Peter Taylor
2
@ Peter: Oh, das stimmt! Ich habe das erst bemerkt, als du es erwähnt hast =). (Wenn Sie nur den Mittelwert des Seitenzahns nehmen möchten, sind sie identisch. Ich denke, ein Dirichlet-Seitenzahn ist nützlich, wenn Sie eine andere Art von Punktzahl berechnen möchten, z. B. eine Art Polaritätsmaß könnte etwas selten sein.)
raegtin
1
Wie wählen Sie in Ansatz 1 normalerweise ? m
Jason C
15

Diese Situation erfordert einen bayesianischen Ansatz. Es gibt einfache Ansätze für die Bayes'sche Rangfolge von Ratings hier (beachten Sie insbesondere die Kommentare, die interessant sind) und hier und dann einen weiteren Kommentar zu diesen hier . In einem der Kommentare im ersten dieser Links heißt es:

The Best of BeerAdvocate (BA) ... verwendet eine Bayes'sche Schätzung:

gewichteter Rang (WR) = (v / (v + m)) × R + (m / (v + m)) × C

Wobei:
R = Durchschnitt der Bewertungen für das Bier
v = Anzahl der Bewertungen für das Bier
m = Mindestanzahl der Bewertungen, die aufgelistet werden müssen (derzeit 10)
C = Mittelwert in der Liste (derzeit 2,5)

Karl
quelle
2
Ein Nachteil der Beer Advocate-Methode ist, dass sie die Variabilität nicht berücksichtigt. Trotzdem ziehe ich diese Denkweise der Idee der unteren Kondifenzgrenze vor.
Karl