Ich habe kürzlich den Rat gelesen, dass Sie im Allgemeinen den Median verwenden sollten, um Ausreißer zu eliminieren. Beispiel: Der folgende Artikel http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
hat im Moment 16 Bewertungen:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Weil sie Mean verwenden, erhält der Artikel 4 Sterne, aber wenn sie Median verwenden , erhält er 5 Sterne.
Ist der Median nicht ein "gerechterer" Richter?
Ein Experiment zeigt, dass der Medianfehler immer größer als der Mittelwert ist. Ist der Median schlechter?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Antworten:
Das Problem ist, dass Sie nicht wirklich definiert haben, was es bedeutet, eine gute oder faire Bewertung zu haben. Sie schlagen in einem Kommentar zu @ Kevins Antwort vor, dass Sie es nicht mögen, wenn eine schlechte Bewertung einen Artikel ausfällt. Wenn man jedoch zwei Punkte vergleicht, bei denen einer eine "perfekte Bilanz" aufweist und der andere eine schlechte Bewertung aufweist, sollte dieser Unterschied möglicherweise zum Ausdruck kommen.
quelle
Die Antwort, die Sie erhalten, hängt von der Frage ab, die Sie stellen.
Mittelwert und Median beantworten unterschiedliche Fragen. Sie geben also unterschiedliche Antworten. Es ist nicht so, dass einer "gerechter" ist als der andere. Mediane werden häufig mit stark verzerrten Daten verwendet (z. B. Einkommen). Aber auch dort ist manchmal der Mittelwert am besten. Und manchmal wollen Sie KEIN Maß für die zentrale Tendenz.
Wenn Sie ein Maß für die zentrale Tendenz angeben, sollten Sie außerdem ein gewisses Maß für die Ausbreitung angeben. Die häufigsten Paarungen sind die mittlere Standardabweichung und der Median-Interquartil-Bereich. In diesen Daten ist die Angabe eines Medians von 5 meiner Meinung nach irreführend oder zumindest nicht aussagekräftig. Der Median wäre auch 5, wenn jede einzelne Stimme eine 5 wäre.
quelle
Wenn die einzigen Auswahlmöglichkeiten Ganzzahlen im Bereich von 1 bis 5 sind, kann eine davon wirklich als Ausreißer betrachtet werden?
quelle
Dies hängt von der Kostenfunktion ab, die Sie verwenden.
MSE wird durch Mittelwert minimiert. Daher ist der Median bei Verwendung von MSE immer schlechter als der Mittelwert.
ABER, wenn Sie einen absoluten Fehler verwenden würden, wäre der Mittelwert schlechter!
Eine nette Erklärung dazu finden Sie hier: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
Die Wahl hängt von Ihrem Problem und Ihren Vorlieben ab. Wenn Sie nicht möchten, dass Ausreißer einen großen Einfluss auf die Position des "zentralen Punkts" haben, wählen Sie den Median. Wenn Sie sich für Ausreißer interessieren, wählen Sie Mittelwert.
quelle
Nur ein kurzer Gedanke:
Wenn Sie davon ausgehen, dass jedes Rating aus einer latenten stetigen Variablen stammt, können Sie den Median dieser zugrunde liegenden stetigen Zinsvariablen als Ihren Zinswert und nicht als den Mittelwert dieser zugrunde liegenden Verteilung definieren. Wenn die Verteilung symmetrisch ist, würden der Mittelwert und der Median letztendlich die gleichen Größen schätzen. Wenn die Verteilung schief ist, würde sich der Median vom Mittelwert unterscheiden. In diesem Fall würde der Median meines Erachtens eher dem entsprechen, was wir als den typischen Wert ansehen. Dies führt zu einem gewissen Verständnis dafür, warum das mittlere Einkommen und die mittleren Immobilienpreise in der Regel eher als der Mittelwert angegeben werden.
Wenn Sie jedoch eine kleine Anzahl von diskreten Werten haben, ist die Leistung des Medians schlecht.
Vielleicht könnten Sie ein Dichteschätzverfahren verwenden und dann den Median davon oder einen interpolierten Median verwenden.
quelle
Das Tolle an der Verwendung des Medians für Sternebewertungen ist, dass intelligente Benutzer (die sich der Verwendung des Medians bewusst sind) das System nicht "spielen":
Wenn ein vernünftiger Benutzer der Meinung ist, dass die richtige Bewertung 4 Sterne sein sollte, aber derzeit 4,5 Sterne hat, ist der beste Weg, um zu vier Sternen zu gelangen (vorausgesetzt, es wurden mehr als sechs Stimmen abgegeben), 1 Stern in einem auf Durchschnittswerten basierenden Bewertungssystem zu stimmen .
Während in einem medianbasierten System die vernünftige Wahl des Benutzers darin besteht, genau die Anzahl der Sterne zu wählen, die der Benutzer für das Produkt halten sollte.
Es ist sozusagen das zweite Preisäquivalent für Sternebewertungssysteme.
quelle
Einige gute Antworten lassen noch Raum für weitere Kommentare.
Erstens hat niemand Einwände gegen die Idee, dass der Median Ausreißer beseitigen soll, aber ich werde es qualifizieren. Die beabsichtigte Bedeutung ist offensichtlich, aber es ist leicht, dass echte Daten komplizierter sind. Der Median soll allenfalls Ausreißer ausschließen oder ignorieren, aber auch das ist nicht garantiert. Beispiel: Bei einer Bewertung von 1 1 1 5 5 5 stimmen der Median und der Mittelwert bei 3 überein, sodass alle als gut erscheinen können. Mit einer zusätzlichen 5 wird der Median auf 5 und mit einer zusätzlichen 1 auf 1 gekippt. Der Mittelwert würde sich in jedem Fall um etwa 0,286 bewegen. Daher ist der Mittelwert hier widerstandsfähiger als der Median. Das Beispiel kann als ungewöhnlich abgetan werden, ist aber nicht empörend. Der Punkt ist natürlich nicht originell. Ein Ort, an dem es gemacht wird, ist Mosteller, F. und Tukey, JW 1977. Datenanalyse und Regression. Reading, MA: Addison-Wesley, S. 34-35.
Zweitens wurden beschnittene Mittel erwähnt, und die Idee verdient einen größeren Schub. Mittelwert und Median müssen keine scharfen Alternativen sein, sodass der Analyst für den einen oder den anderen abstimmen muss. Sie können alle möglichen getrimmten Mittel in Betracht ziehen, die auf dem Trimmen einer bestimmten Anzahl von Werten in jedem Schwanz basieren . Die Tabelle zeigt als # die Anzahl der in die Berechnung des Mittelwerts einbezogenen Werte:
Das Hauptbild hier ist, dass Sie Ihren Diskontsatz (ignorieren Sie so viele Werte in jedem Schwanz als verdächtig) als eine Art Versicherung gegen das Risiko wählen können, wegen extremer Werte auszufallen. Was ich sehe, ist ein ziemlich sanfter Gradient zwischen Mittelwert und Median, der hier erwartet wird, da alle möglichen Werte 1, 2, 3, 4, 5 in den Daten vorhanden sind. Ein großer Sprung in der Sequenz wird mit einem isolierten Ausreißer erwartet.
Es gibt keine Verpflichtung mit getrimmten Mitteln, gleiche Zahlen in jedem Schwanz zu trimmen, aber ich werde darauf nicht näher eingehen.
Drittens ist das Beispiel von Amazon Bewertungen. Der Kontext ist immer relevant, wenn es darum geht, wie Daten zusammengefasst werden sollen . Im Falle von Amazon-Rezensionen ist die beste Antwort, die Rezensionen zu lesen! Hohe und niedrige Noten können aus falschen Gründen (implizit: der Autor dieses Buches ist mein Freund) und / oder für Ihre Entscheidung irrelevant sein (explizit: der Wiederverkäufer hat mich schlecht behandelt) Implikation dafür, wie solche Daten zusammengefasst werden, und in der Tat, indem die Verteilung gezeigt wird, ist Amazon maximal informativ.
Viertens und am elementarsten, aber auch grundlegendsten von allen, wer lässt dich wählen? Manchmal sollten sowohl Mittelwert als auch Median angegeben werden (und wie gesagt auch ein Verteilungsdiagramm).
quelle