Es ist bekannt, dass der Median gegen Ausreißer resistent ist. Wenn dies der Fall ist, wann und warum sollten wir den Mittelwert zuerst verwenden?
Eine Sache, an die ich denken kann, ist vielleicht, das Vorhandensein von Ausreißern zu verstehen, dh wenn der Median weit vom Mittelwert entfernt ist, ist die Verteilung verzerrt und möglicherweise müssen die Daten untersucht werden, um zu entscheiden, was mit den Ausreißern zu tun ist. Gibt es noch andere Verwendungen?
mathematical-statistics
mean
median
Legende
quelle
quelle
Antworten:
In gewisser Weise wird der Mittelwert verwendet, weil er für die Daten empfindlich ist. Wenn die Verteilung symmetrisch ist und die Schwänze ungefähr der Normalverteilung entsprechen, ist der Mittelwert eine sehr effiziente Zusammenfassung der zentralen Tendenz. Der Median, während sie robust und gut definiert für jede kontinuierliche Verteilung ist nur so effizient wie der Mittelwert , wenn die Daten aus einer Normalverteilung kommen passiert. Es ist diese relative Ineffizienz des Medians, die uns davon abhält, ihn noch mehr zu nutzen als wir. Die relative Ineffizienz führt mit zunehmender Stichprobengröße zu einer geringfügigen absoluten Ineffizienz, sodass wir für große den Median besser verwenden können. n2π n
Es ist interessant festzustellen, dass es für ein Maß für die Variation (Streuung, Streuung) einen sehr robusten Schätzer gibt, der 0,98 so effizient ist wie die Standardabweichung, nämlich die mittlere Differenz nach Gini. Dies ist der mittlere absolute Unterschied zwischen zwei Beobachtungen. [Sie müssen die Standardabweichung der Stichprobe mit einer Konstanten multiplizieren, um die gleiche Menge zu schätzen, die durch Ginis mittlere Differenz geschätzt wird.] Ein effizientes Maß für die zentrale Tendenz ist der Hodges-Lehmann-Schätzer, dh der Median aller paarweisen Mittelwerte. Wir würden es mehr benutzen, wenn seine Interpretation einfacher wäre.
quelle
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. Ein triviales C-, Fortran- oder Ratfor-Programm könnte von R aufgerufen werden, um es blitzschnell zu machen. Das ICSNP-Paket in R hat eine ziemlich effiziente Implementierung mit seinerhl.loc
Funktion. Für N = 5000 war es 2,66-mal schneller als der obige Code (Gesamtzeit 1,5 Sekunden). Es wäre schön, auch ein Vertrauensintervall effizient zu erhalten.Viele gute Antworten bereits, aber, einen Schritt zurück und etwas grundlegender, würde ich sagen, es ist, weil die Antwort, die Sie erhalten, von der Frage abhängt, die Sie stellen. Der Mittelwert und der Median beantworten unterschiedliche Fragen - manchmal ist eine angebracht, manchmal die andere.
Es ist einfach zu sagen, dass der Median verwendet werden sollte, wenn es Ausreißer gibt, oder für verzerrte Verteilungen oder was auch immer. Das ist aber nicht immer der Fall. Nehmen Sie das Einkommen - fast immer mit Median, und normalerweise ist das richtig. Aber wenn Sie die Kaufkraft einer ganzen Gemeinschaft betrachten, ist dies möglicherweise nicht richtig. In einigen Fällen ist sogar der Modus am besten (insbesondere, wenn die Daten gruppiert sind).
quelle
Wenn ein Wert für uns Müll ist, nennen wir ihn "outliar" und möchten, dass die Analyse robust ist (und einen Median bevorzugt). Wenn derselbe Wert attraktiv ist, nennen wir ihn "extrem" und möchten, dass die Analyse darauf reagiert (und den Mittelwert bevorzugt). Dialektik ...
Mittelwert reagiert gleichermaßen auf eine Wertverschiebung, unabhängig davon, wo in der Verteilung die Verschiebung stattfindet. Zum Beispiel können
1 2 3 4 5
Sie einen beliebigen Wert um 2 erhöhen - der Anstieg des Mittelwerts ist derselbe. Die Reaktion des Medians ist weniger "konsistent": Addieren Sie 2 zu den Datenpunkten 4 oder 5, und der Median steigt nicht an. aber addiere 2 zu Punkt 2 - so dass die Verschiebung über dem Median liegt und sich der Median dramatisch ändert (viel mehr als der Mittelwert wird sich ändern).Mittelwert ist immer genau lokalisiert. Median ist nicht; Zum Beispiel kann ein
1 2 3 4
beliebiger Wert zwischen 2 und 3 als Median bezeichnet werden. Auswertungen auf der Basis von Medianen sind daher nicht immer eine eindeutige Lösung.Der Mittelwert ist ein Ort minimaler Quadratabweichungen. Viele Optimierungsaufgaben basierend auf linearer Algebra (einschließlich der bekannten OLS-Regression) minimieren diesen quadratischen Fehler und implizieren daher das Konzept des Mittelwerts. Median ein Ort minimaler Summe absoluter Abweichungen. Optimierungstechniken zur Minimierung solcher Fehler sind nicht linear und komplexer / wenig bekannt.
quelle
Es gibt viele Antworten auf diese Frage. Hier ist eine, die Sie wahrscheinlich nirgendwo sonst sehen werden. Deshalb werde ich sie hier aufnehmen, weil ich glaube, dass sie für das Thema relevant ist. Die Leute glauben oft, dass der Median für fast alles robust ist, weil er als robustes Maß für Ausreißer angesehen wird. Tatsächlich wird es auch als robust angesehen, bei verzerrten Verteilungen eine Tendenz zu erkennen. Diese beiden robusten Eigenschaften des Medians werden oft zusammen gelernt. Man könnte bemerken, dass zugrunde liegende verzerrte Verteilungen auch dazu neigen, kleine Stichproben zu erzeugen, die aussehen, als hätten sie Ausreißer, und es ist allgemein bekannt, dass man in solchen Situationen Mediane verwendet.
(nur eine Demonstration, dass dies schief ist und die Grundform)
Lassen Sie uns nun sehen, was passiert, wenn wir aus dieser Verteilung verschiedene Stichprobengrößen abtasten und den Median und den Mittelwert berechnen, um die Unterschiede zwischen ihnen zu ermitteln.
Wie aus dem obigen Diagramm ersichtlich ist, ist der Median (in Rot) für das n viel empfindlicher als der Mittelwert. Dies steht im Widerspruch zu konventionellen Erkenntnissen in Bezug auf die Verwendung von Medianen mit niedrigem ns, insbesondere wenn die Verteilung verzerrt sein könnte. Und es verstärkt den Punkt, dass der Mittelwert ein bekannter Wert ist, während der Median für andere Eigenschaften empfindlich ist, von denen eine n ist.
Diese Analyse ähnelt Miller, J. (1988). Eine Warnung zur mittleren Reaktionszeit. Journal of Experimental Psychology: Menschliche Wahrnehmung und Leistung , 14 (3): 539–543.
REVISION
Beim Nachdenken über das Versatzproblem bin ich zu dem Schluss gekommen, dass der Einfluss auf den Median möglicherweise darauf zurückzuführen ist, dass bei kleinen Stichproben die Wahrscheinlichkeit größer ist, dass der Median am Ende der Verteilung liegt Modus. Wenn man also nur eine Stichprobe mit einer Wahrscheinlichkeit von Ausreißern erstellt, treten möglicherweise dieselben Ergebnisse auf.
Also dachte ich über Situationen nach, in denen Ausreißer auftreten und Experimentatoren versuchen könnten, sie zu beseitigen.
Wenn Ausreißer konsistent auftreten, wie beispielsweise einer in jeder einzelnen Datenstichprobe, sind Mediane robust gegen die Auswirkung dieses Ausreißers, und die herkömmliche Geschichte über die Verwendung von Medianen ist gültig.
Aber so läuft es normalerweise nicht.
Man könnte in sehr wenigen Zellen eines Experiments einen Ausreißer finden und sich in diesem Fall für die Verwendung des Medians anstelle des Mittelwerts entscheiden. Auch hier ist der Median robuster, aber seine tatsächliche Auswirkung ist relativ gering, da es nur sehr wenige Ausreißer gibt. Dies wäre definitiv ein häufigerer Fall als der oben beschriebene, aber der Effekt der Verwendung eines Medians wäre wahrscheinlich so gering, dass es nicht viel ausmachen würde.
Vielleicht sind Ausreißer häufiger eine zufällige Komponente der Daten. Beispielsweise kann der wahre Mittelwert und die Standardabweichung der Grundgesamtheit ungefähr 0 sein, aber es gibt einen Prozentsatz der Zeit, die wir von einer Ausreißergrundgesamtheit mit dem Mittelwert 3 abtasten. Betrachten Sie die folgende Simulation, bei der nur eine Grundgesamtheit abgetastet wird, wobei die Stichprobe variiert Größe.
Der Median ist rot und der Mittelwert schwarz. Dies ist ein ähnlicher Befund wie bei einer verzerrten Verteilung.
In einem relativ praktischen Beispiel für die Verwendung von Medianen, um die Auswirkungen von Ausreißern zu vermeiden, kann man Situationen finden, in denen die Schätzung durch n viel stärker beeinflusst wird, wenn der Median verwendet wird als wenn der Mittelwert verwendet wird.
quelle
Aus dem Mittelwert lässt sich auf einfache Weise die Summe aller Elemente berechnen. Wenn Sie beispielsweise das Durchschnittseinkommen der Bevölkerung und die Bevölkerungsgröße kennen, können Sie sofort das Gesamteinkommen der gesamten Bevölkerung berechnen.
Der Mittelwert ist einfach in der
O(n)
zeitlichen Komplexität zu berechnen . Die Berechnung des Medians in linearer Zeit ist möglich , erfordert jedoch mehr Nachdenken. Die offensichtliche Lösung, die eine Sortierung erfordert, weist eine schlechtere (O(n log n)
) zeitliche Komplexität auf.Und ich spekuliere, dass es einen anderen Grund gibt, warum der Mittelwert populärer ist als der Median:
quelle
"Es ist bekannt, dass der Median gegen Ausreißer resistent ist. Wenn dies der Fall ist, wann und warum sollten wir den Mittelwert zuerst verwenden?"
In Fällen, in denen man weiß, dass es keine Ausreißer gibt, zum Beispiel wenn man den Prozess der Datenerzeugung kennt (zum Beispiel in der mathematischen Statistik).
Man sollte das Triviale betonen, dass diese beiden Größen (Mittelwert und Median) tatsächlich nicht dasselbe messen und dass die meisten Benutzer nach dem ersteren fragen, wann sie wirklich an dem letzteren interessiert sein sollten (dieser Punkt wird durch gut illustriert) die medianbasierten Wilcoxon-Tests, die leichter zu interpretieren sind als die t-Tests).
Dann gibt es Fälle, in denen aus dem einen oder anderen Grund eine Vorschrift die Verwendung des Begriffs vorschreibt.
quelle
Wenn die Besorgnis über die Anwesenheit von Ausreißern besteht, gibt es einige einfache Möglichkeiten, Ihre Daten zu überprüfen.
Ausreißer kommen definitionsgemäß in unsere Daten, wenn sich etwas ändert, entweder im Prozess der Datenerzeugung oder im Prozess der Datenerfassung. dh die Daten sind nicht mehr homogen. Wenn Ihre Daten nicht homogen sind, ist weder der Mittelwert noch der Median sinnvoll, da Sie versuchen, die zentrale Tendenz von zwei getrennten Datensätzen abzuschätzen, die zusammengemischt wurden.
Die beste Methode zur Gewährleistung der Homogenität besteht darin, die Prozesse zur Datenerzeugung und -erfassung zu untersuchen, um sicherzustellen, dass alle Ihre Daten aus einer einzigen Prozessgruppe stammen. Hier geht nichts über ein bisschen Hirnleistung.
Als sekundäre Prüfung können Sie sich an einen von mehreren statistischen Tests wenden: Chi-Quadrat, Dixons Q-Test, Grubbs Test oder das Kontroll- / Prozessverhaltensdiagramm (normalerweise X-Bar R oder XmR). Ich habe die Erfahrung gemacht, dass, wenn Ihre Daten so bestellt werden können, wie sie erfasst wurden, die Prozessverhaltensdiagramme Ausreißer besser erkennen als die Ausreißertests. Diese Verwendung für die Charts mag etwas umstritten sein, aber ich glaube, dass sie vollständig mit Shewharts ursprünglicher Absicht übereinstimmt und von Donald Wheeler ausdrücklich befürwortet wird. Unabhängig davon, ob Sie die Ausreißertests oder die Prozessverhaltensdiagramme verwenden, denken Sie daran, dass ein erkannter "Ausreißer" lediglich ein Signal für das Potenzial darstelltInhomogenität, die weiter untersucht werden muss. Es ist selten sinnvoll, Datenpunkte wegzuwerfen, wenn Sie keine Erklärung dafür haben, warum sie Ausreißer waren.
Wenn Sie R verwenden, stellt das Ausreißerpaket die Ausreißertests bereit, und für Prozessverhaltensdiagramme stehen qcc , IQCC und qAnalyst zur Verfügung. Ich habe eine persönliche Präferenz für die Verwendung und Ausgabe des qcc-Pakets.
quelle
Wann möchten Sie vielleicht den Mittelwert?
Beispiele aus dem Finanzbereich:
Bei der Bildung eines diversifizierten Portfolios, der Entscheidung, in was und wie viel investiert werden soll, spielen der Mittelwert und die Kovarianz der Renditen wahrscheinlich eine wichtige Rolle für Ihr Optimierungsproblem.
quelle