Häufig wird in einführenden Texten zur angewandten Statistik der Mittelwert vom Median unterschieden (häufig im Kontext der deskriptiven Statistik und zur Begründung der Zusammenfassung der zentralen Tendenz anhand von Mittelwert, Median und Modus), indem erläutert wird, dass der Mittelwert für Ausreißer in Stichprobendaten empfindlich ist und / oder Dies wird als Begründung für die Behauptung verwendet, dass der Median vorzuziehen ist, wenn die Daten nicht symmetrisch sind.
Beispielsweise:
Das beste Maß für die zentrale Tendenz für einen bestimmten Datensatz hängt häufig von der Art der Verteilung der Werte ab. Wenn die Daten nicht symmetrisch sind, ist der Median oft das beste Maß für die zentrale Tendenz. Da der Mittelwert für extreme Beobachtungen empfindlich ist, wird er in Richtung der äußeren Datenwerte gezogen und kann infolgedessen übermäßig aufgeblasen oder übermäßig entleert werden. "-
Pagano and Gauvreau, (2000) Principles of Biostatistics , 2nd ed. (P & G waren zur Hand, übrigens, sie nicht per se herausgreifen .)
Die Autoren definieren "zentrale Tendenz" folgendermaßen: "Das am häufigsten untersuchte Merkmal eines Datensatzes ist sein Zentrum oder der Punkt, über den sich Beobachtungen häufen."
Dies scheint mir eine weniger als eindeutige Art zu sein, nur den Median zu verwenden , da es das Gleiche ist, nur den Mittelwert zu verwenden, wenn die Daten / Verteilungen symmetrisch sind, als wenn man sagt, nur den Mittelwert zu verwenden, wenn er dem Median entspricht. Edit: whuber weist zu Recht darauf hin, dass ich robuste Maße der zentralen Tendenz mit dem Median verschmelze. Daher ist es wichtig zu bedenken, dass ich in der einführenden angewandten Statistik die spezifische Bestimmung des arithmetischen Mittels gegenüber dem Median diskutiere (wobei, abgesehen von der Art, andere Maße der zentralen Tendenz nicht motiviert sind).
Sollten wir diese nicht einfach als zwei verschiedene Maßstäbe der Zentralität verstehen, anstatt den Nutzen des Mittelwerts danach zu beurteilen, wie sehr er vom Verhalten des Medians abweicht? Mit anderen Worten, es ist ein Merkmal des Mittelwerts, empfindlich auf Schräglage zu reagieren. Man könnte genauso gut argumentieren: "Nun, der Median ist nicht gut, weil er weitgehend unempfindlich gegen Schräglauf ist. Verwenden Sie ihn also nur, wenn er dem Mittelwert entspricht."
(Der Modus beschäftigt sich vernünftigerweise nicht mit dieser Frage.)
Antworten:
Ich bin nicht einverstanden mit dem Ratschlag als Pauschalregel. (Es ist nicht bei allen Büchern gleich.)
Die Probleme sind subtiler.
Wenn Sie tatsächlich daran interessiert sind, einen Rückschluss auf den Populationsmittelwert zu ziehen, ist der Stichprobenmittelwert zumindest ein unvoreingenommener Schätzer und bietet eine Reihe weiterer Vorteile. In der Tat sehen Sie das Gauß-Markov-Theorem - es ist am besten linear unverzerrt.
Wenn Ihre Variablen stark verzerrt sind, liegt das Problem bei „linear“. In einigen Situationen sind möglicherweise alle linearen Schätzer schlecht, sodass die besten von ihnen immer noch unattraktiv sind. Daher ist ein Schätzer für den nicht linearen Mittelwert möglicherweise besser , aber es würde erfordern, etwas (oder sogar ziemlich viel) über die Verteilung zu wissen. Diesen Luxus haben wir nicht immer.
Wenn Sie nicht unbedingt daran interessiert sind, Rückschlüsse auf einen Bevölkerungsmittelwert zu ziehen (" Was ist ein typisches Alter? "), Sagen Sie, oder ob es eine allgemeinere Ortsverschiebung von einer Bevölkerung zu einer anderen gibt, die in Bezug auf einen Ort oder auch nur ausgedrückt werden kann von einem Test, bei dem eine Variable stochastisch größer als eine andere ist), dann wird gewertet, dass der Mittelwert der Grundgesamtheit entweder nicht notwendig oder wahrscheinlich kontraproduktiv ist (im letzten Fall).
Ich denke, es kommt darauf an, darüber nachzudenken:
Was sind deine aktuellen Fragen? Ist der Mittelwert der Bevölkerung in dieser Situation überhaupt eine gute Frage?
Was ist der beste Weg, um die Frage in Anbetracht der Situation zu beantworten (in diesem Fall Schiefe)? Bedeutet die Verwendung von sample die beste Vorgehensweise zur Beantwortung unserer interessierenden Fragen?
Es kann sein, dass Sie Fragen nicht direkt zu Bevölkerungsmitteln haben, aber dennoch sind Stichprobenmittel ein guter Weg, um diese Fragen zu betrachten ... oder umgekehrt - die Frage könnte sich auf Bevölkerungsmittel beziehen, aber Stichprobenmittel sind möglicherweise nicht der beste Weg dazu beantworte diese Frage.
quelle
Im wirklichen Leben sollten wir ein Maß für die zentrale Tendenz wählen, basierend auf dem, was wir herausfinden wollen; und ja, manchmal ist der Modus das Richtige. Manchmal ist es das Winsorized oder getrimmte Mittel. Manchmal das geometrische oder harmonische Mittel. Manchmal gibt es kein gutes Maß für die zentrale Tendenz.
Intro-Bücher sind schlecht geschrieben, sie lehren, dass Kochbuchregeln gelten.
Nehmen Sie das Einkommen. Dies ist oft sehr schief und hat manchmal Ausreißer; In der Regel wird das "Durchschnittseinkommen" gemeldet. Aber manchmal sind die Ausreißer und die Neigung wichtig. Es hängt vom Kontext ab und erfordert Nachdenken.
Ich habe mehr darüber geschrieben
quelle
Selbst wenn die Daten verzerrt sind (z. B. die Kosten für die Gesundheitsfürsorge, die im Rahmen einer klinischen Studie berechnet wurden, in der nur wenige Patienten aufgrund ihres Todes unmittelbar nach der Einschreibung die Gesamtkosten auf Null sanken und nur wenige Patienten aufgrund der Nebenwirkungen eines bestimmten untersuchten Gesundheitsprogramms Unmengen an Kosten angefallen sind ) kann der Mittelwert aus mindestens einem praktischen Grund dem Median vorgezogen werden: Die Multiplikation der mittleren Kosten für die Anzahl der Patienten gibt den Entscheidungsträgern im Gesundheitswesen die budgetären Auswirkungen der zu untersuchenden Gesundheitstechnologie.
quelle
Ich denke, dass sowohl in der Frage als auch in den beiden bisherigen Antworten fehlt, dass die Diskussion von Mittelwert gegen Median in einführenden Statistikbüchern im Allgemeinen zu Beginn eines Kapitels über die numerische Zusammenfassung einer Verteilung erfolgt. Im Gegensatz zu Inferenzstatistiken handelt es sich hierbei im Allgemeinen um beschreibende Statistiken, die eine nützliche Möglichkeit darstellen, Informationen über die Verteilung der Daten numerisch und nicht grafisch zu übermitteln. Der Kontext, in dem dies auftritt, ist der beschreibende Statistikabschnitt eines Berichts oder eines Zeitschriftenartikels, in dem im Allgemeinen keine grafischen Zusammenfassungen aller Variablen in Ihrem Datensatz möglich sind. Wenn die Verteilung verzerrt ist, erscheint es in diesem Zusammenhang sinnvoll, den Median über den Mittelwert zu wählen. Wenn die Verteilung ohne Ausreißer symmetrisch ist,
quelle