Soll der Mittelwert verwendet werden, wenn die Daten schief sind?

14

Häufig wird in einführenden Texten zur angewandten Statistik der Mittelwert vom Median unterschieden (häufig im Kontext der deskriptiven Statistik und zur Begründung der Zusammenfassung der zentralen Tendenz anhand von Mittelwert, Median und Modus), indem erläutert wird, dass der Mittelwert für Ausreißer in Stichprobendaten empfindlich ist und / oder Dies wird als Begründung für die Behauptung verwendet, dass der Median vorzuziehen ist, wenn die Daten nicht symmetrisch sind.

Beispielsweise:

Das beste Maß für die zentrale Tendenz für einen bestimmten Datensatz hängt häufig von der Art der Verteilung der Werte ab. Wenn die Daten nicht symmetrisch sind, ist der Median oft das beste Maß für die zentrale Tendenz. Da der Mittelwert für extreme Beobachtungen empfindlich ist, wird er in Richtung der äußeren Datenwerte gezogen und kann infolgedessen übermäßig aufgeblasen oder übermäßig entleert werden. "-
Pagano and Gauvreau, (2000) Principles of Biostatistics , 2nd ed. (P & G waren zur Hand, übrigens, sie nicht per se herausgreifen .)

Die Autoren definieren "zentrale Tendenz" folgendermaßen: "Das am häufigsten untersuchte Merkmal eines Datensatzes ist sein Zentrum oder der Punkt, über den sich Beobachtungen häufen."

Dies scheint mir eine weniger als eindeutige Art zu sein, nur den Median zu verwenden , da es das Gleiche ist, nur den Mittelwert zu verwenden, wenn die Daten / Verteilungen symmetrisch sind, als wenn man sagt, nur den Mittelwert zu verwenden, wenn er dem Median entspricht. Edit: whuber weist zu Recht darauf hin, dass ich robuste Maße der zentralen Tendenz mit dem Median verschmelze. Daher ist es wichtig zu bedenken, dass ich in der einführenden angewandten Statistik die spezifische Bestimmung des arithmetischen Mittels gegenüber dem Median diskutiere (wobei, abgesehen von der Art, andere Maße der zentralen Tendenz nicht motiviert sind).

Sollten wir diese nicht einfach als zwei verschiedene Maßstäbe der Zentralität verstehen, anstatt den Nutzen des Mittelwerts danach zu beurteilen, wie sehr er vom Verhalten des Medians abweicht? Mit anderen Worten, es ist ein Merkmal des Mittelwerts, empfindlich auf Schräglage zu reagieren. Man könnte genauso gut argumentieren: "Nun, der Median ist nicht gut, weil er weitgehend unempfindlich gegen Schräglauf ist. Verwenden Sie ihn also nur, wenn er dem Mittelwert entspricht."

(Der Modus beschäftigt sich vernünftigerweise nicht mit dieser Frage.)

Alexis
quelle
3
Persönlich möchte ich sowohl den Mittelwert als auch den Median angeben, die dem Leser nicht nur einige Informationen über die zentrale Tendenz liefern, sondern auch eine Vorstellung davon, wie schief die Daten sind.
Bdeonovic
1
Ein gewisser Kontext und eine Klarstellung würden diese Frage verbessern. (1) In welchem ​​Kontext behaupten diese (hypothetischen) Intro-Texte, der Mittelwert sei vorzuziehen, und zu welchem ​​Zweck? (2) Wie genau beurteilen diese Texte "den Nutzen des Mittelwerts danach, wie sehr er vom Verhalten des Medians abweicht"? Können Sie uns ein Beispiel oder ein Angebot geben, damit wir es besser verstehen können?
whuber
2
An einem Punkt interpretieren Sie falsch: Der Median ist nicht die einzige Statistik, die einigen extremen Beobachtungen standhält. Der Mittelwert wird also aufgrund eines (oft) unerwünschten Merkmals und nicht durch einen Vergleich mit dem Median angegeben. Aber ich bekomme auch einen Schimmer Ihrer Besorgnis, und vielleicht hängt das mit der impliziten Verschmelzung von Asymmetrie und Existenz von Ausreißern zusammen, die in diesem Zitat vorkommt. Das ist bedauerlicherweise falsch gedacht, denn obwohl Ausreißer manchmal Asymmetrie implizieren, ist das Gegenteil nicht oft der Fall.
whuber
7
Leser werden hier den folgenden interessanten Thread finden: Wenn der Mittelwert so empfindlich ist, warum sollte er überhaupt verwendet werden?
gung - Wiedereinsetzung von Monica
2
In Anbetracht der Definition für "zentrale Tendenz" erscheint es klar, warum der Mittelwert bei einem Versatz oder Ausreißern kein nützliches Maß wäre. Ob Sie diesen Begriff der zentralen Tendenz wirklich einschätzen wollen oder nicht, scheint eine andere Sache zu sein!
jsk

Antworten:

16

Ich bin nicht einverstanden mit dem Ratschlag als Pauschalregel. (Es ist nicht bei allen Büchern gleich.)

Die Probleme sind subtiler.

Wenn Sie tatsächlich daran interessiert sind, einen Rückschluss auf den Populationsmittelwert zu ziehen, ist der Stichprobenmittelwert zumindest ein unvoreingenommener Schätzer und bietet eine Reihe weiterer Vorteile. In der Tat sehen Sie das Gauß-Markov-Theorem - es ist am besten linear unverzerrt.

Wenn Ihre Variablen stark verzerrt sind, liegt das Problem bei „linear“. In einigen Situationen sind möglicherweise alle linearen Schätzer schlecht, sodass die besten von ihnen immer noch unattraktiv sind. Daher ist ein Schätzer für den nicht linearen Mittelwert möglicherweise besser , aber es würde erfordern, etwas (oder sogar ziemlich viel) über die Verteilung zu wissen. Diesen Luxus haben wir nicht immer.

Wenn Sie nicht unbedingt daran interessiert sind, Rückschlüsse auf einen Bevölkerungsmittelwert zu ziehen (" Was ist ein typisches Alter? "), Sagen Sie, oder ob es eine allgemeinere Ortsverschiebung von einer Bevölkerung zu einer anderen gibt, die in Bezug auf einen Ort oder auch nur ausgedrückt werden kann von einem Test, bei dem eine Variable stochastisch größer als eine andere ist), dann wird gewertet, dass der Mittelwert der Grundgesamtheit entweder nicht notwendig oder wahrscheinlich kontraproduktiv ist (im letzten Fall).

Ich denke, es kommt darauf an, darüber nachzudenken:

  • Was sind deine aktuellen Fragen? Ist der Mittelwert der Bevölkerung in dieser Situation überhaupt eine gute Frage?

  • Was ist der beste Weg, um die Frage in Anbetracht der Situation zu beantworten (in diesem Fall Schiefe)? Bedeutet die Verwendung von sample die beste Vorgehensweise zur Beantwortung unserer interessierenden Fragen?

Es kann sein, dass Sie Fragen nicht direkt zu Bevölkerungsmitteln haben, aber dennoch sind Stichprobenmittel ein guter Weg, um diese Fragen zu betrachten ... oder umgekehrt - die Frage könnte sich auf Bevölkerungsmittel beziehen, aber Stichprobenmittel sind möglicherweise nicht der beste Weg dazu beantworte diese Frage.

Glen_b - Setzen Sie Monica wieder ein
quelle
14

Im wirklichen Leben sollten wir ein Maß für die zentrale Tendenz wählen, basierend auf dem, was wir herausfinden wollen; und ja, manchmal ist der Modus das Richtige. Manchmal ist es das Winsorized oder getrimmte Mittel. Manchmal das geometrische oder harmonische Mittel. Manchmal gibt es kein gutes Maß für die zentrale Tendenz.

Intro-Bücher sind schlecht geschrieben, sie lehren, dass Kochbuchregeln gelten.

Nehmen Sie das Einkommen. Dies ist oft sehr schief und hat manchmal Ausreißer; In der Regel wird das "Durchschnittseinkommen" gemeldet. Aber manchmal sind die Ausreißer und die Neigung wichtig. Es hängt vom Kontext ab und erfordert Nachdenken.

Ich habe mehr darüber geschrieben

Peter Flom - Wiedereinsetzung von Monica
quelle
2
Peter, vielen Dank für den Link zu deinem Beitrag. Ich wünschte, die Intro-Texte hätten 1 bis 2 Seiten Platz in Anspruch genommen, um eine so sorgfältige Überlegung zu ermöglichen, wie Sie es dort getan haben.
Alexis
4
Ich habe noch keinen geschrieben, möchte aber eine kleine Verteidigung der Einführungstexte einfügen. Jeder einleitende Text, der versucht, eine differenzierte Sichtweise zu vermitteln, die erfahrene Fachleute als solche erkennen würden, würde von fast allen beabsichtigten Empfängern in Flammen aufgehen. in der Tat würde es nicht einmal veröffentlicht werden.
Nick Cox
5
Ein inhaltlicher Kommentar: Wenn Werte additiv sind, so dass Summen (z. B.) physikalisch sinnvoll sind, ist der Mittelwert eine natürliche Zusammenfassung, unabhängig von der Verteilung der einzelnen Werte.
Nick Cox
3
@NickCox Ich denke, dass Einführungstexte viel besser können als sie. Für Mean vs. Median ist es nicht einmal ein mathematisches Argument - es ist ein substantielles. Einführungstexte müssen der Person, die sie liest, mitteilen, dass sie nicht wirklich für die Datenanalyse qualifiziert ist.
Peter Flom - Reinstate Monica
2
@jsk. Oh ok. Ich denke, sie müssen in der Statistik explizit angegeben werden, da viele Leute zu glauben scheinen, dass sie nach einem Kurs in Datenanalyse bereit sind. In der Tat wird von vielen Bereichen (Psychologie, Soziologie, Medizin usw.) erwartet, dass sie Datenanalysen nach nur 1, 2 oder manchmal 3 Kursen durchführen. In Promotionsprogrammen sollen sie beispielsweise Dissertationen schreiben. Warum ist es in anderen Bereichen offensichtlicher? Ich bin mir nicht sicher.
Peter Flom - Reinstate Monica
6

Selbst wenn die Daten verzerrt sind (z. B. die Kosten für die Gesundheitsfürsorge, die im Rahmen einer klinischen Studie berechnet wurden, in der nur wenige Patienten aufgrund ihres Todes unmittelbar nach der Einschreibung die Gesamtkosten auf Null sanken und nur wenige Patienten aufgrund der Nebenwirkungen eines bestimmten untersuchten Gesundheitsprogramms Unmengen an Kosten angefallen sind ) kann der Mittelwert aus mindestens einem praktischen Grund dem Median vorgezogen werden: Die Multiplikation der mittleren Kosten für die Anzahl der Patienten gibt den Entscheidungsträgern im Gesundheitswesen die budgetären Auswirkungen der zu untersuchenden Gesundheitstechnologie.

Carlo Lazzaro
quelle
In Anlehnung an Carlos Kommentar: Wenn Sie an einer Gesamtbevölkerung interessiert sind (z. B. an einer Stichprobenprüfung), dann interessieren Sie sich für den mittleren Zeitraum. Wenn es keinen Unterschied macht, wie schief oder ausreißeranfällig die Verteilung ist, müssen Sie nur damit umgehen. Sie können keine Ausreißer winsorisieren, zuschneiden, sonst entfernen oder transformieren. Die Schichtung kann sehr hilfreich sein. im Falle extremer Ausreißer sollten diese als Schichten für sich selbst gemacht werden.
Peter Westfall
3

Ich denke, dass sowohl in der Frage als auch in den beiden bisherigen Antworten fehlt, dass die Diskussion von Mittelwert gegen Median in einführenden Statistikbüchern im Allgemeinen zu Beginn eines Kapitels über die numerische Zusammenfassung einer Verteilung erfolgt. Im Gegensatz zu Inferenzstatistiken handelt es sich hierbei im Allgemeinen um beschreibende Statistiken, die eine nützliche Möglichkeit darstellen, Informationen über die Verteilung der Daten numerisch und nicht grafisch zu übermitteln. Der Kontext, in dem dies auftritt, ist der beschreibende Statistikabschnitt eines Berichts oder eines Zeitschriftenartikels, in dem im Allgemeinen keine grafischen Zusammenfassungen aller Variablen in Ihrem Datensatz möglich sind. Wenn die Verteilung verzerrt ist, erscheint es in diesem Zusammenhang sinnvoll, den Median über den Mittelwert zu wählen. Wenn die Verteilung ohne Ausreißer symmetrisch ist,

jsk
quelle
1
Ihr Hinweis auf deskriptive versus inferentielle Statistik lohnt sich. Sie sagen jedoch effektiv (für deskriptive Statistiken): "Verwenden Sie den Mittelwert nur, wenn er mit dem Median identisch ist." Wenn die Verteilung verzerrt ist, kann der Median das Pro-Kopf- Konzept nur schlecht darstellen , oder? Ist es also nicht genauso gültig, die Position "Verwenden Sie den Median nur, wenn er dem Mittelwert entspricht?" Das ist ebenso willkürlich und scheint die Aufmerksamkeit von der inhaltlichen Bedeutung dieser Maßnahmen abzulenken (für Leute, die sie lernen).
Alexis
1
Das Ziel ist es nicht, das Konzept der Pro-Kopf-Darstellung darzustellen? Sagt wer? Warum voraussetzen, dass das nicht das Ziel ist?
Alexis
1
Ich sehe keine Unhöflichkeit oder "schockiert handeln" aus dem OP ... nur sagen ...
Nick Stauner
1
Ich sehe nicht, dass es wichtig ist, ob Sie in diesem Fall inferentielle oder deskriptive Statistiken erstellen. Wenn das geeignete beschreibende Maß für die zentrale Tendenz der Median ist, sollten Rückschlüsse auf den Median gezogen werden. Wenn der Mittelwert, dann der Mittelwert. Wenn keine beschreibende Maßnahme sinnvoll ist, dann ist auch keine Inferenzmaßnahme sinnvoll.
Peter Flom - Reinstate Monica
1
@PeterFlom Was ist mit Fällen, in denen das Endziel keine Schlussfolgerung ist? Ich bin damit einverstanden, dass die Angemessenheit einer beschreibenden Statistik ausschließlich vom Grund für die Erstellung der Statistik abhängt. Die Vorstellung, dass es möglich ist, dass "keine beschreibende Maßnahme Sinn macht", scheint zu implizieren, dass eine beschreibende Statistik nicht von Natur aus aussagekräftig sein kann. Ich würde argumentieren, dass der Median in fast allen Fällen per Definition als Maß für das Verteilungszentrum sinnvoll ist. Ob es für andere Zwecke sinnvoll ist oder nicht, ist eine andere Frage.
jsk