Warum ist das Durchschnittsalter eine bessere Statistik als das Durchschnittsalter?

41

Alt-Text

Alt-Text

Offensichtlich scheint der Median die Statistik der Wahl zu sein, wenn es um Alter geht.

Ich kann mir nicht erklären, warum das arithmetische Mittel eine schlechtere Statistik wäre. Wieso ist es so?

Ursprünglich hier gepostet , weil ich nicht wusste, dass diese Seite existiert.

Laser
quelle
4
Sie haben anscheinend auf der anderen Seite bereits eine vernünftige Antwort gefunden?
Shane
1
@Shane: Aber vielleicht haben unterschiedliche Websites das Potenzial, unterschiedliche Antworten aus unterschiedlichen Blickwinkeln zu erhalten?
Whuber

Antworten:

42

Die Statistik bietet meiner Meinung nach keine gute Antwort auf diese Frage. Ein Mittelwert kann zum Beispiel in Mortalitätsstudien relevant sein, aber das Alter ist nicht so einfach zu messen, wie Sie vielleicht denken. Ältere Menschen, Analphabeten und Menschen in einigen Ländern der Dritten Welt runden ihr Alter zum Beispiel auf ein Vielfaches von 5 oder 10 ab.

Der Median ist gegenüber solchen Fehlern resistenter als der Mittelwert. Das Durchschnittsalter liegt in der Regel zwischen 20 und 40 Jahren, aber die Menschen können bis zu 100 Jahre alt werden (ein wachsender und auffälliger Anteil der Bevölkerung moderner Länder lebt inzwischen über 100 Jahre). Menschen in diesem Alter haben im Vergleich zu sehr jungen Menschen einen 1,5- bis 4-fachen Einfluss auf den Mittelwert als im Median. Somit ist der Median etwas aktueller in Bezug auf die Altersverteilung eines Landes und ein wenig unabhängiger von Sterblichkeitsraten und Lebenserwartung als der Durchschnitt.

Der Median gibt uns schließlich ein etwas besseres Bild davon, wie die Altersverteilung selbst aussieht: Wenn Sie beispielsweise einen Median von 35 Jahren sehen, wissen Sie, dass die Hälfte der Bevölkerung älter als 35 Jahre ist, und Sie können einige Aussagen über die Geburtenraten treffen. Alter der Eltern und so weiter; aber wenn der Mittelwert 35 ist, kann man nicht so viel sagen, weil dieser Wert zum Beispiel durch eine große Bevölkerungszunahme im Alter von 70 Jahren oder durch eine Bevölkerungslücke in einer Altersgruppe aufgrund eines alten Krieges oder einer Epidemie beeinflusst werden könnte.

Aus demografischen und nicht statistischen Gründen erscheint ein Median der Rolle eines Sammelwerts für die Zusammenfassung des Alters relativ großer Bevölkerungsgruppen angemessener.

whuber
quelle
1
Ich denke, Sie meinten "Der Median ist resistenter gegen solche Fehler als der Mittelwert". Ich stimme Ihren Kommentaren jedoch zu, und ich glaube, die US-Volkszählung meldet den Median für viele Kategorien in offiziellen Berichten (nicht nur das Alter) aus im Grunde denselben Gründen. Das Einkommen ist vielleicht sogar ein besseres Beispiel als das Alter, um solche Punkte zu veranschaulichen.
Andy W
Sie haben eine Tatsache - der Mittelwert ist empfindlich gegenüber Ausreißern / verzerrten Verteilungen - durch eine Wertaussage über die Präferenz des Medians gegenüber dem Mittelwert ersetzt. Tatsächlich haben Sie argumentiert, dass der Mittelwert nicht vorzuziehen ist, weil er nicht der Median ist (ähnlich wie diejenigen, die sagen, man sollte den Mittelwert nur bei symmetrischen Verteilungen verwenden, dh wenn der Mittelwert und der Median gleich sind).
Alexis
1
@Alexis Ich folge deiner Kritik nicht. Könnten Sie näher darauf eingehen? Schließlich ist diese Antwort weit mehr als eine "Tatsache": Sie enthält einige davon sowie eine Analyse ihrer Auswirkungen. Und speziell auf welche "Wertangabe" verweisen Sie?
whuber
Mein Anliegen ist, dass die tatsächlichen Merkmale des Mittelwerts und des Medianwerts (ersterer ist z. B. empfindlich gegenüber Ausreißern, d. H. Menschen in diesem Alter haben im Vergleich zu sehr jungen Menschen einen 1,5- bis 4-fachen Einfluss auf den Mittelwert als sie dies tun). werden in Werte über ihren Wert übersetzt, nämlich "der Median gibt uns ein etwas besseres Bild davon, wie die Altersverteilung selbst aussieht". Ersteres ist eine Tatsache, letzteres eine Bewertung dieser Tatsache. Mein Anliegen ist der Wechsel zwischen den beiden. Mehr: stats.stackexchange.com/questions/96371/…
Alexis
1
@Alexis Bitte beachten Sie, dass es sich bei dieser Frage nicht um die Verwendung des Mittelwerts oder des Medians im Allgemeinen handelt, sondern um deren Nutzen bei der Bewertung der Altersverteilung. Bitte beachten Sie, dass meine Antwort gleich zu Beginn bestätigt, dass es kein Allheilmittel gibt: Der Mittelwert ist nützlich und für bestimmte Zwecke relevant . Ich glaube nicht, dass ich die Sünde begangen habe, die Sie mir vorwerfen, was die vage Anwendung von "besser" ist: Ich habe sorgfältig festgelegt, wie sich der Median und der Mittelwert in diesem Kontext unterscheiden . Es hört sich für mich so an, als ob Sie ein Problem mit den Mitteln gegen die Mediane haben, aber dies ist nicht der richtige Ort, um dies zu tun.
whuber
16

John hat dir auf der Schwesterseite eine gute Antwort gegeben.

Ein Aspekt, den er nicht explizit erwähnte, ist die Robustheit: Der Median als Maß für die zentrale Position ist besser als der Mittelwert, da er einen höheren Durchschlagspunkt (von 50%) aufweist, während der Mittelwert einen sehr niedrigen Wert von 0 aufweist (siehe Wikipedia für Details) ).

Intuitiv bedeutet dies, dass einzelne schlechte Beobachtungen den Median nicht verzerren, während dies für den Mittelwert der Fall ist.

Dirk Eddelbüttel
quelle
9
Die Aufschlüsselung ist kein Problem für eine beschreibende Statistik einer gesamten Bevölkerung.
whuber
12

Hier ist meine Antwort, die ich zuerst auf math.stackexchange gepostet habe:

Median ist das, was viele Menschen tatsächlich im Sinn haben, wenn sie "Mittelwert" sagen. Es ist einfacher, den Median zu interpretieren: Die Hälfte der Bevölkerung ist älter als dieses Alter und die andere Hälfte liegt darunter. Mean ist etwas subtiler.

Die Leute suchen nach Symmetrie und zwingen sie manchmal auf, wenn sie nicht da sind. Die Altersverteilung in einer Population ist weit davon entfernt, symmetrisch zu sein, sodass der Mittelwert irreführend sein könnte. Altersverteilungen sind so etwas wie eine Pyramide. Viele Kinder, nicht viele ältere Menschen. (Oder zumindest ist es so in einer Art stabilem Zustand. In den USA hat die Nachkriegsgeneration des Babybooms diese Verteilung mit zunehmendem Alter verzerrt. Einige Leute haben dies "Quadrieren der Pyramide" genannt, weil die Boomer das gemacht haben Spitze der Pyramide breiter als in der Vergangenheit.)

Bei einer asymmetrischen Verteilung ist es möglicherweise besser, den Median anzugeben, da es sich um eine symmetrische Statistik handelt. Der Median ist symmetrisch, auch wenn die Stichprobenverteilung nicht stimmt.

John D. Cook
quelle
Inwiefern ist der Median eine "symmetrische" Statistik? Es ist sicherlich nicht der Fall, dass Verteilungen symmetrisch über ihre Mediane (oder über ihre Mittelwerte) verteilt sind. Wenn Sie nur das meinen, was Sie in einem anderen Kommentar geschrieben haben, dass der "Median die Bevölkerung in zwei Hälften teilt" (was den Median definiert ), klingt Ihr Argument zirkulär: Der Median ist gut, weil der Median der Median ist!
Whuber
7

Warum ist eine Axt besser als ein Kriegsbeil?

Das ist ähnlich wie bei Ihrer Frage. Sie meinen nur und machen verschiedene Dinge. Wenn es sich um Mediane handelt, dann ist die Geschichte, die sie zu vermitteln versuchen, das Modell, das sie auf die Daten anzuwenden versuchen, anders als ein Modell mit Mitteln.

John
quelle
4

Betrachten Sie als konkretes Beispiel das Durchschnittsalter für den Kongo (DRC) und Japan. Einer ist vom Bürgerkrieg verwüstet, der andere ist mit einer alternden Bevölkerung gut entwickelt. Der Mittelwert ist für einen Apfel-zu-Apfel-Vergleich nicht sonderlich interessant. Auf der anderen Seite kann der Median als Maß für die zentrale Tendenz informativ sein, da wir per Definition halb oben, halb unten haben. Der Wikipedia-Artikel über die Bevölkerungspyramide könnte aufschlussreich sein (siehe die Abschnitte über die Ausbuchtung der Jugend und das Altern der Bevölkerung).

ars
quelle
3

Die US-amerikanischen Public Health Data Repositories bewegen sich aufgrund der Auswirkungen der HIPAA-Bestimmungen hinsichtlich der absichtlichen Verblendung und Maskierung von Daten aus Gründen des Datenschutzes auf ein AGE im Fünfjahresformat zu.

In Anbetracht dieser Herausforderung für das, was in der Vergangenheit (vor HIPAA) ein ziemlich skaliertes Messdatenelement war, das auf dem Unterschied zwischen Geburtsdatum und Sterbedatum basiert, müssen wir möglicherweise AGE als mögliche Skalenvariable überdenken Überhaupt parametrisch beschrieben in Public-Health-Datensätzen, zugunsten von Modellen, die AGE nicht parametrisch beschreiben, als ordinale Maßebene. Ich weiß, dass dies vielen Fraktionen in der biomedizinischen Informatikgemeinschaft "übertrieben" vorkommen mag, aber diese Idee mag in Bezug auf die "Interpretation", wie in den obigen Kommentaren beschrieben, einen gewissen Wert haben.

Was ist mit der ganzen analytischen Kraft, die den nicht-parametrischen Ansätzen zur Verfügung steht? Ja, es ist wahr, dass jeder von uns fast universell versuchen wird, GLM-Techniken (General Linear Model) auf eine Variable anzuwenden, die sich uns in Verteilungen präsentiert, die sich wie AGE verhalten.

Gleichzeitig muss die Form dieser Verteilung und die Art und Weise berücksichtigt werden, wie diese Form durch mehrdimensionale Wechselwirkungseffekte auf mehrdimensionale Zentroide und in der Verteilung vorhandene Untergruppen-Zentroide bestimmt wird. Was tun mit diesen sehr komplexen Datensätzen?

Wenn ein Datenelement die "Annahmen des Modells" nicht erfüllt, scannen wir nach und nach die Liste durch (ich sagte "über" und nicht "über"; wir sollten gleichberechtigte Arbeitgeber der Methode sein, jedes Werkzeug stammt aus der Fabrik mit einer Form, die den Funktionsregeln folgt) von anderen möglichen Modellen, um diejenigen zu finden, die die Annahmetests "nicht scheitern".

In dem gegenwärtigen Format in Datensätzen zur öffentlichen Gesundheit müssen wir (als Datenvisualisierungs-Community) wirklich ein Standardmodell für die Behandlung von AGE in Schritten von fünf Jahren (5YI) entwickeln. Meine Stimme für die Datenvisualisierung von AGE (angesichts des neuen 5YI-Formats) sind Histogramme sowie Box- und Whisker-Plots. Ja, das bedeutet der Median. (Kein Wortspiel beabsichtigt!)

Manchmal sagt ein Bild mehr als tausend Worte, und eine Zusammenfassung fasst tausend Worte zusammen. Das Box- und Whisker-Diagramm zeigt die "Form" der Verteilung als aussagekräftige symbolische Darstellung des Histogramms mit einer nahezu ikonischen Auflösung. Ein Vergleich der Verteilung der fünfjährigen Altersstufen anhand von nebeneinander angeordneten Box- und Whisker-Diagrammen, in denen Muster vom 75. bis zum 50. (Median) bis zum 25. Ntil sofort visuell verglichen werden können, wäre ein eleganter "universeller Standard" für den Vergleich des AGE die Welt. Für diejenigen von uns, die weiterhin den Nervenkitzel der Datendarstellung durch die Textmechanik der tabellarischen Anzeige genießen, kann das "Stamm- und Blatt" -Diagramm auch nützlich sein, wenn es als animiertes visuelles Grafikelement in einer "Sparkline" verwendet wird.

Das Alter ist erwachsen geworden. Es muss mit den leistungsfähigeren Berechnungsalgorithmen, die jetzt verfügbar sind, weiter erforscht werden.

Richard E. Gilder
quelle
1
Dies ist ein gut geschriebener Beitrag, der jedoch keine Verbindung zur ursprünglichen Frage zu haben scheint.
Andy W
Ich denke, es geht indirekt, aber angemessen auf die offensichtliche Absicht der Frage @Andy ein. Der Fehler liegt, wenn überhaupt, in der Frage selbst, die nicht eindeutig ist, da sie nicht angibt, in welchem ​​Sinne ein Mittelwert "schlechter" als ein Median sein könnte. Eine gute Antwort muss dies daher untersuchen und den Zweck der Zusammenfassung einer Altersverteilung mit einer einzigen Statistik in Betracht ziehen. Dies führt hier natürlich zu einer Diskussion darüber, was ein "Alter" bedeuten könnte und wie sich Altersverteilungen angemessen vergleichen lassen.
whuber
3

Ich glaube nicht, dass es einen guten beschreibenden Grund dafür gibt, für die Altersverteilung den Median über den Mittelwert zu wählen. Beim Vergleich der gemeldeten Daten gibt es eine praktische Möglichkeit.

Viele Länder geben ihre Bevölkerung im 5-Jahres-Intervall an, wobei die Spitzengruppe unbefristet ist. Dies führt zu einigen Schwierigkeiten bei der Berechnung des Mittelwerts aus den Intervallen, insbesondere für das jüngste Intervall (das von den Kindersterblichkeitsraten betroffen ist), das oberste "Intervall" (was ist der Mittelwert aus einem Intervall von 80+?) Und die obersten Intervalle ( Der Mittelwert jedes Intervalls ist normalerweise niedriger als der Mittelwert.

Es ist weitaus einfacher, den Median durch Interpolation innerhalb des Medianintervalls zu schätzen, wobei häufig eine flache oder trapezförmige Altersverteilung in diesem Intervall angenommen wird (in vielen Ländern sind die Sterberaten um das Medianalter herum relativ niedrig, was dies zu einer vernünftigeren Annäherung macht als es ist ist für jung oder alt).

Henry
quelle
3

Um eine nützliche Antwort auf die ursprüngliche Frage zu geben, müssen wir die Frage hinter der Frage kennen. Mit anderen Worten: "Warum möchten Sie eine Art zusammenfassende Statistik, in der die Altersverteilung der verschiedenen Länder verglichen wird?" Der Median kann für einige Fragen am nützlichsten sein. Der Mittelwert könnte für andere am nützlichsten sein. Und es gibt wahrscheinlich Fragen, bei denen "Prozent über (oder unter) einem bestimmten Alter" die nützlichste Statistik wäre.

Emil Friedman
quelle
2

Sie erhalten hier gute Antworten, aber lassen Sie mich nur meine 2 Cent hinzufügen. Ich arbeite in der Pharmakometrie, die sich mit Dingen wie dem Blutvolumen, der Ausscheidungsrate, dem Grundniveau der Arzneimittelwirkung, der maximalen Arzneimittelwirkung und solchen Parametern befasst.

Wir unterscheiden zwischen Variablen, die einen beliebigen Wert plus oder minus annehmen können, und Werten, die nur positiv sein können. Ein Beispiel für eine Variable, die einen beliebigen Wert (plus oder minus) annehmen kann, ist der Arzneimitteleffekt, der positiv, null oder negativ sein kann. Ein Beispiel für eine Variable, die nur realistisch positiv sein kann, ist das Blutvolumen oder die Medikamentenausscheidungsrate.

Wir modellieren diese Dinge mit Verteilungen, die normalerweise entweder normal oder lognormal sind, normal für die beliebig bewerteten und lognormal für die nur positiven. Eine logarithmische Zahl ist die Zahl E, die nach einer normalverteilten Zahl steht, und deshalb kann sie nur positiv sein.

Für eine normalverteilte Variable sind der Median, der Mittelwert und der Modus dieselbe Zahl, sodass es keine Rolle spielt, welche Variable Sie verwenden. Für eine logarithmisch normal verteilte Variable ist der Mittelwert jedoch größer als der Median und der Modus, sodass er nicht wirklich sehr nützlich ist. Tatsächlich ist der Median dort, wo der zugrunde liegende Normalwert seinen Mittelwert hat, also ein viel attraktiveres Maß.

Da das Alter (vermutlich) niemals negativ sein kann, ist eine logarithmische Normalverteilung wahrscheinlich eine bessere Beschreibung als normal, weshalb der Median (E zum Mittelwert der zugrunde liegenden Normalen) nützlicher ist.

Mike Dunlavey
quelle
5
Die Altersverteilung ist sicherlich nicht log normal.
Rob Hyndman
1
Ich glaube nicht, dass man daraus schließen kann, dass das Alter log-normal verteilt ist, nur weil es immer positiv ist. Die Gamma- und die Weibull-Verteilung sind ebenfalls immer positiv. Warum also nicht diese auswählen?
Nico
@Rob: @nico: Ich bin sicher, du hast recht. Es war eine schlechte Wahl des Beispiels. Typischerweise modellieren wir pharmakometrische Parameter wie Volumen und Clearance.
Mike Dunlavey
2

Mir wurde beigebracht, dass der Median mit Bereich und Mittelwert mit Standardabweichung verwendet werden sollte. Wenn wir über das Alter sprechen, denke ich, dass der Bereich eine relevantere Art ist, die Verbreitung auszudrücken, und für die meisten leichter zu verstehen ist. Beispielsweise betrug in einer Studienpopulation das Durchschnittsalter 53 (SD 5,4) oder der Median 48 (Bereich 23-77). Aus diesem Grund würde ich lieber den Median als den Mittelwert verwenden. Aber es würde mich sehr interessieren, was ein Statistiker oder Statistikprofi über die Verwendung des Mittelwerts mit dem Bereich sagen würde. Ich sehe das ziemlich oft in wissenschaftlichen Arbeiten.

Susanne
quelle
Willkommen bei CV, Susanne. Wenn Sie dies gepostet haben, um Antworten zu erhalten, löschen Sie es bitte und posten Sie es erneut als neue Frage. Anleitungen zur Verwendung dieser Website finden Sie in unserer Hilfe .
whuber
1

Johns Antwort auf math.stackexchange kann wie folgt angesehen werden:

Bei einer verzerrten Verteilung ist der Median möglicherweise eine bessere Zusammenfassungsstatistik als der Mittelwert.

Beachten Sie, dass, wenn er sagt, dass es mehr Säuglinge als Erwachsene gibt, er im Wesentlichen vorschlägt, dass die Altersverteilung eine verzerrte Verteilung ist.


quelle
Tatsächlich denke ich, dass heutzutage die Tendenz in vielen Ländern eher in Richtung Senioren geht, nicht in Richtung Tots.
JM ist kein Statistiker
Vielleicht ist es anders herum verzerrt, aber der allgemeine Punkt steht. Bei verzerrten Verteilungen kann ein Median sinnvoller sein als der Mittelwert.
Ich habe gerade meine Antwort auf math.stackexchange aktualisiert, um genau diesen Punkt hervorzuheben. Menschen suchen nach Symmetrie und können Symmetrie fälschlicherweise auferlegen, wenn sie nicht vorhanden ist. Wenn Sie den Median angeben, erhalten Sie eine symmetrische Antwort: Der Median teilt die Grundgesamtheit in zwei Hälften, obwohl die Verteilung nicht symmetrisch ist.
John D. Cook
Diese Antwort scheint immer etwas verstohlen zu mir: wenn Verteilungen nicht Skew sind (dh sie sind symmetrisch), der Mittelwert entspricht den Median, so zu sagen , dass der Median „besser“ ist, wenn die Verteilung Skew ist ein Backdoor - Weg „nur Gebrauch zu sagen der Median."
Alexis
1

Ich hoffe, dass das Durchschnittsalter von den Ausreißern in Ihrem Datensatz beeinflusst wird, während dies für ein Durchschnittsalter nicht der Fall ist. Nehmen wir ein Beispiel für einen Datensatz mit geimpften Patienten: 1,2,3,4,4,5,6,6,6,78 Jahre Der Mittelwert wäre: 11,5 und das Durchschnittsalter dieser Patienten beträgt 4,5 Jahre. Dieses Durchschnittsalter wurde durch den Ausreißer beeinflusst. 78. Der Median ist der beste für Datensätze mit verzerrter Verteilung.

Eustache
quelle
Siehe meine Antwort an User28.
Alexis
0

Bei der demografischen Analyse würde ich mit Sicherheit meinen, dass sowohl der Mittelwert als auch der Median wertvoll sind, insbesondere in Kombination miteinander, wenn Sie nach Ausreißern oder Wachstumsbereichen suchen, die vom Median allein möglicherweise falsch bezeichnet werden. In Gemeinden mit einer großen Rentnergemeinschaft oder in Gebieten mit einer explodierenden Geburtenrate kann der Median allein nicht das ganze Bild vermitteln, und hier kann der Mittelwert im Vergleich sehr nützlich sein.

Matt L.
quelle