- Wenn Sie Wolfram Alpha anschauen
- Oder diese Wikipedia-Seite Liste der Länder nach Durchschnittsalter
Offensichtlich scheint der Median die Statistik der Wahl zu sein, wenn es um Alter geht.
Ich kann mir nicht erklären, warum das arithmetische Mittel eine schlechtere Statistik wäre. Wieso ist es so?
Ursprünglich hier gepostet , weil ich nicht wusste, dass diese Seite existiert.
Antworten:
Die Statistik bietet meiner Meinung nach keine gute Antwort auf diese Frage. Ein Mittelwert kann zum Beispiel in Mortalitätsstudien relevant sein, aber das Alter ist nicht so einfach zu messen, wie Sie vielleicht denken. Ältere Menschen, Analphabeten und Menschen in einigen Ländern der Dritten Welt runden ihr Alter zum Beispiel auf ein Vielfaches von 5 oder 10 ab.
Der Median ist gegenüber solchen Fehlern resistenter als der Mittelwert. Das Durchschnittsalter liegt in der Regel zwischen 20 und 40 Jahren, aber die Menschen können bis zu 100 Jahre alt werden (ein wachsender und auffälliger Anteil der Bevölkerung moderner Länder lebt inzwischen über 100 Jahre). Menschen in diesem Alter haben im Vergleich zu sehr jungen Menschen einen 1,5- bis 4-fachen Einfluss auf den Mittelwert als im Median. Somit ist der Median etwas aktueller in Bezug auf die Altersverteilung eines Landes und ein wenig unabhängiger von Sterblichkeitsraten und Lebenserwartung als der Durchschnitt.
Der Median gibt uns schließlich ein etwas besseres Bild davon, wie die Altersverteilung selbst aussieht: Wenn Sie beispielsweise einen Median von 35 Jahren sehen, wissen Sie, dass die Hälfte der Bevölkerung älter als 35 Jahre ist, und Sie können einige Aussagen über die Geburtenraten treffen. Alter der Eltern und so weiter; aber wenn der Mittelwert 35 ist, kann man nicht so viel sagen, weil dieser Wert zum Beispiel durch eine große Bevölkerungszunahme im Alter von 70 Jahren oder durch eine Bevölkerungslücke in einer Altersgruppe aufgrund eines alten Krieges oder einer Epidemie beeinflusst werden könnte.
Aus demografischen und nicht statistischen Gründen erscheint ein Median der Rolle eines Sammelwerts für die Zusammenfassung des Alters relativ großer Bevölkerungsgruppen angemessener.
quelle
John hat dir auf der Schwesterseite eine gute Antwort gegeben.
Ein Aspekt, den er nicht explizit erwähnte, ist die Robustheit: Der Median als Maß für die zentrale Position ist besser als der Mittelwert, da er einen höheren Durchschlagspunkt (von 50%) aufweist, während der Mittelwert einen sehr niedrigen Wert von 0 aufweist (siehe Wikipedia für Details) ).
Intuitiv bedeutet dies, dass einzelne schlechte Beobachtungen den Median nicht verzerren, während dies für den Mittelwert der Fall ist.
quelle
Hier ist meine Antwort, die ich zuerst auf math.stackexchange gepostet habe:
Median ist das, was viele Menschen tatsächlich im Sinn haben, wenn sie "Mittelwert" sagen. Es ist einfacher, den Median zu interpretieren: Die Hälfte der Bevölkerung ist älter als dieses Alter und die andere Hälfte liegt darunter. Mean ist etwas subtiler.
Die Leute suchen nach Symmetrie und zwingen sie manchmal auf, wenn sie nicht da sind. Die Altersverteilung in einer Population ist weit davon entfernt, symmetrisch zu sein, sodass der Mittelwert irreführend sein könnte. Altersverteilungen sind so etwas wie eine Pyramide. Viele Kinder, nicht viele ältere Menschen. (Oder zumindest ist es so in einer Art stabilem Zustand. In den USA hat die Nachkriegsgeneration des Babybooms diese Verteilung mit zunehmendem Alter verzerrt. Einige Leute haben dies "Quadrieren der Pyramide" genannt, weil die Boomer das gemacht haben Spitze der Pyramide breiter als in der Vergangenheit.)
Bei einer asymmetrischen Verteilung ist es möglicherweise besser, den Median anzugeben, da es sich um eine symmetrische Statistik handelt. Der Median ist symmetrisch, auch wenn die Stichprobenverteilung nicht stimmt.
quelle
Warum ist eine Axt besser als ein Kriegsbeil?
Das ist ähnlich wie bei Ihrer Frage. Sie meinen nur und machen verschiedene Dinge. Wenn es sich um Mediane handelt, dann ist die Geschichte, die sie zu vermitteln versuchen, das Modell, das sie auf die Daten anzuwenden versuchen, anders als ein Modell mit Mitteln.
quelle
Betrachten Sie als konkretes Beispiel das Durchschnittsalter für den Kongo (DRC) und Japan. Einer ist vom Bürgerkrieg verwüstet, der andere ist mit einer alternden Bevölkerung gut entwickelt. Der Mittelwert ist für einen Apfel-zu-Apfel-Vergleich nicht sonderlich interessant. Auf der anderen Seite kann der Median als Maß für die zentrale Tendenz informativ sein, da wir per Definition halb oben, halb unten haben. Der Wikipedia-Artikel über die Bevölkerungspyramide könnte aufschlussreich sein (siehe die Abschnitte über die Ausbuchtung der Jugend und das Altern der Bevölkerung).
quelle
Die US-amerikanischen Public Health Data Repositories bewegen sich aufgrund der Auswirkungen der HIPAA-Bestimmungen hinsichtlich der absichtlichen Verblendung und Maskierung von Daten aus Gründen des Datenschutzes auf ein AGE im Fünfjahresformat zu.
In Anbetracht dieser Herausforderung für das, was in der Vergangenheit (vor HIPAA) ein ziemlich skaliertes Messdatenelement war, das auf dem Unterschied zwischen Geburtsdatum und Sterbedatum basiert, müssen wir möglicherweise AGE als mögliche Skalenvariable überdenken Überhaupt parametrisch beschrieben in Public-Health-Datensätzen, zugunsten von Modellen, die AGE nicht parametrisch beschreiben, als ordinale Maßebene. Ich weiß, dass dies vielen Fraktionen in der biomedizinischen Informatikgemeinschaft "übertrieben" vorkommen mag, aber diese Idee mag in Bezug auf die "Interpretation", wie in den obigen Kommentaren beschrieben, einen gewissen Wert haben.
Was ist mit der ganzen analytischen Kraft, die den nicht-parametrischen Ansätzen zur Verfügung steht? Ja, es ist wahr, dass jeder von uns fast universell versuchen wird, GLM-Techniken (General Linear Model) auf eine Variable anzuwenden, die sich uns in Verteilungen präsentiert, die sich wie AGE verhalten.
Gleichzeitig muss die Form dieser Verteilung und die Art und Weise berücksichtigt werden, wie diese Form durch mehrdimensionale Wechselwirkungseffekte auf mehrdimensionale Zentroide und in der Verteilung vorhandene Untergruppen-Zentroide bestimmt wird. Was tun mit diesen sehr komplexen Datensätzen?
Wenn ein Datenelement die "Annahmen des Modells" nicht erfüllt, scannen wir nach und nach die Liste durch (ich sagte "über" und nicht "über"; wir sollten gleichberechtigte Arbeitgeber der Methode sein, jedes Werkzeug stammt aus der Fabrik mit einer Form, die den Funktionsregeln folgt) von anderen möglichen Modellen, um diejenigen zu finden, die die Annahmetests "nicht scheitern".
In dem gegenwärtigen Format in Datensätzen zur öffentlichen Gesundheit müssen wir (als Datenvisualisierungs-Community) wirklich ein Standardmodell für die Behandlung von AGE in Schritten von fünf Jahren (5YI) entwickeln. Meine Stimme für die Datenvisualisierung von AGE (angesichts des neuen 5YI-Formats) sind Histogramme sowie Box- und Whisker-Plots. Ja, das bedeutet der Median. (Kein Wortspiel beabsichtigt!)
Manchmal sagt ein Bild mehr als tausend Worte, und eine Zusammenfassung fasst tausend Worte zusammen. Das Box- und Whisker-Diagramm zeigt die "Form" der Verteilung als aussagekräftige symbolische Darstellung des Histogramms mit einer nahezu ikonischen Auflösung. Ein Vergleich der Verteilung der fünfjährigen Altersstufen anhand von nebeneinander angeordneten Box- und Whisker-Diagrammen, in denen Muster vom 75. bis zum 50. (Median) bis zum 25. Ntil sofort visuell verglichen werden können, wäre ein eleganter "universeller Standard" für den Vergleich des AGE die Welt. Für diejenigen von uns, die weiterhin den Nervenkitzel der Datendarstellung durch die Textmechanik der tabellarischen Anzeige genießen, kann das "Stamm- und Blatt" -Diagramm auch nützlich sein, wenn es als animiertes visuelles Grafikelement in einer "Sparkline" verwendet wird.
Das Alter ist erwachsen geworden. Es muss mit den leistungsfähigeren Berechnungsalgorithmen, die jetzt verfügbar sind, weiter erforscht werden.
quelle
Ich glaube nicht, dass es einen guten beschreibenden Grund dafür gibt, für die Altersverteilung den Median über den Mittelwert zu wählen. Beim Vergleich der gemeldeten Daten gibt es eine praktische Möglichkeit.
Viele Länder geben ihre Bevölkerung im 5-Jahres-Intervall an, wobei die Spitzengruppe unbefristet ist. Dies führt zu einigen Schwierigkeiten bei der Berechnung des Mittelwerts aus den Intervallen, insbesondere für das jüngste Intervall (das von den Kindersterblichkeitsraten betroffen ist), das oberste "Intervall" (was ist der Mittelwert aus einem Intervall von 80+?) Und die obersten Intervalle ( Der Mittelwert jedes Intervalls ist normalerweise niedriger als der Mittelwert.
Es ist weitaus einfacher, den Median durch Interpolation innerhalb des Medianintervalls zu schätzen, wobei häufig eine flache oder trapezförmige Altersverteilung in diesem Intervall angenommen wird (in vielen Ländern sind die Sterberaten um das Medianalter herum relativ niedrig, was dies zu einer vernünftigeren Annäherung macht als es ist ist für jung oder alt).
quelle
Um eine nützliche Antwort auf die ursprüngliche Frage zu geben, müssen wir die Frage hinter der Frage kennen. Mit anderen Worten: "Warum möchten Sie eine Art zusammenfassende Statistik, in der die Altersverteilung der verschiedenen Länder verglichen wird?" Der Median kann für einige Fragen am nützlichsten sein. Der Mittelwert könnte für andere am nützlichsten sein. Und es gibt wahrscheinlich Fragen, bei denen "Prozent über (oder unter) einem bestimmten Alter" die nützlichste Statistik wäre.
quelle
Sie erhalten hier gute Antworten, aber lassen Sie mich nur meine 2 Cent hinzufügen. Ich arbeite in der Pharmakometrie, die sich mit Dingen wie dem Blutvolumen, der Ausscheidungsrate, dem Grundniveau der Arzneimittelwirkung, der maximalen Arzneimittelwirkung und solchen Parametern befasst.
Wir unterscheiden zwischen Variablen, die einen beliebigen Wert plus oder minus annehmen können, und Werten, die nur positiv sein können. Ein Beispiel für eine Variable, die einen beliebigen Wert (plus oder minus) annehmen kann, ist der Arzneimitteleffekt, der positiv, null oder negativ sein kann. Ein Beispiel für eine Variable, die nur realistisch positiv sein kann, ist das Blutvolumen oder die Medikamentenausscheidungsrate.
Wir modellieren diese Dinge mit Verteilungen, die normalerweise entweder normal oder lognormal sind, normal für die beliebig bewerteten und lognormal für die nur positiven. Eine logarithmische Zahl ist die Zahl E, die nach einer normalverteilten Zahl steht, und deshalb kann sie nur positiv sein.
Für eine normalverteilte Variable sind der Median, der Mittelwert und der Modus dieselbe Zahl, sodass es keine Rolle spielt, welche Variable Sie verwenden. Für eine logarithmisch normal verteilte Variable ist der Mittelwert jedoch größer als der Median und der Modus, sodass er nicht wirklich sehr nützlich ist. Tatsächlich ist der Median dort, wo der zugrunde liegende Normalwert seinen Mittelwert hat, also ein viel attraktiveres Maß.
Da das Alter (vermutlich) niemals negativ sein kann, ist eine logarithmische Normalverteilung wahrscheinlich eine bessere Beschreibung als normal, weshalb der Median (E zum Mittelwert der zugrunde liegenden Normalen) nützlicher ist.
quelle
Mir wurde beigebracht, dass der Median mit Bereich und Mittelwert mit Standardabweichung verwendet werden sollte. Wenn wir über das Alter sprechen, denke ich, dass der Bereich eine relevantere Art ist, die Verbreitung auszudrücken, und für die meisten leichter zu verstehen ist. Beispielsweise betrug in einer Studienpopulation das Durchschnittsalter 53 (SD 5,4) oder der Median 48 (Bereich 23-77). Aus diesem Grund würde ich lieber den Median als den Mittelwert verwenden. Aber es würde mich sehr interessieren, was ein Statistiker oder Statistikprofi über die Verwendung des Mittelwerts mit dem Bereich sagen würde. Ich sehe das ziemlich oft in wissenschaftlichen Arbeiten.
quelle
Johns Antwort auf math.stackexchange kann wie folgt angesehen werden:
Beachten Sie, dass, wenn er sagt, dass es mehr Säuglinge als Erwachsene gibt, er im Wesentlichen vorschlägt, dass die Altersverteilung eine verzerrte Verteilung ist.
quelle
Ich hoffe, dass das Durchschnittsalter von den Ausreißern in Ihrem Datensatz beeinflusst wird, während dies für ein Durchschnittsalter nicht der Fall ist. Nehmen wir ein Beispiel für einen Datensatz mit geimpften Patienten: 1,2,3,4,4,5,6,6,6,78 Jahre Der Mittelwert wäre: 11,5 und das Durchschnittsalter dieser Patienten beträgt 4,5 Jahre. Dieses Durchschnittsalter wurde durch den Ausreißer beeinflusst. 78. Der Median ist der beste für Datensätze mit verzerrter Verteilung.
quelle
Bei der demografischen Analyse würde ich mit Sicherheit meinen, dass sowohl der Mittelwert als auch der Median wertvoll sind, insbesondere in Kombination miteinander, wenn Sie nach Ausreißern oder Wachstumsbereichen suchen, die vom Median allein möglicherweise falsch bezeichnet werden. In Gemeinden mit einer großen Rentnergemeinschaft oder in Gebieten mit einer explodierenden Geburtenrate kann der Median allein nicht das ganze Bild vermitteln, und hier kann der Mittelwert im Vergleich sehr nützlich sein.
quelle