Empirische Beziehung zwischen Mittelwert, Median und Modus

40

Für eine unimodale Verteilung, die mäßig verzerrt ist, haben wir die folgende empirische Beziehung zwischen Mittelwert, Median und Modus: Wie war diese Beziehung? abgeleitet?

(Mean - Mode)3(Mean - Median)

Hat Karl Pearson Tausende dieser Beziehungen geplant, bevor er diese Schlussfolgerung gezogen hat, oder gibt es eine logische Argumentationslinie für diese Beziehung?

Sara
quelle

Antworten:

29

Bezeichne den Mittelwert ( Durchschnitt), den Median, die Standardabweichung und den Modus. Schließlich sei die Stichprobe, eine Realisierung einer stetigen unimodalen Verteilung für die die ersten beiden Momente existieren.μmσMXF

Das ist bekannt

(1)|μm|σ

Dies ist eine häufige Schulbuchübung:

|μm|=|E(Xm)|E|Xm|E|Xμ|=E(Xμ)2E(Xμ)2=σ
Die erste Gleichheit ergibt sich aus der Definition des Mittelwerts, der dritte entsteht, weil der Median der eindeutige Minimierer (unter allen ) vonund die vierte aus Jensens Ungleichung (dh der Definition einer konvexen Funktion). Tatsächlich kann diese Ungleichung verschärft werden. Tatsächlich kann für jedes , das die obigen Bedingungen erfüllt, gezeigt werden [3], dasscE|Xc|F

(2)|mμ|0.6σ

Auch wenn es im Allgemeinen nicht wahr ist ( Abadir, 2005 ), dass eine unimodale Verteilung entweder erfüllen muss, kann dennoch gezeigt werden, dass Ungleichheit

Mmμ or Mmμ

(3)|μM|3σ

gilt für jede unimodale, quadratisch integrierbare Verteilung (unabhängig vom Versatz). Dies wird offiziell in Johnson und Rogers (1951) bewiesen, obwohl der Beweis von vielen Hilfsspelzen abhängt, die hier nur schwer passen. Sehen Sie sich das Original an.


Eine ausreichende Bedingung für eine Verteilung , um zu erfüllen, ist in [2] gegeben. Wenn :FμmMF

(4)F(mx)+F(m+x)1 for all x

dann . Wenn außerdem , dann ist die Ungleichung streng. Die Verteilungen Pearson Typ I bis XII sind ein Beispiel für eine Verteilungsfamilie, die [4] erfüllt zum Beispiel ist die Weibull eine übliche Verteilung, für die nicht gilt, siehe [5]).μmMμm(4)(4)

Unter der Annahme, dass genau gilt und wlog den Wert , haben wir den Wert(4)σ=1

3(mμ)(0,30.6] and Mμ(mμ,3]

und da der zweite dieser beiden Bereiche nicht leer ist, ist es sicherlich möglich, Verteilungen zu finden, für die die Behauptung wahr ist (z. B. wenn ) für einen gewissen Wertebereich der Verteilungsparameter, aber nicht für alle Verteilungen und nicht einmal für alle Verteilungen, die erfüllen .0<mμ<33<σ=1(4)

  • [0]: Das Momentanproblem für unimodale Verteilungen. NL Johnson und CA Rogers. Die Annalen der mathematischen Statistik, Vol. 22, No. 3 (Sep. 1951), S. 433-439
  • [1]: Die Mean-Median-Mode-Ungleichung: Gegenbeispiele Karim M. Abadir Econometric Theory, Vol. 21, No. 2 (April 2005), S. 477-482
  • [2]: WR van Zwet, Mittelwert, Median, Modus II, Statist. Neerlandica, 33 (1979), S. 1-5.
  • [3]: Der Mittelwert, der Median und die Art der unimodalen Verteilung: Eine Charakterisierung. S. Basu und A. DasGupta (1997). Theory Probab. Appl., 41 (2), 210–223.
  • [4]: Einige Anmerkungen zu Mittelwert, Median, Modus und Neigung. Michikazu Sato. Australian Journal of Statistics. Band 39, Ausgabe 2, Seiten 219–224, Juni 1997
  • [5]: PT von Hippel (2005). Mittelwert, Median und Versatz: Korrigieren einer Lehrbuchregel. Journal of Statistics Education, Band 13, Nummer 2.
user603
quelle
Es tut mir leid, ich bin nur ein Mathematikstudent im ersten Jahr. Könnten Sie bitte einen Link / ein Buch / einen Artikel bereitstellen / empfehlen, der beschreibt, wie die Beziehung entstanden ist?
Sara
3
@ Sara Ich denke, es geht auf Karl Pearson zurück, der diese empirische Beziehung für seine "Pearson-Modus-Schiefe" verwendet. Abgesehen davon finden Sie diesen Online-Artikel vielleicht interessant, j.mp/aWymCv .
chl
Vielen Dank, dass Sie chl und kwak für den Link und die Antwort, die Sie zur Verfügung gestellt haben. Ich werde sie studieren.
Sara
2
Verschiedene Punkte:wird minimiert, wenn der Median von . Von Hippels Artikel (oben mit chl verlinkt) behandelt Ausnahmen und btinternet.com/~se16/hgb/median.htm zeigt die mögliche Beziehung zwischen Mittelwert, Median, Modus und Standardabweichung, sowohl für kontinuierliche als auch für diskrete Verteilungen. Die 3 kann in der Tat einen beliebigen Wert annehmen: positiv, negativ, null oder unendlich. E|Xk|kX
Henry
1
Es kann sein, dass ich ein bisschen dicht bin (es wäre nicht das erste Mal). Können Sie klären, wiefolgt aus (1) und (3)? |Mμ|3|μm|
Glen_b
9

Das Papier chl zeigt auf einige wichtige Informationen - und zeigt damit, dass es sich nicht um eine allgemeine Regel handelt (auch nicht für kontinuierliche, glatte, "gut verhaltene" Variablen wie den Weibull). Obwohl dies oft ungefähr der Fall ist, ist dies häufig nicht der Fall.

Wo kommt Pearson her? Wie kam er zu dieser Annäherung?

Zum Glück sagt Pearson uns die Antwort ziemlich genau.

Die erste Verwendung des Begriffs "Versatz" in dem Sinne, dass wir ihn verwenden, scheint Pearson, 1895 [1] zu sein (sie erscheint direkt im Titel). In diesem Artikel wird anscheinend auch der Begriff Modus vorgestellt (Fußnote, S. 345):

Ich habe es für zweckmäßig befunden, für die Abszisse den Begriff Modus zu verwenden, der der Ordinate der Maximalfrequenz entspricht. Der "Mittelwert", der "Modus" und der "Median" haben alle unterschiedlichen Zeichen, die für den Statistiker wichtig sind.

Es scheint auch seine erste wirkliche Detaillierung seines Frequenzkurvensystems zu sein .

Bei der Erörterung der Schätzung des Formparameters in der Pearson- Typ-III- Verteilung (was wir jetzt als verschobenes - und möglicherweise gespiegeltes - Gamma bezeichnen) sagt er (S. 375):

Der Mittelwert, der Median und der Modus oder die Maximum-Ordinate sind mit bb , cc bzw. aa gekennzeichnet , und sobald die Kurven gezeichnet wurden, zeigte sich eine bemerkenswerte Beziehung zwischen der Position der drei Größen: der Median, so solange positiv war, wurde gesehen, dass * etwa ein Drittel vom Mittelwert zum Maximum des betrugp

* dies entspricht dem Gamma mit einem Formparameter>1

hier ist die absicht von "maximum" der wert der maximalen frequenz (der mode), wie am anfang des zitats deutlich wird, nicht das maximum der zufallsvariablen.x

Und tatsächlich, wenn wir das Verhältnis von (Mittelwert) zu (Mittelwert-Median) für die Gammaverteilung betrachten, beobachten wir Folgendes:

Bildbeschreibung hier eingeben

(Der blaue Teil markiert die Region, in der Pearson sagt, dass die Annäherung angemessen ist).

In der Tat, wenn wir uns einige andere Distributionen im Pearson-System ansehen - sagen wir zum Beispiel die Beta-Distributionen -, dann gilt ungefähr dasselbe Verhältnis, solange und nicht zu klein sind:αβ

Bildbeschreibung hier eingeben

(Die besondere Auswahl von Unterfamilien der Beta mit wurde getroffen, weil im Moment der Schiefe .) so, dass eine Erhöhung von für Konstante einer abnehmenden Momentenversetzung entspricht, interessanterweise für Werte von und wie , die Kurven sind fast konstant (Mittelwert) / (Mittelwert-Median), was darauf hindeutet, dass die Annäherung vernünftig ist, wenn ist groß genug, möglicherweise mit einem Minimum auf dem kleineren vonβα=kβααβααββ+α=cβ+ααund .)β

Das inverse Gamma ist auch im Pearson-System; es hat auch die Beziehung für große Werte des Formparameters (sagen wir ungefähr ):α>10

Bildbeschreibung hier eingeben

Es ist zu erwarten, dass Pearson auch mit der lognormalen Verteilung vertraut war. In diesem Fall sind der Modus, der Median und der Mittelwert jeweils und ; es wurde vor der Entwicklung seines Systems diskutiert und wird oft mit Galton in Verbindung gebracht.eμσ2,eμeμ+σ2/2

Betrachten wir noch einmal (Mittelwert) / (Mittelwert-Median). Wenn wir einen Faktor von aus Zähler und Nenner streichen, bleibt . In erster Ordnung (die genau sein wird , wenn klein ist), wird der Zähler zu und der Nenner , so zumindest für small sollte es auch für das lognormal gelten.eμeσ2/2eσ2eσ2/21σ232σ212σ2σ2

Es gibt eine ganze Reihe bekannter Distributionen - von denen einige Pearson bekannt waren -, für die es für einen weiten Bereich von Parameterwerten nahezu zutreffend ist. er bemerkte es mit der Gammaverteilung, hätte aber die Idee bestätigt, als er sich einige andere Verteilungen ansah, die er wahrscheinlich in Betracht ziehen würde.

[1]: Pearson, K. (1895),
"Beiträge zur mathematischen Evolutionstheorie, II: Abweichungen im homogenen Material",
Philosophical Transactions of the Royal Society, Reihe A, 186, 343-414
[ Nicht urheberrechtlich geschützt. Frei verfügbar hier ]

Glen_b
quelle
4

Diese Beziehung wurde nicht abgeleitet. Es wurde festgestellt, dass sich empirisch annähernd nahezu symmetrische Verteilungen halten . Siehe Jules Erklärung in Die Einführung in die Theorie der Statistik , (1922), S.121, Kapitel VII, Abschnitt 20. Er präsentiert das empirische Beispiel.

Aksakal
quelle
Tatsächlich zeigt mein Zitat von Pearson 1895, dass es etwas ist, das er eher bemerkt als abgeleitet hat.
Glen_b
2
Alte Mathe-Texte machen so viel mehr Spaß als das heutige Schreiben
Aksakal