Median> Modus> Mittelwert> Bereich

8

Meine Frage ist: Gibt es eine Reihe von Daten, die es ermöglichen, dass der Median größer als der Modus, der Modus größer als der Mittelwert und der Mittelwert größer als der Bereich ist? Wenn ja, gibt es ein Muster oder eine bestimmte Eigenschaft eines Datensatzes, um diese Situation zuzulassen (Schiefe vielleicht ...)?

PS Ich habe meinen Tippfehler korrigiert. Einige der bereits gegebenen Antworten beziehen sich auf die entgegengesetzte Situation, für die der Median gilt

BlueSigma
quelle
6
Ihr Titel hat Zeichen, aber der Text sagt jeweils "kleiner". Die Antwort ist in beiden Fällen dieselbe, aber am besten, um Ihre Frage konsistent zu machen. >
Nick Cox
5
Solche Kriterien haben nicht viel Bedeutung. Dies liegt daran, dass (a) Sie durch Konzentrieren einer kleinen Wahrscheinlichkeit innerhalb eines sehr engen Bandes einen Modus mit einem beliebigen Wert erstellen können, ohne den Mittelwert oder Median merklich zu ändern; (b) Indem Sie eine winzige Wahrscheinlichkeit auf einen Extremwert setzen, können Sie den Mittelwert irgendwo innerhalb des Bereichs setzen, ohne den Modus oder den Median merklich zu ändern. und (c) indem Sie außergewöhnlich große oder kleine Werte mit sehr kleinen Wahrscheinlichkeiten einbeziehen, können Sie den Bereich so groß machen, wie Sie möchten, ohne andere Eigenschaften merklich zu ändern.
whuber
5
Es ist auch nicht sinnvoll, die Reichweite, ein Maß für die Breite der Verteilung, mit drei Maßen der zentralen Tendenz einzuschließen.
prince_of_pears
@ Giuseppe Biondi-Zoccai Ihre Bearbeitung soll hilfreich sein, aber wir bearbeiten normalerweise keine Fragen, wenn es möglich ist, dass das OP in technischer Hinsicht verwirrt ist, selbst wenn die Notation einfach verwendet wird.
Nick Cox
@prince_of_pears Der Dimensionsbereich hat die gleichen Einheiten wie die anderen Entitäten, daher sind Vergleiche mathematisch sinnvoll . Ich bin damit einverstanden, dass ich ohne weiteres keinen statistischen Zweck für solche Vergleiche sehe , aber das ist eine andere Sache und kann Teil der Frage sein, die das OP klären muss. Bedenken Sie, dass es viele Kontexte gibt, in denen ein Vergleich von SD und Mittelwert sinnvoll ist, und es dann nicht üblich ist, zu beanstanden, dass einer die Breite und der andere Ort misst.
Nick Cox

Antworten:

8

Die Frage wurde bereits bejaht, aber lassen Sie uns dies unter dem Gesichtspunkt der Konstruktion betrachten - wie erstellen wir einen Datensatz, der dies tut?

Beachten Sie zunächst, dass wir immer alle drei Standortmaße größer als den Bereich machen können. Erstellen Sie einfach einen vorläufigen Datensatz mit dem Median> Modus> Mittelwert und berechnen Sie den Bereich. Fügen Sie nun (Bereichsmittelwert) + (für einige kleine positive ) zu allen Datenwerten hinzu, um den endgültigen Datensatz zu erhalten, woraufhin alle drei Positionsmaße den Bereich überschreiten.ϵϵ

Wir haben das Problem nun auf das Finden eines Datensatzes reduziert, bei dem Median> Modus> Mittelwert ist.

Stellen Sie sich vor, wir hätten bereits einige Daten mit einem geeigneten Median und Modus. Um den Mittelwert kleiner als den Median und den Modus zu machen, platzieren Sie einfach einen einzelnen Wert weit genug unter dem Großteil der Daten, dass der Mittelwert heruntergezogen wird. Wir können einen zweiten Wert direkt über dem Großteil der Daten platzieren, um den Median dort zu belassen, wo er war, ohne den Modus zu ändern. Jetzt können wir einen vorhandenen Datensatz ändern, der einfach den Median> -Modus hat, und einen erhalten, der den Mittelwert hat, wo wir wollen.

Erstellen wir also eine mit dem Median> -Modus. Wir können dies tun, indem wir einen Wert wiederholen lassen (wenn dies der einzige Wert ist, der zweimal auftritt, ist dies der Beispielmodus) und dann genügend andere Werte hinzufügen, um den Median größer zu machen. Dies ist ein Beispiel:

 21, 21, 22, 23, 24

Der Median ist 22, aber der Modus ist 21.

Fügen wir nun die beiden zuvor beschriebenen Punkte hinzu, um den Mittelwert 20 zu erhalten, ohne den Median oder den Modus zu ändern. Die gegenwärtigen Punkte summieren sich zu 111, also brauchen wir zwei Punkte, die zu 140-111 = 29 addieren, und einer von ihnen sollte nur größer als 24 sein. Machen wir es 25. Dann ist der kleinere Punkt 29-25 = 4.

Unser Datensatz lautet nun:

4, 21, 21, 22, 23, 24, 25

Es hat Mittelwert 20, Modus 21 und Median 22.

Lassen Sie uns nun die Beziehung zwischen denen und dem Bereich festlegen. Was ist die Reichweite? Es ist 25-4 = 21, was derzeit größer als der Mittelwert ist. Wir müssen einfach jedem Datenwert etwas hinzufügen, um den Mittelwert größer als 21 zu machen, wodurch der Bereich unverändert bleibt. Das Hinzufügen von 2 reicht aus. (Beachten Sie, dass der Bereichsmittelwert + 1 = 2 ist, damit wir sehen können, dass wir )ϵ=1

Unser endgültiger Datensatz ist also

6, 23, 23, 24, 25, 26, 27

Der Bereich ist immer noch 21, der Mittelwert ist jetzt 22, der Modus ist 23, der Median ist 24

Dieser schrittweise Ansatz ist also recht einfach anzuwenden. Zusammenfassend:

  1. Erstellen Sie einen kleinen Datensatz mit dem Median> -Modus, indem Sie den kleinsten Wert wiederholen und alle größeren Werte unterscheiden (es ist am einfachsten, sortierte Werte zu verwenden). 5 Punkte zu haben ist praktisch (da Sie den Median durch Verschieben des Mittelwerts angeben können), aber 4 ist bei Bedarf möglich.

  2. Erhalten Sie einen Mittelwert unter dem Median, indem Sie zwei Punkte hinzufügen, die den Median oder den Modus nicht ändern (dh zwei unterschiedliche / Singleton-Werte stören den Modus nicht, und wenn Sie sie auf einer Seite platzieren, behalten die vorherigen Daten den Median bei; platzieren Sie den größeren Wert vor allem die aktuellen Daten und dann die kleinsten berechnen, so dass der Gesamtmittelwert knapp unter dem Modus liegt. Dies bringt uns zu 7 Datenpunkten.

  3. Berechnen Sie den Bereich. Fügen Sie allen Datenwerten eine Konstante (Bereich - Mittelwert + ) hinzu, um sicherzustellen, dass der Mittelwert den Bereich überschreitet. Dies ist der endgültige Datensatz.ϵ


Überprüfen dieser Berechnungen in R:

x <- c(6, 23, 23, 24, 25, 26, 27)
data.frame(
     range=diff(range(x)),
     mean=mean(x),
     mode=max(as.numeric(names(table(x))[table(x)==max(table(x))])),
     median=median(x)
   )

  range mean mode median
1    21   22   23     24

(Beachten Sie, dass diese Berechnung versucht, den größten von ihnen zu finden, wenn wir irgendwie mehr als einen Modus generiert haben.)

Glen_b -State Monica
quelle
Vielen Dank, diese Erklärung ist absolut fantastisch. Gibt es ein theoretisches Merkmal einer solchen Zahlenreihe? Was ich meine ist, es ist bekannt, dass wenn Mittelwert> Median> Modus ist, die Verteilung positiv verzerrt ist. Auf der anderen Seite ist der mittlere <Median <-Modus negativ verzerrt. Gibt es ein Verteilungsmerkmal in dieser Einschränkung?
BlueSigma
1. Wenn Sie die Schiefe als Beziehung zwischen Mittelwert und Median definieren (wie der zweite Pearson-Schiefe-Koeffizient , Median-Schiefe) oder als Beziehung zwischen Modus und Mittelwert (wie der erste Pearson-Schiefe-Koeffizient; Modus-Schiefe), dann Eine Verteilung mit dem Mittelwert> Median> -Modus ist positiv verzerrt. Andernfalls ist dies nicht unbedingt der Fall - zum Beispiel, wenn ich die Schiefe als drittes zentrales Moment einer standardisierten Variablen ( Moment-Schiefe ) definiere ... ctd
Glen_b - Monica
ctd ... oder in Bezug auf die Quartilschiefe ist es nicht unbedingt so, dass der Mittelwert> Median> -Modus eine positive Schiefe impliziert. 2. Ich bin mir nicht 100% sicher, was Sie fragen ... Das relevante Merkmal des Satzes von Zahlen ist, dass die Statistiken, die Sie erwähnt haben, konstruktionsbedingt in der gewünschten Reihenfolge sind. Statistiken, die aus Unterschieden in diesen Statistiken abgeleitet werden (wie die mittlere Schiefe oder die Modusschiefe), haben das implizite Vorzeichen, sind jedoch eine Folge der Erfüllung der Bedingungen. Draußen bin ich mir nicht sicher, was Sie hier suchen.
Glen_b -Reinstate Monica
10

Ja, es ist nicht schwer, ein solches Set zu entwickeln.

S = {0, 1, 2, 3, 4, 4, 1000}

Median = 3, Modus = 4, Mittelwert = 144,85, Bereich = 1000

Daten dieser Art werden nach rechts verschoben, da Ihr Mittelwert höher als der Median ist, was bedeutet, dass Werte über dem Median im Durchschnitt weiter entfernt sind als Werte unter dem Median.

Nuclear Wang
quelle
2
Beachten Sie, dass die Frage geklärt wurde, damit die Ungleichungen in die andere Richtung gehen - dies lässt sich jedoch leicht durch eine geringfügige Anpassung der Werte beheben: {1000, 1996, 1996, 1997, 1998, 1999, 2000}: Median 1997, mode = 1996, Mittelwert = 1855,14, Bereich = 1000
RM
Konzeptionell denke ich, dass es besser ist, dies in Form von Wahrscheinlichkeitsverteilungen zu betrachten. Der Mittelwert, der Median und der Modus sind numerische Werte für die Zufallsvariable. Der Bereich ist die Länge des Satzes möglicher Werte. Es ist nicht vergleichbar mit dem anderen Parameter. Bei einer Normalverteilung sind Mittelwert, Median und Modus alle gleich. Es gibt ein Definitionsproblem bezüglich des Modus. Wenn es nur einen Peak in der Dichte gibt, gibt es keine Mehrdeutigkeit. Wenn Sie jedoch mehr als einen Peak haben, definieren einige den Modus als den höchsten Peak, während andere sagen, dass alle Peaks Modi sind.
Michael R. Chernick
Bei einer gleichmäßigen Verteilung gibt es keine Modi, da es keine Peaks gibt. Für symmetrische unimodale Verteilungen mit endlichem Mittelwert entspricht der Mittelwert dem Modus. Für verzerrte Verteilungen, die die Bedingungen für Mittelwert, Median und Modus erfüllen und existieren, ist jede Reihenfolge möglich, aber sie können nicht alle gleich sein.
Michael R. Chernick
@ Michael Chernick Nicht so. 0, 0, 1, 1, 1, 1, 3 hat Mittelwert, Median und Modus bei 1 identisch, ist aber nicht symmetrisch. Damit dies nicht erfunden wird, ist das Binomial offensichtlich verzerrt und hat Mittelwert, Median und Modus, die bei 1 identisch sind, und es gibt andere solche Fälle. (10k)0.1k0.910k,k=0,,10
Nick Cox
Bei gleichmäßigen Verteilungen stimme ich zu, dass es keinen nützlichen Modus gibt, aber es wäre auch möglich zu argumentieren, dass jeder mögliche Wert ein Modus ist.
Nick Cox
4

Unabhängig von der Reihenfolge lautet die Antwort Ja. Bei Datensätzen, bei denen es sich um Teilmengen von Verteilungen handelt, deren linker Schwanz schwerer als ihr rechter Schwanz ist, ist der Modus häufig kleiner als der Median und der Median kleiner als der Mittelwert und der Mittelwert kleiner als der Bereich. Eine Beta-Distribution mit dem Modus größer 1/2 hätte diese Eigenschaft. Wenn man den Modus an einer bestimmten Position haben möchte, kann man eine Mischungsverteilung vornehmen, indem man einen kleinen Prozentsatz einer engen (kleinen) Standardabweichung, aber einer hohen Verteilung, z. B. Dirac , addiert , wo immer man diesen Modus einsetzen möchte.δ

Carl
quelle
1
Für unimodale Verteilungen in einem bestimmten Sinne könnte der Mittelwert zwischen Modus und Median bei diskreten Zufallsvariablen häufiger vorkommen als bei kontinuierlichen Zufallsvariablen: siehe Paul T. von Hippel, Mittelwert, Median und Versatz: Korrektur eines Lehrbuchs Regel , Journal of Statistics Education Band 13, Nummer 2 (2005) oder meine Gedanken . Die Lehrbuchregel, die zu zuversichtlich in Bezug auf eine Aussage von Karl Pearson ist, lautet, den Median zwischen Modus und Mittelwert zu haben
Henry
Guter Punkt (+1), und der Modus kann überall sein.
Carl