Ist der Median eine Art Mittelwert für eine Verallgemeinerung von „Mittelwert“?

20

Der Begriff "Mittelwert" geht weit über das traditionelle arithmetische Mittel hinaus. Dehnt es sich so weit aus, dass der Median mit einbezogen wird? In Analogie dazu

raw dataidraw datameanraw meanid1arithmetic meanraw datarecipreciprocalsmeanmean reciprocalrecip1harmonic meanraw dataloglogsmeanmean loglog1geometric meanraw datasquaresquaresmeanmean squaresquare1root mean squareraw datarankranksmeanmean rankrank1median

Die Analogie, die ich ziehe, ist das quasi-arithmetische Mittel , gegeben durch:

Mf(x1,,xn)=f1(1ni=1nf(xi))

Wenn wir zum Vergleich sagen, dass der Median eines Datensatzes mit fünf Elementen gleich dem dritten Element ist, können wir dies als Äquivalent zur Rangfolge der Daten von eins bis fünf ansehen (was wir möglicherweise durch eine Funktion f ). Nehmen des Mittelwerts der transformierten Daten (die drei sind); und Ablesen des Werts des Datenelements, das Rang drei hatte (eine Art von f1 ).

In den Beispielen für den geometrischen Mittelwert, den harmonischen Mittelwert und den Effektivwert war eine feste Funktion, die für sich genommen auf jede beliebige Zahl angewendet werden kann. Um dagegen einen Rang zuzuweisen oder von den Rängen zu den ursprünglichen Daten zurückzukehren (ggf. zu interpolieren), ist die Kenntnis des gesamten Datensatzes erforderlich. Außerdem muss in Definitionen, die ich vom quasi-arithmetischen Mittel gelesen habe, f stetig sein. Wird der Median jemals als Spezialfall eines quasi-arithmetischen Mittels betrachtet und wenn ja, wie ist das f definiert? Oder wird der Median jemals als ein Beispiel für einen weiteren Begriff von "Mittelwert" beschrieben? Das quasi-arithmetische Mittel ist sicherlich nicht die einzige verfügbare Verallgemeinerung.fff

Ein Teil des Themas ist terminologisch (was bedeutet überhaupt "bedeuten", insbesondere im Gegensatz zu "zentraler Tendenz" oder "Durchschnitt"?). Beispielsweise ist in der Literatur für Fuzzy-Steuerungssysteme eine Aggregationsfunktion eine zunehmende Funktion mit F ( a , a ) = a und F ( b , b ) = b ; eine Aggregationsfunktion für dieF:[a,b]×[a,b][a,b]F(a,a)=aF(b,b)=b für alle x , y [ a , b ] wird als "Mittelwert" (im allgemeinen Sinne) bezeichnet. Eine solche Definition ist natürlich unglaublich weit gefasst! Und in diesem Zusammenhang wird der Median tatsächlich als eine Art Mittelwert bezeichnet. [ 1 ] Ich bin aber gespannt, ob sich weniger breite Charakterisierungen des Mittelwerts noch so weit erstrecken können, dass sie den Median umfassen - den sogenanntengeneralisierten Mittelwertmin(x,y)F(x,y)max(x,y)x,y[a,b][1](was besser als "Machtmittel" bezeichnet werden könnte) und Lehmermittel nicht, aber andere können. Für das, was es wert ist, nimmt Wikipedia "Median" in seine Liste der "anderen Mittel" auf , jedoch ohne weiteren Kommentar oder Zitat.

: Eine derart weit gefasste Definition des Mittelwerts, die für mehr als zwei Eingaben geeignet ist, scheint im Bereich der Fuzzy-Kontrolle Standard zu sein und taucht bei Internetsuchen häufig auf, wenn nach Instanzen des Medians gesucht wird, der als Median bezeichnet wird. Ich werde z. B. Fodor, JC & Rudas, IJ (2009), "Auf einigen Klassen von Aggregationsfunktionen, die migrativ sind",IFSA / EUSFLAT Conf. (S. 653-656). Im Übrigen wird in diesem Aufsatz darauf hingewiesen, dass einer der frühesten Verwender des Begriffs "Mittelwert" (moyenne)Cauchy war, der an der Cours d'Analyse de l'École Royale Polytechnique, 1ère Partie teilgenommen hat. Analysieren Sie algébrique (1821). Spätere Beiträge vonAczél,Chisini,[1]Kolmogorov und de Finetti werden in Fodor, J., und Roubens, M. (1995), " Über Bedeutsamkeit der Mittel ", Journal of Computational and Applied Mathematics , 64 (1), bei der Entwicklung allgemeinerer Konzepte von "Mittel" als Cauchy anerkannt. 103-115.

Silberfisch
quelle
Ich denke, arithmetischer Durchschnitt, Median und Modus werden im Allgemeinen oft als "Mittelwert" bezeichnet und das Wort wird manchmal mehrdeutig verwendet. Wie man mit Statistiken lügt Buch verwendet es als ein Beispiel für "Lügen" mit Statistiken. (Ich verstehe, dass Ihre Frage allgemeiner ist. Veröffentlichen Sie sie daher als Kommentar.)
Tim
@Tim Ich habe den unwissenschaftlichen Eindruck, dass es selten vorkommt, dass "mode" als "mean" bezeichnet wird. Aber es gibt definitiv eine enorme Verwechslungsgefahr mit der Verwendung von "Durchschnitt" (die manchmal als Synonym für "arithmetisches Mittel" verwendet wird, und zu anderen Zeiten umfasst sie Messungen der zentralen Tendenz, die überhaupt keine Mittelwerte sind) und "Mittelwerte" (die in Die allgemeine und nicht die technische Verwendung wird meistens, aber nicht ausschließlich für das "arithmetische Mittel" verwendet. Übrigens ist es wegen der anderen Bedeutungen von "Mittelwert" auch ein schwieriges Thema für die Internetsuche !
Silverfish
3
Mittelwerte (arithmetisch, geometrisch, harmonisch, aktiv, exponentiell, kombinatorisch usw.) sind "analytische Mittelwerte". Median, Quantile, Tantile sind "Positionsmittelwerte". Die Rangfolge unterscheidet sich stark von log, square usw., da es sich um die monotone Umwandlung einer Variablen in eine einheitliche Variable handelt und es keinen Rückweg zum Aufheben der Transformation gibt.
ttnphns
Btw der Begriff „generali mean“ beschäftigt ist en.wikipedia.org/wiki/Generalized_mean
ttnphns
3
Wenn Sie bei der Berechnung zulassen , i w i = 1 , kann der Median leicht als eine Art Mittelwert angesehen werden. Ebenso, aber nicht identisch, umfasst das Konzept der getrimmten Mittel mit Sicherheit Mediane als einschränkenden oder höflichen Sonderfall. stata-journal.com/article.html??article=st0313 ist eine relativ neue Überprüfung.iwixi,iwi=1
Nick Cox

Antworten:

9

Hier ist eine Möglichkeit, einen Median als "allgemeine Art von Mittelwert" zu betrachten: Definieren Sie zunächst Ihr gewöhnliches arithmetisches Mittel in Bezug auf die Ordnungsstatistik sorgfältig:

x¯=iwix(i),wi=1n.

Wenn wir dann diesen gewöhnlichen Durchschnitt der Auftragsstatistik durch eine andere Gewichtsfunktion ersetzen, erhalten wir einen Begriff des "verallgemeinerten Mittels", der den Auftrag berücksichtigt.

In diesem Fall wird aus einer Vielzahl möglicher Maßnahmen des Zentrums eine "verallgemeinerte Art von Mitteln". In dem Fall des Median, für ungerade , w ( n + 1 ) / 2 = 1 , und alle andere sind 0, und für noch n ,nw(n+1)/2=1nwn2=wn2+1=12 .

In ähnlicher Weise können Ortsschätzungen, wenn wir die M-Schätzung betrachten , auch als Verallgemeinerung des arithmetischen Mittels angesehen werden (wobei für den Mittelwert ρ quadratisch, linear oder die Gewichtsfunktion flach ist) und des Medians angesehen werden fällt auch in diese Klasse von Verallgemeinerungen. Dies ist eine etwas andere Verallgemeinerung als die vorherige.ψ

Es gibt eine Vielzahl anderer Möglichkeiten, den Begriff „Mittelwert“ zu erweitern, einschließlich des Medians.

Glen_b - Setzen Sie Monica wieder ein
quelle
Das ist sehr nett. Eng verwandt mit dieser Antwort, und die in den in der Frage zitierten Papieren diskutiert wird: der geordnete gewichtete Durchschnitt oder OWA
Silverfish
11

Wenn Sie den Mittelwert als den Punkt betrachten, der die quadratische Verlustfunktion SSE minimiert, dann ist der Median der Punkt, der die lineare Verlustfunktion MAD minimiert, und der Modus ist der Punkt, der eine 0-1-Verlustfunktion minimiert. Keine Transformationen erforderlich.

Der Median ist also ein Beispiel für einen Fréchet-Mittelwert .

Mike Anderson
quelle
3
@ Mike Anderson: Nun, das zeigt, dass die Medien ein Frechet-Mittelwert sind (siehe Wikipedia-Artikel): en.wikipedia.org/wiki/Fr%C3%A9chet_mean
kjetil b halvorsen
@Kjetil Ausgezeichnet! Die Tatsache, dass der Median ein Beispiel für einen Fréchet-Mittelwert ist, ist genau eine Antwort auf meine Frage: "Wird der Median jemals als Beispiel für einen anderen umfassenderen Begriff von" Mittelwert "beschrieben?" Und +1 an Mike Anderson. Ich hoffe, dass diese Informationen in die Antwort bearbeitet werden.
Silverfish
2
Ich habe @ Kjetils Kommentar zu der Antwort hinzugefügt, damit er in einer Site-Suche nach "Frechet mean" angezeigt wird. Danke euch beiden.
Silverfish
4

Eine einfache , aber fruchtbare Verallgemeinerung ist gewichtete Mittel , wobei Σ n i = 1 w i = 1 . Offensichtlich ist der gemeinsame oder Gartenmittelwert der einfachste Spezialfall mit gleichen Gewichten w i = 1 / ni=1nwixi/i=1nwi,i=1nwi=1wi=1/n .

Wenn die Gewichte von der Größenordnung des kleinsten bis zum größten Wert abhängen, deutet dies auf verschiedene andere Sonderfälle hin, insbesondere auf die Idee eines getrimmten Mittelwerts , der auch unter anderen Namen bekannt ist.

Stellen Sie sich zum Beispiel vor, Sie ignorieren den kleinsten und den größten Wert und nehmen den (gleichgewichteten) Mittelwert der anderen, um eine übermäßige Verwendung der Notation zu vermeiden, wenn dies nicht erforderlich oder besonders hilfreich ist. Oder stellen Sie sich vor, Sie ignorieren die zwei Kleinsten und die zwei Größten und nehmen den Mittelwert der anderen. und so weiter. Beim stärksten Zuschneiden werden alle Werte außer dem einen oder den zwei Mittelwerten in der angegebenen Reihenfolge ignoriert, je nachdem, ob die Anzahl der Werte gerade oder ungerade ist. Dies ist natürlich nur der vertraute Median . Nichts in der Idee des Zuschneidens verpflichtet Sie dazu, gleiche Zahlen in jedem Ende eines Samples zu ignorieren, aber mehr über das asymmetrische Zuschneiden zu sagen, würde uns weiter von der Hauptidee in diesem Thread entfernen.

Kurz gesagt, Mittelwerte (unqualifiziert) und Mediane sind extreme Grenzfälle für die Familie der (symmetrischen) getrimmten Mittelwerte. Die Gesamtidee besteht darin, Kompromisse zwischen einem Ideal der Verwendung aller Informationen in den Daten und einem anderen Ideal des Schutzes vor extremen Datenpunkten zuzulassen, die unzuverlässige Ausreißer sein können.

In der Referenz finden Sie eine relativ neue Übersicht.

Nick Cox
quelle
4

Lp


Grundlegende Axiome

fn:AnAARn=1,2,

min(x)fn(x)max(x) for all x=(x1,x2,,xn)An (a mean lies between the extremes),

(2) fn is invariant under permutations of its arguments (means do not care about the order of the data), and

(3) each fn is nondecreasing in each of its arguments (as the numbers increase, their mean cannot decrease).

We must allow for A to be a proper subset of real numbers (such as all positive numbers) because plenty of means, such as geometric means, are defined only on such subsets.

We might also want to add that

(1') there exists at least some xA for which min(x)fn(x)max(x) (means are not extremes). (We cannot require that this always hold. For instance, the median of (0,0,,0,1) equals 0, which is the minimum.)

These properties seem to capture the idea behind a "mean" being some kind of "middle value" of a set of (unordered) data.

Consistency axioms

I am further tempted to stipulate the rather less obvious consistency criterion

(4.a) The range of fn+1(t,x1,x2,,xn) as t varies throughout the interval [min(x),max(x)] includes fn(x). In other words, it is always possible to leave the mean unchanged by adjoining an appropriate value t to a dataset. In conjunction with (3), it implies that adjoining extreme values to a dataset will pull the mean towards those extremes.

If we wish to apply the concept of mean to a distribution or "infinite population", then one way would be to obtain it in the limit of arbitrarily large random samples. Of course the limit might not always exist (it does not exist for the arithmetic mean when the distribution has no expectation, for instance). Therefore I do not want to impose any additional axioms to guarantee the existence of such limits, but the following seems natural and useful:

(4.b) Whenever A is bounded and xn is a sequence of samples from a distribution F supported on A, then the limit of fn(xn) almost surely exists. This prevents the mean from forever "bouncing around" within A even as sample sizes get larger and larger.

Along the same lines, we could further narrow the idea of a mean to insist that it become a better estimator of "location" as sample sizes increase:

(4.c) Whenever A is bounded, then the variance of the sampling distribution of fn(X(n)) for a random sample X(n)=(X1,X2,,Xn) of F is nondecreasing in n.

Continuity axiom

We might consider asking means to vary "nicely" with the data:

(5) fn is separately continuous in each argument (a small change in the data values should not induce a sudden jump in their mean).

This requirement might eliminate some strange generalizations, but it does not rule out any well-known mean. It will rule out some aggregation functions.

An invariance axiom

We can conceive of means as applying to either interval or ratio data (in Stevens' well-known sense). We cannot demand they be invariant under shifts of location (the geometric mean is not), but we can require

(6) fn(λx)=λfn(x) for all xAn and all λ>0 for which λxAn. This says only that we are free to compute fn using any units of measurement we like.

All the means mentioned in the question satisfy this axiom except for some aggregation functions.


Discussion

General aggregation functions f2, as described in the question, do not necessarily satisfy axioms (1'), (2), (3), (5), or (6). Whether they satisfy any consistency axioms may depend on how they are extended to n>2.

The usual sample median enjoys all these axiomatic properties.

We could augment the consistency axioms to include

(4.d) f2n(x;x)=fn(x) for all xAn.

This implies that when all elements of a dataset are repeated equally often, the mean does not change. This may be too strong, though: the Winsorized mean does not have this property (except asymptotically). The purpose of Winsorizing at the 100α% level is to provide resistance against changes in at least 100α% of the data at either extreme. For instance, the 10% Winsorized mean of (1,2,3,6) is the arithmetic mean of (2,2,3,3), equal to 2.5, but the 10% Winsorized mean of (1,1,2,2,3,3,6,6) is 3.5.

I do not know which of the consistency axioms (4.a), (4.b), or (4.c) would be most desirable or useful. They appear to be independent: I don't think any two of them imply the third.

whuber
quelle
(+1) I think (1'), "means are not extremes", is an interesting point. Many otherwise natural definitions of mean happen to include the minimum and maximum as special or limiting cases: this is true of power means, Lehmer means, Fréchet mean, Chisini mean and Stolarsky mean. Though it does seem a bit odd to refer to them as "average"!
Silverfish
Yes, limiting cases are unavoidable. But for finite datasets we might want to insist that neither the max nor the min qualify as "means."
whuber
On the other hand, not only is it true that "the usual sample median enjoys all these axiomatic properties", but so do the usual sample quantile (unless I've missed something). It also feels a bit odd to refer to e.g. the upper quartile as a "mean" (though I've seen it used as a measure of central tendency on very skewed data). If we accept all other quantiles, it no longer feels quite so perverse to admit minima and maxima. But I can certainly see it may be desirable to at least retain the right to exclude them.
Silverfish
1
I am not perturbed by the admission of quantiles into the pantheon of means. After all, for given families of distributions, certain non-median quantiles will coincide with arithmetic means, so you could be in trouble if you tried to eliminate this possibility axiomatically. (Consider a family of lognormal distributions of constant geometric SD, for instance.) If the arithmetic mean cannot qualify as a mean, all is lost!
whuber
1
I have considered that approach and rejected it, as explained in my answer: if you apply such a criterion for n>2, you eliminate the median as a form of mean!
whuber
2

I think the median can be considered a type of a generalization of the arithmetic mean. Specifically, the arithmetic mean and the median (among others) can be unified as special cases of the Chisini mean. If you are going to perform some operation over a set of values, the Chisini mean is a number that you can substitute for all of the original values in the set and still get the same result. For example, if you want to sum your values, replacing all the values with the arithmetic mean will yield the same sum. The idea is that a certain value is representative of the numbers in the set in the context of a certain operation over those numbers. (An interesting implication of this way of thinking is that a given value—the arithmetic mean—can only be considered representative under the assumption that you are doing certain things with those numbers.)

This is less obvious for the median (and I note that the median is not listed as one of the Chisini means on Wolfram or Wikipedia), but if you were to allow operations over ranks, the median could fit within the same idea.

gung - Reinstate Monica
quelle
This is a very interesting suggestion. Could you suggest a suitable operation, so that for a median M we would have f(M,M,...,M)=f(x1,x2,...,xn)?
Silverfish
That's a good question, @Silverfish, I've been thinking about that ;-). My thinking is more that, in your Q & the discussion in comments, the conceptual framework seems to be how to get the mean & how to get the data back from the mean; OTOH, my framing is what we use the mean for: viz as a compressed representation of the data w/ the minimum information loss.
gung - Reinstate Monica
I've added some citations to the question which show a wider range of conceptual frameworks, including this one. At the moment I can't see a better f than "take the median", which doesn't quite seem within the spirit of the piece!
Silverfish
@Silverfish, I grant that does seem like a somewhat problematic hole in my position.
gung - Reinstate Monica
While the insight from Chisini's set-up is that, for example, the arithmetic mean preserves the sum, while the geometric mean preserves the product, it's still true (just less interesting) that the arithmetic mean of (x¯,x¯,...,x¯) is also x¯ and so on. So I'm not convinced it's a fatal blow.
Silverfish
-1

The question is not well defined. If we agree on the common "street" definition of mean as the sum of n numbers divided by n then we have a stake in the ground. Further If we would look at measures of central tendency we could say both Mean and Median are generealization but not of each other. Part of my background is in non parametrics so I like the median and the robustness it provides, invariance to monotonic transformation and more. but each measure has it's place depending on objective.

Bob Clauss
quelle
2
Welcome to our site, Bob. I believe that if you read to the end of the question--especially the long penultimate paragraph--you will discover that it is precise and well-defined. (If not, it would be a good idea to explain what you mean by "not well defined.) Your comments don't really seem to address what is being asked.
whuber
1
I actually sympathise with Bob's feeling that the question is not terribly well-defined, in the sense that the concept of "mean" does not have a single definition, but I have tried my best to make things as clear as possible. I hope my most recent edit helps clarify things.
Silverfish
1
The reason I feel the question has some value other than mere terminology (what does mean mean anyway, and is there a definition we can stretch as far as to include the median?) is that it may be instructive to see the median as just one member of a family of generalizations of the mean; Nick Cox's example of the median as a limiting case of the trimmed mean is particularly nice - it ties in neatly with the "robustness" property you like. In the family of trimmed means, the "street" arithmetic mean and the median lie at opposite ends with a spectrum between them.
Silverfish