Welches "Mittel" soll verwendet werden und wann?

197

Wir haben also das arithmetische Mittel (AM), das geometrische Mittel (GM) und das harmonische Mittel (HM). Ihre mathematische Formulierung ist ebenso bekannt wie die zugehörigen stereotypen Beispiele (z. B. das harmonische Mittel und seine Anwendung auf Probleme im Zusammenhang mit der Geschwindigkeit).

Eine Frage, die mich schon immer fasziniert hat, lautet jedoch: "Wie entscheide ich, welches Mittel in einem bestimmten Kontext am besten geeignet ist?" Es muss mindestens eine Faustregel geben , um die Anwendbarkeit zu verstehen, und dennoch lautet die häufigste Antwort, auf die ich gestoßen bin: "Es kommt darauf an" (aber worauf?).

Dies scheint eine eher triviale Frage zu sein, aber selbst Texte der Oberstufe haben dies nicht erklärt - sie enthalten nur mathematische Definitionen!

Ich bevorzuge eine englische Erklärung gegenüber einer mathematischen - ein einfacher Test wäre: "Würde Ihre Mutter / Ihr Kind das verstehen?"

PhD
quelle
20
Das ist vielleicht zu einfach, aber ich habe immer Entfernungen und Beobachtungen verwendet. Wenn die Reichweite gleich ist = AM (vergleiche Punktzahl 0-100 bis 0-100), wenn die Reichweite unterschiedlich ist, aber die Beobachtung gleich ist = GM (vergleiche Punktzahl 1-5 bis 0-10), wenn die Reichweite gleich ist, aber die Beobachtungen sind unterschiedlich = HM (Geschwindigkeit eines Autos in verschiedenen Höhen, Höhen von zwei Leitern, andere "Raten").
Brandon Bertelsen
> "Es kommt darauf an" (aber worauf?) Es kommt auf den Datenverarbeitungsalgorithmus an.
Macson
Es ist nicht nur eine Auswahl dessen, was verwendet werden soll. Sie können auch auswählen, welche Zusammenfassungsstatistik die Population oder den interessierenden Prozess beschreibt. Man sollte nicht denken, dass alles, was notwendig ist, eine einzelne Zahl ist, um etwas von vielleicht großer Komplexität zu beschreiben.
JimB

Antworten:

160

Diese Antwort hat möglicherweise eine etwas mathematischere Neigung, als Sie gesucht haben.

Es ist wichtig zu erkennen, dass all diese Mittel einfach das arithmetische Mittel in der Verkleidung sind .

Das wichtige Merkmal bei der Identifizierung, welches der drei gebräuchlichen Mittel (arithmetisch, geometrisch oder harmonisch) das "richtige" Mittel ist, ist das Finden der "additiven Struktur" in der vorliegenden Frage.

Mit anderen Worten, nehmen wir an, wir hätten einige abstrakte Größen , die ich "Messungen" nennen werde, und missbrauchen diesen Begriff aus Gründen der Konsistenz. Jedes dieser drei Mittel kann erhalten werden, indem (1) jedes in ein transformiert wird , (2) das arithmetische Mittel genommen wird und dann (3) auf die ursprüngliche Maßskala zurücktransformiert wird.x1,x2,,xnxiyi

Arithmetisches Mittel : Offensichtlich verwenden wir die "Identitäts" -Transformation: . Also sind die Schritte (1) und (3) trivial (nichts wird getan) und .yi=xix¯AM=y¯

Geometrisches Mittel : Hier liegt die additive Struktur im Logarithmus der ursprünglichen Beobachtungen. Wir nehmen also und konvertieren dann, um den GM in Schritt (3) zu erhalten, über die Umkehrfunktion des , dh .yi=logxilogx¯GM=exp(y¯)

Harmonisches Mittel : Hier ist die additive Struktur auf den Kehrwerten unserer Beobachtungen. Also, , woher .yi=1/xix¯HM=1/y¯

Bei physikalischen Problemen entstehen diese häufig durch den folgenden Prozess: Wir haben eine Größe , die in Bezug auf unsere Messungen und einige andere Größen, . Jetzt spielen wir das folgende Spiel: Halten Sie und konstant und versuchen Sie, einige zu finden, sodass, wenn wir jede unserer einzelnen Beobachtungen durch ersetzen , die "Gesamt" immer noch erhalten bleibt .wx1,,xnz1,,znwz1++znx¯xix¯

Das Beispiel für Distanz, Geschwindigkeit und Zeit scheint sehr beliebt zu sein. Verwenden wir es also.

Konstante Entfernung, wechselnde Zeiten

Betrachten wir eine feste zurückgelegte Strecke . Nehmen wir nun an, wir legen diese Strecke verschiedene Male mit den Geschwindigkeiten und nehmen die Zeiten . Wir spielen jetzt unser Spiel. Angenommen, wir wollten unsere einzelnen Geschwindigkeiten durch eine feste Geschwindigkeit ersetzen, so dass die Gesamtzeit konstant bleibt. Beachten Sie, dass wir so dass . Wir möchten, dass diese Gesamtbeziehung (Gesamtzeit und zurückgelegte Gesamtstrecke) erhalten bleibt, wenn wir in unserem Spiel jedes durch ersetzen . Daher ist dnv1,,vnt1,,tnv¯

dviti=0,
i(dviti)=0viv¯
ndv¯iti=0,
und da jedes , erhalten wir das ti=d/vi
v¯=n1v1++1vn=v¯HM.

Beachten Sie, dass sich die "additive Struktur" hier auf die einzelnen Zeiten bezieht und unsere Messungen umgekehrt auf sie bezogen sind, daher gilt das harmonische Mittel.

Unterschiedliche Entfernungen, konstante Zeit

Nun wollen wir die Situation ändern. Nehmen wir an, dass wir in Fällen eine feste Zeit mit den Geschwindigkeiten über die Entfernungen . Jetzt wollen wir die Gesamtstrecke erhalten. Wir haben und das Gesamtsystem bleibt erhalten, wenn . Spielen unser Spiel wieder suchen wir eine , so dass aber da , so erhalten wir , dass ntv1,,vnd1,,dn

divit=0,
i(divit)=0v¯
i(div¯t)=0,
di=vit
v¯=1nivi=v¯AM.

Hier ist die additive Struktur, die wir beibehalten möchten, proportional zu den Messungen, die wir haben, daher gilt das arithmetische Mittel.

Würfel mit gleichem Volumen

Angenommen, wir haben eine dimensionale Box mit einem gegebenen Volumen konstruiert und unsere Maße sind die Seitenlängen der Box. Dann ist und wir wollen einen dimensionalen (Hyper-) Würfel mit demselben Volumen konstruieren . Das heißt, wir möchten unsere einzelnen Seitenlängen durch eine gemeinsame Seitenlänge ersetzen . Dann ist nV

V=x1x2xn,
nxix¯
V=x¯x¯x¯=x¯n.

Dies zeigt leicht an, dass wir .x¯=(xixn)1/n=x¯GM

Beachten Sie, dass sich die additive Struktur in den Logarithmen befindet, und wir versuchen, die linke Menge zu erhalten.logV=ilogxi

Neu heißt aus alt

Denken Sie als Übung darüber nach, was "natürlich" in der Situation bedeutet, in der Sie im ersten Beispiel sowohl die Entfernungen als auch die Zeiten variieren lassen. Das heißt, wir haben Abstände , Geschwindigkeiten und Zeiten . Wir wollen die Gesamtstrecke und die zurückgelegte Zeit erhalten und eine Konstante , um dies zu erreichen.v i t i ˉ vdivitiv¯

Übung : Was bedeutet "natürlich" in dieser Situation?

Kardinal
quelle
25
+1 Das ist eine großartige Antwort. Ich denke jedoch, dass es in einer wichtigen Hinsicht unvollständig ist: In vielen Fällen wird der richtige Verwendungszweck eher durch die Frage bestimmt, die wir zu beantworten versuchen, als durch eine mathematische Struktur in den Daten. Ein gutes Beispiel hierfür ist die Umweltverträglichkeitsprüfung: Die Aufsichtsbehörden möchten die Gesamtbelastung der Bevölkerung mit Schadstoffen über einen längeren Zeitraum abschätzen. Dies erfordert ein angemessen gewichtetes arithmetisches Mittel, obwohl Daten zur Umgebungskonzentration normalerweise eine multiplikative Struktur haben. Das geometrische Mittel wäre der falsche Schätzer oder Schätzer.
whuber
7
@whuber: (+1) Dies ist ein ausgezeichneter Kommentar. Auf meinem Weg, eine Antwort zu konstruieren, habe ich eine ausgesprochen nicht statistische Gabelung genommen, und ich bin froh, dass Sie dies erwähnt haben. Es ist ein Thema, das einer vollständigen Antwort ( Hinweis ) würdig ist .
Kardinal
9
@whuber: Es bringt auch die Tatsache zum Vorschein (vielleicht unbeabsichtigt), dass statistische Analysen oftmals der Aufsicht von Domain-Experten (oder in Ihrem Beispiel sogar von Nicht-Experten) unterliegen können, die etwas für ihre Domain aussagekräftiges schätzen wollen, aber fast statistisch völlig unnatürlich. Das Problem, auf das ich dort in der Vergangenheit gestoßen bin, ist, dass sie manchmal auch bestimmen möchten, wie statistische Schätzungen durchgeführt werden. :)
Kardinal
1
@whuber: Es wäre sehr dankbar, wenn Sie diese Sichtweise mit einigem Aufwand auch zur Antwort hinzufügen könnten. Ihre Erklärungen gehören zu den besten, die ich bei Stats.SE gesehen habe!
PhD
3
Der übliche tolle Kommentar von @whuber. Manchmal (vielleicht oft!) Ist das richtige Mittel, um es zu benutzen, keines ; Vielmehr muss die Frage häufig dahingehend erweitert werden, "welches Maß für die zentrale Tendenz soll ich verwenden?".
Peter Flom
43

Erweiterung von @Brandons exzellentem Kommentar (der meiner Meinung nach zur Beantwortung befördert werden sollte):

Der geometrische Mittelwert sollte verwendet werden, wenn Sie an multiplikativen Differenzen interessiert sind. Brandon merkt an, dass der geometrische Mittelwert verwendet werden sollte, wenn die Bereiche unterschiedlich sind. Dies ist normalerweise richtig. Der Grund ist, dass wir die Bereiche ausgleichen wollen. Angenommen, Studienbewerber werden nach SAT-Punktzahl (0 bis 800), Notendurchschnitt in HS (0 bis 4) und außerschulischen Aktivitäten (1 bis 10) bewertet. Wenn ein College diese Werte mitteln und die Bereiche ausgleichen möchte (d. H. Gewichtszunahmen in jeder Qualität im Verhältnis zum Bereich), ist der geometrische Mittelwert der richtige Weg.

Dies ist jedoch nicht immer der Fall, wenn wir Skalen mit unterschiedlichen Bereichen haben. Wenn wir das Einkommen in verschiedenen Ländern vergleichen würden (einschließlich der armen und reichen), würden wir wahrscheinlich nicht den geometrischen Mittelwert, sondern den arithmetischen Mittelwert (oder wahrscheinlicher den Median oder vielleicht einen beschnittenen Mittelwert) wollen.

Die einzige Verwendung, die ich für das harmonische Mittel gesehen habe, ist das Vergleichen von Raten. Ein Beispiel: Wenn Sie mit 40 MPH von New York nach Boston fahren und mit 60 MPH zurückkehren, ist Ihr Gesamtdurchschnitt nicht das arithmetische Mittel von 50 MPH, sondern das harmonische Mittel.

AM = HM =2 / ( 1 / 40 + 1 / 60 ) = 48(40+60)/2=502/(1/40+1/60)=48

Um zu überprüfen, ob dies für dieses einfache Beispiel richtig ist, stellen Sie sich vor, dass es 120 Meilen von NYC nach Boston sind. Die Fahrt dorthin dauert 3 Stunden, die Heimfahrt 2 Stunden, die Gesamtdauer 5 Stunden und die Entfernung 240 Meilen. 240/5=48

Peter Flom
quelle
3
Warum würde Ihr SAT / GPA / außerschulisches Beispiel ein geometrisches Mittel anstelle eines gewichteten oder skalierten arithmetischen Mittels verwenden? Warum sollte ein SAT oder ein GPA von Null bedeuten, dass die beiden anderen Werte irrelevant werden (was ein geometrischer Mittelwert implizieren würde)? Und was ist, wenn (sagen wir) außerschulische Aktivitäten dazu neigen, sich in einem viel engeren Band als dem theoretischen Bereich zu sammeln? Es erscheint sinnvoller, ein arithmetisches Mittel von Perzentilen (oder anderen angepassten Werten) als ein geometrisches Mittel von Rohwerten zu verwenden.
Ruakh
1
@ruakh Interessant. Das 0-Problem spielt in diesem Fall keine Rolle, da SAT und GPA nicht wirklich 0 sein können (SAT = 0 ist fast unmöglich, und GPA von 0 würde nicht abschließen). Ich denke, ein arithmetisches Mittel der Perzentile wird in seinen Schlussfolgerungen dem geometrischen Mittel nahe kommen (auch wenn es nicht in den tatsächlichen Zahlen enthalten ist).
Peter Flom
31

Ich werde versuchen, es auf 3-4 Faustregeln herunterzufassen und einige weitere Beispiele für die pythagoräischen Mittel anzugeben.

Die Beziehung zwischen den 3 Mitteln ist HM <GM <AM für nicht negative Daten mit einer gewissen Variation . Sie sind genau dann gleich, wenn die Beispieldaten überhaupt nicht variieren.

Verwenden Sie für Daten in Ebenen den AM. Die Preise sind ein gutes Beispiel. Verwenden Sie für Verhältnisse den GM. Investitionsrenditen, relative Preise wie der Bloomberg Billy-Index (der Preis für Ikeas Billy-Bücherregal in verschiedenen Ländern im Vergleich zum US-Preis) und der Human Development Index der Vereinten Nationen sind Beispiele. HM ist im Umgang mit Raten angebracht. Hier ist ein nicht-automobiles Beispiel mit freundlicher Genehmigung von David Giles :

Betrachten Sie beispielsweise Daten zu "geleisteten Arbeitsstunden pro Woche" (eine Rate). Angenommen, wir haben vier Personen (Beispielbeobachtungen), von denen jede insgesamt 2.000 Stunden arbeitet. Sie arbeiten jedoch wie folgt für eine unterschiedliche Anzahl von Stunden pro Woche:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

Das arithmetische Mittel der Werte in der dritten Spalte beträgt AM = 42,5 Stunden pro Woche. Beachten Sie jedoch, was dieser Wert impliziert. Wenn man die Gesamtzahl der Wochen, die von den Stichprobenmitgliedern (8.000) gearbeitet wurden, durch diesen Durchschnittswert dividiert, ergibt sich ein Wert von 188,2353 als die Gesamtzahl der Wochen, die von allen vier Personen gearbeitet wurden.

Schauen Sie sich nun die letzte Spalte in der obigen Tabelle an. Tatsächlich beträgt der korrekte Wert für die Gesamtzahl der von den Stichprobenmitgliedern geleisteten Wochen 191,5873 Wochen. Wenn wir den harmonischen Mittelwert für die Werte für Stunden pro Woche in der dritten Spalte der Tabelle berechnen, erhalten wir HM = 41,75642 Stunden (<AM), und wenn wir diese Zahl in 8000 Stunden teilen, erhalten wir das korrekte Ergebnis von 191,5873 für die Gesamtzahl Wochen gearbeitet. In diesem Fall liefert der harmonische Mittelwert das geeignete Maß für den Stichprobenmittelwert.

David erörtert auch die gewichtete Version der 3 Mittelwerte, die in Preisindizes zur Messung der Inflation verwendet werden.

Ein Hijacky beiseite:

Diese ROTs sind nicht perfekt. Zum Beispiel fällt es mir oft schwer, herauszufinden, ob etwas eine Rate oder ein Verhältnis ist. Die Rendite einer Investition wird bei der Berechnung des Mittels in der Regel als Verhältnis behandelt, sie ist jedoch auch ein Zinssatz, da sie in der Regel in "x% pro Zeiteinheit" angegeben wird. Wäre "HM verwenden, wenn die Daten Ebenen pro Zeiteinheit sind" eine bessere Heuristik?

Wenn Sie den Big Mac-Index für nordeuropäische Länder zusammenfassen möchten, würden Sie den GM verwenden?

Dimitriy V. Masterov
quelle
3
Ein paar Jahre zu spät, aber haben Sie jemals eine Antwort auf Ihre Frage gefunden: "Wenn Sie den Big Mac-Index für nordeuropäische Länder zusammenfassen möchten, würden Sie den GM verwenden?" ?
StatsScared
2
@StatsScared Nein, aber das wäre eine schöne Frage!
Dimitriy V. Masterov
7

Eine mögliche Antwort auf Ihre Frage ("Wie entscheide ich, welcher Mittelwert in einem bestimmten Kontext am besten geeignet ist?") Ist die vom italienischen Mathematiker Oscar Chisini gegebene Definition des Mittelwerts .

Hier ist ein Papier mit einer detaillierteren Erklärung und einigen Beispielen (mittlere Fahrgeschwindigkeit und andere).

boscovich
quelle
6
Es ist ideal, wenn Sie hier ein paar Zeilen zur Definition von Chisini einfügen, falls der Link nicht mehr funktioniert, und / oder wenn Sie den Lesern mitteilen möchten, ob sie auf den Link klicken möchten, um die Ideen weiter zu verfolgen.
gung
2
In der Tat ist der Link zur Zeitung tot. Der Wolfram-Link gibt keinen Aufschluss darüber, wie nützlich die Chisini-Definition für die Bestimmung der in einem bestimmten Kontext zu verwendenden Mittel ist. es scheint mir nur eine mathematische Verallgemeinerung im Gegensatz zu einer Gebrauchsanweisung zu sein.
Ryan Simmons
1
Mit dem DOI kann man sehen, dass das Papier zu tandfonline.com verschoben wurde. Zitat: R Graziani, P Veronese (2009). Wie berechne ich einen Mittelwert? Der Chisini-Ansatz und seine Anwendungen. The American Statistician 63 (1), S. 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf
0

Ich denke, ein einfacher Weg, um die Frage zu beantworten, wäre:

  1. Wenn die mathematische Struktur xy = k ist (eine umgekehrte Beziehung zwischen Variablen) und Sie nach einem Durchschnitt suchen, müssen Sie den harmonischen Mittelwert verwenden, der einem gewichteten arithmetischen Mittelwert entspricht

Harmonischer Durchschnitt = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Zum Beispiel: Die Durchschnittsberechnung der Dollarkosten fällt in diese Kategorie, weil der von Ihnen investierte Geldbetrag (A) fest bleibt, der Preis pro Aktie (P) und die Anzahl der Aktien (N) jedoch variieren (A = PN). Wenn Sie sich einen arithmetischen Durchschnitt als eine Zahl vorstellen, die gleichermaßen zwischen zwei Zahlen zentriert ist, ist der harmonische Durchschnitt auch eine Zahl, die gleichermaßen zwischen zwei Zahlen zentriert ist gleich. Das heißt: (x - a) / a = (b - x) / b, wobei x der harmonische Durchschnitt ist.

  1. Wenn es sich bei der mathematischen Struktur um eine direkte Variation y = kx handelt, verwenden Sie das arithmetische Mittel, auf das sich das harmonische Mittel in diesem Fall reduziert.
Ira Nirenberg
quelle
1
$x$x\frac{a}{b}ab
Angenommen, Sie möchten den Durchschnitt der Wahrscheinlichkeiten mehrerer verschiedener Modelle berechnen. Ist es in diesem Fall jemals sinnvoll, geometrische oder harmonische Mittelwerte zu verwenden?
thecity2