Was kann man aus den Daten schließen, wenn das arithmetische Mittel dem geometrischen Mittel sehr nahe kommt?

24

Gibt es irgendetwas Bedeutendes an einem geometrischen Mittelwert und einem arithmetischen Mittelwert, die sehr nahe beieinander liegen, sagen wir ~ 0,1%? Welche Vermutungen lassen sich über einen solchen Datensatz anstellen?

Ich habe gerade an der Analyse eines Datensatzes gearbeitet und merke, dass die Werte ironischerweise sehr, sehr nahe beieinander liegen. Nicht genau, aber nah. Auch eine schnelle Überprüfung der arithmetischen Mittelwert-geometrischen Mittelwert-Ungleichung sowie eine Überprüfung der Datenerfassung zeigen, dass die Integrität meines Datensatzes in Bezug auf die Art und Weise, in der ich auf die Werte gekommen bin, nichts faul ist.

user12289
quelle
6
Kleine Anmerkung: Überprüfen Sie zuerst, ob Ihre Daten alle positiv sind. Bei einer geraden Anzahl negativer Werte erhalten Sie möglicherweise ein positives Produkt, und bei einigen Paketen wird das potenzielle Problem möglicherweise nicht angezeigt (die AM-GM-Ungleichung beruht darauf, dass alle Werte positiv sind). Siehe zum Beispiel (in R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (während das arithmetische Mittel 1 ist)
Glen_b - Monica am
1
Um auf den Punkt von @ Glen_b einzugehen, hat ein Datensatz {x,0,x} immer das gleiche arithmetische und geometrische Mittel, nämlich Null. Wir können die drei Werte jedoch beliebig weit streuen.
Hardmath
Sowohl arithmetische als auch geometrische Mittel haben die gleiche verallgemeinerte Formel , wobei das erstere und das letztere steht. Es wird dann intuitiv klar, dass die beiden sich immer näher kommen, wenn die Datenwerte immer gleich sind und sich konstant nähern. p 0 xp=1p0x
TTNPHNS

Antworten:

29

Das arithmetische Mittel bezieht sich auf das geometrische Mittel durch die Ungleichung Arithmetic-Mean-Geometric-Mean (AMGM), die besagt, dass:

x1+x2++xnnx1x2xnn,

Wobei Gleichheit erreicht wird, wenn . Wahrscheinlich sind Ihre Datenpunkte also alle sehr nah beieinander.x1=x2==xn

Alex R.
quelle
4
Dies ist richtig. Je kleiner die Varianz der Werte ist, desto näher sind die beiden Mittelwerte.
Michael M
16
Die Varianz müsste im Vergleich zur Größe der Beobachtungen gering sein. Daher müsste der Variationskoeffizient klein sein.σ/μ
Michael Hardy
1
Steht AMGM für irgendetwas? Wenn ja, wäre es schön, wenn es buchstabiert würde.
Richard Hardy
@RichardHardy: AMGM steht für 'arithmetisches Mittel - geometrisches Mittel'
1
@ user1108, danke, eigentlich habe ich es bekommen, nachdem ich die anderen Beiträge gelesen habe. Ich denke nur, dass es in der Antwort dargelegt werden könnte (nicht nur in den Kommentaren).
Richard Hardy
15

Eine Möglichkeit, die AMGM-Ungleichung zu erkennen, besteht darin, die Antwort von @Alex R als Jensens Ungleichungseffekt zu betrachten. Durch Jensens Ungleichung : Nehmen Sie dann das Exponential beider Seiten: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Die rechte Seite ist das geometrische Mittel, da (x1x2xn)1/n=exp(1nilogxi)

Wann gilt die AMGM-Ungleichung mit nahezu Gleichheit? Wenn der Ungleichungseffekt des Jensen gering ist. Was hier den Ungleichungseffekt des Jensen antreibt, ist die Konkavität, die Krümmung des Logarithmus. Wenn sich Ihre Daten auf einen Bereich verteilen, in dem der Logarithmus gekrümmt ist, ist der Effekt groß. Wenn sich Ihre Daten auf eine Region verteilen, in der der Logarithmus grundsätzlich affin ist, ist der Effekt gering.

Wenn zum Beispiel die Daten wenig variieren und in einer ausreichend kleinen Nachbarschaft zusammengewürfelt sind, sieht der Logarithmus wie eine affine Funktion in dieser Region aus (ein Thema der Berechnung ist, dass, wenn Sie auf eine glatte, kontinuierliche Funktion genug zoomen, diese es wird wie eine Linie aussehen). Für Daten, die nahe genug beieinander liegen, liegt das arithmetische Mittel der Daten nahe am geometrischen Mittel.

Matthew Gunn
quelle
12

Untersuchen wir den Bereich von , da ihr arithmetisches Mittel (AM) ein kleines Vielfaches von 1 + δ ihres geometrischen Mittels (GM) ist (mit δ 0 ). In der Frage ist δ 0.001, aber wir kennen n nicht .x1x2xn1+δδ0δ0.001n

Da sich das Verhältnis dieser Mittel nicht ändert, wenn die Maßeinheiten geändert werden, wählen Sie eine Einheit, für die der GM . Daher versuchen wir, x n unter der Bedingung zu maximieren , dass x 1 + x 2 + + x n = n ( 1 + δ ) und x 1x 2x n = 1 .1xnx1+x2++xn=n(1+δ)x1x2xn=1

Dies wird erreicht, indem und x n = z x gesetzt werden . Somitx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

und

1=x1x2xn=xn1z.

Die Lösung ist eine Wurzel zwischen 0 und 1 vonx01

(1n)xn+n(1+δ)xn11.

Es ist leicht iterativ zu finden. Hier sind die Graphen des optimalen und z als Funktion von δ für n = 6 , 20 , 50 , 150 von links nach rechts:xzδn=6,20,50,150

Figure

Sobald eine nennenswerte Größe erreicht, stimmt auch ein winziges Verhältnis von 1,001 mit einem großen äußeren x n (den oberen roten Kurven) und einer Gruppe von dicht gebündelten x i (den unteren blauen Kurven) überein .n1.001xnxi

Angenommen, im anderen Extrem ist gerade (der Einfachheit halber). Der minimale Bereich ist erreicht, wenn die Hälfte von x i gleich einem Wert x 1 und die andere Hälfte gleich einem anderen Wert z 1 ist . Nun ist die Lösung (die leicht zu überprüfen ist)n=2kxix1z1

xk=1+δ±δ2+2δ.

δδ2kth

x1+δ2δk; z1+δ+2δk.

32δ/n

nδ

Ähnliche, ebenso einfach durchzuführende Analysen können Sie - quantitativ - darüber informieren, wie eng das gruppiert istxich Dies kann in Form eines anderen Maßes für die Streuung erfolgen, wie z. B. ihrer Varianz oder ihres Variationskoeffizienten.

whuber
quelle
On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry
@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber
I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry
@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber