In der Diskussion nach einer kürzlich gestellten Frage, ob die Standardabweichung den Mittelwert überschreiten kann, wurde eine Frage kurz aufgeworfen, aber nie vollständig beantwortet. Also frage ich es hier.
Betrachten Sie eine Menge von nichtnegativen Zahlen wobei für . Es ist nicht erforderlich, dass x_i unterschiedlich ist, das heißt, dass die Menge eine Mehrfachmenge sein kann. Der Mittelwert und die Varianz der Menge sind definiert als \ bar {x} = \ frac {1} {n} \ sum_ {i = 1} ^ n x_i, ~~ \ sigma_x ^ 2 = \ frac {1} {n} \ sum_ {i = 1} ^ n (x_i - \ bar {x}) ^ 2 = \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) - \ bar {x} ^ 2 und die Standardabweichung ist \ sigma_x . Beachten Sie, dass die Menge der Zahlen keine Stichprobe aus einer Population ist und wir keinen Populationsmittelwert oder eine Populationsvarianz schätzen. Die Frage ist dann:
Was ist der Maximalwert von , dem Variationskoeffizienten, über alle Auswahlen der im Intervall ?
Der Maximalwert, I finden können ist , die erreicht wird , wenn der Wert , und die verbleibenden (outlier) hat Wert mit
Irgendwelche Ideen? Ich bin sicher, dass diese Frage bereits in der statistischen Literatur untersucht wurde, und daher wären Referenzen, wenn nicht die tatsächlichen Ergebnisse, sehr willkommen.
quelle
Antworten:
Geometrie bietet Einsicht und klassische Ungleichungen ermöglichen einen einfachen Zugang zu Genauigkeit.
Geometrische Lösung
Aus der Geometrie der kleinsten Quadrate wissen wir , dass die orthogonale Projektion des Vektors der Daten x = ( x 1 , x 2 , … , x n ) auf ist der lineare Unterraum, der durch den konstanten Vektor ( 1 , 1 , … , 1 ) und das σ x erzeugt wirdx¯=(x¯,x¯,…,x¯) x=(x1,x2,…,xn) (1,1,…,1) σx ist direkt proportional zum (euklidischen) Abstand zwischen und ˉ x . Die Nicht-Negativitätsbeschränkungen sind linear, und die Entfernung ist eine konvexe Funktion, von der aus die durch die Beschränkungen bestimmten Extremwerte der Entfernung an den Kanten des Kegels erreicht werden müssen. Dieser Kegel ist die positive Orthante in R n und seine Kanten sind die Koordinatenachsen, woraus unmittelbar folgt, dass alle außer einem der x i bei den maximalen Abständen Null sein müssen. Für einen solchen Datensatz ergibt eine direkte (einfache) Berechnung σ x / ˉ x = √x x¯. Rn xi σx/x¯=n−−√.
Lösung, die klassische Ungleichungen ausnutzt
optimiertgleichzeitig mit jeder monotonen Transformation davon. Lassen Sie uns im Lichte dessen maximierenσx/x¯
(Die Formel für kann mysteriös aussehen, bis Sie erkennen, dass sie nur die Schritte aufzeichnet, die bei der algebraischen Manipulation von σ x / ˉ x erforderlich sind , um eine einfach aussehende Form zu erhalten. Dies ist die linke Seite.)f σx/x¯
Ein einfacher Weg beginnt mit Holder Ungleichung ,
(In diesem einfachen Zusammenhang bedarf es keines besonderen Beweises: Ersetzen Sie lediglich einen Faktor jedes Terms durch die maximale Komponente max ( { x i } ) : Die Summe der Quadrate nimmt offensichtlich nicht ab der gemeinsame Term max ( { x i } ) ergibt die rechte Seite der Ungleichung.)x2i=xi×xi max({xi}) max({xi})
Da die nicht alle 0 sind (was σ x / ˉ x undefiniert lassen würde), ist die Division durch das Quadrat ihrer Summe gültig und ergibt die äquivalente Ungleichungxi 0 σx/x¯
Da der Nenner nicht kleiner sein kann als der Zähler (der selbst nur einer der Begriffe im Nenner ist), wird die rechte Seite von dem Wert dominiert , der nur erreicht wird, wenn alle bis auf eines von x i gleich 0 sind . Woher1 xi 0
Alternativer Ansatz
Da die nicht negativ sind und nicht zu 0 summieren können, bestimmen die Werte p ( i ) = x i / ( x 1 + x 2 + … + x n ) eine Wahrscheinlichkeitsverteilung F auf { 1 , 2 , … , n } . Wenn wir s für die Summe von x i schreiben , erkennen wirxi 0 p(i)=xi/(x1+x2+…+xn) F {1,2,…,n} s xi
The axiomatic fact that no probability can exceed1 implies this expectation cannot exceed 1 , either, but it's easy to make it equal to 1 by setting all but one of the pi equal to 0 and therefore exactly one of the xi is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.
quelle
Some references, as small candles on the cakes of others:
Katsnelson and Kotz (1957) proved that so long as allxi≥0 , then the coefficient of
variation cannot exceed n−1−−−−−√ . This result was mentioned earlier by Longley (1952). Cramér
(1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.
Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.
Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.
Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.
Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.
I came across these papers in working on
Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.
which discusses broadly similar bounds on moment-based skewness and kurtosis.
quelle
With two numbersxi≥xj , some δ>0 and any μ :
Applying this ton non-negative datapoints, this means that unless all but one of the n numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n−1−−−−−√ .
quelle