Das harmonische Mittel H der Zufallsvariablen X1,...,Xn ist definiert als
H=11n∑ni=11Xi
Momente von Brüchen zu nehmen ist eine unordentliche Angelegenheit, daher würde ich lieber mit dem 1/H . Jetzt
1H=1n∑i=1n1Xi
.
Mit dem zentralen Grenzwertsatz bekommen wir das sofort
n−−√(H−1−EX−11)→N(0,VarX−11)
wenn natürlich VarX−11<∞ und Xi iid sind, da wir einfach mit dem arithmetischen Mittel der Variablen Yi=X−1i .
Mit der Delta-Methode für die Funktion g(x)=x−1 wir das
n−−√(H−(EX−11)−1)→N(0,VarX−11(EX−11)4)
Dieses Ergebnis ist asymptotisch, aber für einfache Anwendungen kann es ausreichen.
Update Wie @whuber zu Recht betont, sind einfache Anwendungen eine Fehlbezeichnung. Der zentrale Grenzwertsatz gilt nur, wenn VarX−11 existiert, was eine recht restriktive Annahme ist.
Update 2 Wenn Sie eine Stichprobe haben, fügen Sie zur Berechnung der Standardabweichung einfach Stichprobenmomente in die Formel ein. Also für Probe X1,...,Xn ist die Schätzung des harmonischen Mittelwerts
H^=11n∑ni=11Xi
Die Abtastmomente EX−11 und Var(X−11) sind:
μ^Rσ^2R=1n∑i=1n1Xi=1n∑i=1n(1Xi−μR)2
hier steht R für wechselseitig.
Schließlich wird die Näherungsformel für die Standardabweichung von H ist ,H^
sd(H^)=σ^2Rnμ^4R−−−−⎷
Ich habe einige Monte-Carlo-Simulationen für Zufallsvariablen durchgeführt, die gleichmäßig im Intervall verteilt sind [2,3] . Hier ist der Code:
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
Ich habe N
Proben von n
großen Proben simuliert . Für jede n
Stichprobe berechnete ich die Schätzung der Standardschätzung (Funktionsdhm
). Dann vergleiche ich den Mittelwert und die Standardabweichung dieser Schätzungen mit der für jede Probe geschätzten Standardabweichung des harmonischen Mittelwerts, die vermutlich die wahre Standardabweichung des harmonischen Mittelwerts sein sollte.
Wie Sie sehen können, sind die Ergebnisse auch bei moderaten Stichprobengrößen recht gut. Natürlich ist eine gleichmäßige Verteilung sehr gut, daher ist es nicht verwunderlich, dass die Ergebnisse gut sind. Ich überlasse es jemand anderem, das Verhalten für andere Distributionen zu untersuchen. Der Code ist sehr einfach anzupassen.
Hinweis: In der vorherigen Version dieser Antwort ist ein Fehler im Ergebnis der Delta-Methode aufgetreten, falsche Varianz.
My answer to a related question points out that the harmonic mean of a set of positive dataxi is a weighted least squares (WLS) estimate (with weights 1/xi ). You can therefore compute its standard error using WLS methods. This has some advantages, including simplicity, generality, and interpretability as well as being automatically produced by any statistical software that allows weights in its regression calculation.
The principal disadvantage is that the calculation does not produce good confidence intervals for highly skewed underlying distributions. That's likely to be a problem with any general-purpose method: the harmonic mean is sensitive to the presence of even a single tiny value in the dataset.
To illustrate, here are empirical distributions of20 independently generated samples of size n = 12 aus einer Gamma (5) -Verteilung (die leicht verzerrt ist). Die blauen Linien zeigen den wahren harmonischen Mittelwert (gleich4 ), während die roten gestrichelten Linien die Schätzungen der gewichteten kleinsten Quadrate zeigen. Die vertikalen grauen Bänder um die blauen Linien sind ungefähre zweiseitige 95% -Konfidenzintervalle für das harmonische Mittel. In diesem Fall insgesamt20 Proben Der CI deckt den wahren harmonischen Mittelwert ab. Wiederholungen dieser Simulation (mit zufälligen Samen) legen nahe, dass die Abdeckung selbst für diese kleinen Datensätze nahe an der beabsichtigten 95% -Rate liegt.
Hier ist der
R
Code für die Simulation und die Abbildungen.quelle
Hier ist ein Beispiel für Exponential r.v.
Das harmonische Mittel fürn Datenpunkte ist definiert als
Angenommen, Sie habenn iid Stichproben einer exponentiellen Zufallsvariablen, X.ich∼ E x p ( λ ) . The sum of n Exponential variables follows a Gamma distribution
whereθ=1λ . We also know that
The distribution ofS is therefore
The variance (and standard deviation) of this r.v. are well known, see, for example here.
quelle
There is some concern that mpiktas's CLT requires a bounded variance on1/X . It is true that 1/X has crazy tails when X has positive density around zero. However, in many applications using the harmonic mean, X≥1 . Here, 1/X is bounded by 1 , giving you all the moments that you want!
quelle
What I would suggest is to use the following formula as a substitute for the standard deviation:
wherex^=N∑1xi . The nice thing about this formula is that it is minimized when x^=N∑1xi , and it has the same units as the standard deviation would (which are the same units as x has).
This is in analogy to the standard deviation, which is the value that1N∑(x^−xi)2−−−−−−−−−−−√ takes when it is minimized over x^ . It is minimized when x^ is the mean: x^=μ=1N∑xi .
quelle