Beziehung zwischen dem Bereich und der Standardabweichung

In einem Artikel habe ich die Formel für die Standardabweichung einer Stichprobengröße $N$

$\sigma=\frac{\overline{R}}{2.534}$

Dabei ist der durchschnittliche Bereich von Unterproben (Größe ) aus der Hauptstichprobe. Wie berechnet sich die Zahl ? Das ist die richtige Nummer? $\overline{R}$ $6$ $2.534$

standard-deviation descriptive-statistics range Andy
quelle

Referenzen bitte. Wichtiger noch: 1. Es kann hier keine "richtige Nummer" geben, unabhängig von der Art der Verteilung, aus der Sie ziehen. 2. Diese Regeln ergeben sich normalerweise aus dem Interesse an kurzen Methoden zur Schätzung der SD aus dem Bereich. Jetzt haben wir Computer ... Möchtest du das und warum? Warum nicht einfach die Daten nutzen?

Nick Cox

@ Nick Sorry: du hattest recht. Ein Wert um

4

$4$ für die Standardabweichung, wenn der Stichprobenumfang zwischen

15

$15$ und

50

$50$ .

3

$3$ funktioniert für Stichprobengrößen um

10

$10$ usw. Ich werde meinen vorherigen Kommentar löschen, damit er niemanden außer mich verwirrt!

whuber

@ NickCox es ist eine alte russische Quelle und ich habe die Formel vorher nicht gesehen.

Andy

Referenzen zu geben ist selten eine schlechte Idee. Lassen Sie die Leser selbst entscheiden, ob sie interessant oder zugänglich sind. (Es gibt hier viele Leute, die zum Beispiel Russisch lesen können.)

Nick Cox

Antworten:

In einer Stichprobe $x$ von $n$ unabhängigen Werten aus einer Verteilung $F$ mit pdf $f$ ist das pdf der gemeinsamen Verteilung der Extreme $\min(x)=x_{[1]}$ und $\max(x)=x_{[n]}$ proportional zu

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

(Die Proportionalitätskonstante ist der Kehrwert des Multinomialkoeffizienten . Dieses gemeinsame PDF drückt intuitiv die Möglichkeit aus, den kleinsten Wert im Bereich, den größten Wert im Bereich $\binom{n}{1,n-2,1} = n(n-1)$ $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ und die mittleren Werte zwischen ihnen innerhalb des Bereichs . Wenn kontinuierlich ist, können wir diesen mittleren Bereich durch Ersetzen , wobei nur eine „unendlich“ Menge an Wahrscheinlichkeit zu vernachlässigen. Die zugeordneten Wahrscheinlichkeiten, in erster Ordnung in den Differentialen, sind $n-2$ $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ $(x_{[1]}, x_{[n]}]$ $f(x_{[1]})dx_{[1]},$ $f(x_{[n]})dx_{[n]},$ and $F(x_{[n]})-F(x_{[1]}),$ respectively, now making it obvious where the formula comes from.)

Nimmt man die Erwartung des Bereichs ergibt sich für jede Normalverteilung mit Standardabweichung und . Der erwartete Bereich als Vielfaches von hängt von der Stichprobengröße : $x_{[n]} - x_{[1]}$ $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

Normal

Diese Werte wurden durch numerische Integration von über, wobeiauf die Standard-Normal-CDF eingestellt ist und durch die Standardabweichung von(die nur)dividiert wird. $\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$

Eine ähnliche multiplikative Beziehung zwischen dem erwarteten Bereich und der Standardabweichung gilt für jede Familie von Verteilungen auf Ortsskala, da dies eine Eigenschaft der Form der Verteilung allein ist. Zum Beispiel ist hier ein vergleichbares Diagramm für gleichmäßige Verteilungen:

Uniform

und Exponentialverteilungen:

Exponential

Die Werte in den beiden vorhergehenden Darstellungen wurden durch exakte - nicht numerische - Integration erhalten, was aufgrund der jeweils relativ einfachen algebraischen Formen von und ist. Für die Gleichverteilungen sind sie gleich $f$ $F$ $\frac{n-1}{(n+1)}\sqrt{12}$ and for the exponential distributions they are $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ where $\gamma$ is Euler's constant and $\psi$ is the "polygamma" function, the logarithmic derivative of Euler's Gamma function.

Obwohl sie sich unterscheiden (weil diese Verteilungen einen weiten Bereich von Formen aufweisen), stimmen die drei ungefähr um überein , was zeigt, dass der Multiplikator nicht stark von der Form abhängt und daher als eine allumfassende, robuste Bewertung der Standardabweichung dienen kann wenn Bereiche kleiner Unterproben bekannt sind. (Tatsächlich hat die sehr schwerfällige Student Verteilung mit drei Freiheitsgraden immer noch einen Multiplikator um für , nicht weit von .) $n=6$ $2.5$ $t$ $2.3$ $n=6$ $2.5$

whuber
quelle

Wonderful exposition! You may be interested to know that this appears to have been investigated back in the 1920s. See Tippet 1925. In Tippet's tables (Table X) the expected value for the range given a sample of size 6 is

2.53441 σ

$2.53441\sigma$ . He shows the derivation of the complete distribution of the range for the normal distribution. This was used by David et.al. (1954) to calculate probability points of the range distribution for a test for normality (see D'Agostino & Stephens 9.3.3.4.2).

Avraham

@Avraham Thank you for the illuminating comments. What struck me when I added the graphics is that the really clever part of this whole approach is the use of subsamples of size six because that's where the multipliers all tend to be about the same regardless of distributional shape.

whuber

Thanks! Tippet's tables actually give the appropriate multiplier for all numbers between 2 and 1000. He does mention running into calculation issues; of course, this was back in 1925 a good 20 years before ENIAC.

Avraham

@whuber can you show how the number (2.534) was calculated?

Andy

I edited the answer to include explanations of the calculations.

whuber

That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

which yields:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.

Edit: See @Whuber's exceptional comment (above) on why this works

quelle

You are drawing subsamples of size

6

$6$ from an approximately uniform distribution. For a truly uniform distribution the ratio is

10 \sqrt{3} / 7 \approx 2.474

$10\sqrt{3}/7\approx 2.474$ . Indeed, if you were to use that factor in your simulation you would obtain mean(R)/2.474 equal to

2887.6

$2887.6$ , very close to sd(x).

whuber

Very true! > mean(R)/2.474 [1] 2887.611