Um das Ausmaß der 2D-Streuung um den Schwerpunkt zu charakterisieren, möchten Sie nur den (quadratischen) mittleren quadratischen Abstand.
σ^= RMS = 1n∑ich( ( xich- x¯)2+ ( yich- y¯)2)- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -√.
In dieser Formel sind die Punktkoordinaten und ihr Schwerpunkt (Punkt der Mittelwerte) ist( ˉ x , ˉ y ) .( xich, yich) , i = 1 , 2 , … , n( x¯, y¯) .
Die Frage fragt nach der Verteilung der Entfernungen. Wenn die Kugeln eine isotrope bivariate Normalverteilung um ihren Schwerpunkt haben - was eine übliche und physikalisch vernünftige Annahme ist -, ist der quadratische Abstand proportional zu einer Chi-Quadrat-Verteilung mit zwei Freiheitsgraden (einer für jede Koordinate). Dies ist eine direkte Folge einer Definition der Chi-Quadrat-Verteilung als Summe der Quadrate unabhängiger Standardnormalvariablen, da ist eine lineare Kombination unabhängiger Normalvariablen mit Erwartung Schreiben der gemeinsamen Varianz vonE[xi- ˉ x ]=n-1
xich- x¯= n - 1nxich- ∑j ≠ i1nxj
xiσ2E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1E [ xich- x¯] = n - 1nE [ xich] - ∑j ≠ i1nE [ xj] = 0.
xichals , Die Annahme der Anisotropie ist, dass die die gleiche Verteilung wie die und von diesen unabhängig sind, so dass ein identisches Ergebnis für die Verteilung von . Dies legt die Proportionalitätskonstante fest:
Die Quadrate der Abstände haben eine Chi-Quadrat-Verteilung mit zwei Freiheitsgraden, skaliert mit .σ2yjE [ ( xich- x¯)2] = Var ( xich- x¯) = ( n - 1n)2Var ( xich) + ∑j ≠ i( 1n)2Var ( xj) = n - 1nσ2.
yj ( y j - ˉ y ) 2 n - 1xich( yj- - y¯)2n -1nσ2
Der strengste Test dieser Gleichungen ist der Fall , denn dann unterscheidet sich der Bruch am meisten von . Indem wir das Experiment sowohl für als auch für simulieren und die Histogramme der quadratischen Abstände mit den skalierten Chi-Quadrat-Verteilungen (in rot) überzeichnen, können wir diese Theorie verifizieren.n - 1n = 2 1n=2n=40n -1n1n = 2n = 40
Jede Zeile zeigt die gleichen Daten: Links ist die x-Achse logarithmisch; Auf der rechten Seite wird der tatsächliche quadratische Abstand angezeigt. Der wahre Wert von für diese Simulationen wurde auf .1σ1
Diese Ergebnisse gelten für 100.000 Iterationen mit und 50.000 Iterationen mit . Die Übereinstimmungen zwischen den Histogrammen und den Chi-Quadrat-Dichten sind ausgezeichnet.n = 40n = 2n = 40
Obwohl unbekannt ist, kann es auf verschiedene Arten geschätzt werden. Zum Beispiel sollte der mittlere quadratische Abstand mal der Mittelwert von , was . Schätzen Sie beispielsweise mit als fache der mittleren quadratischen Entfernung. Somit wird eine Schätzung der wäre mal dem Abstand RMS. Mit Werten der Verteilung können wir dann sagen:n - 1σ2χn -1nσ2 2n=40σ240χ222n = 40σ2& sgr;√4039/ 2σ χ 2 240 / 78- -- -- -- -- -√χ22
Ungefähr 39% der Entfernungen sind kleiner als , da 39% einer Verteilung kleiner als . & khgr; 2 2 139 / 40- -- -- -- -- -√σ^χ221
Ungefähr 78% der Entfernungen sind kleiner als mal , da 78% einer Verteilung kleiner als . √3- -√ & khgr; 2 2 339 / 40- -- -- -- -- -√σ^χ223
Und so weiter, für jedes Vielfache, das Sie anstelle von oder . Zur Kontrolle bei den Simulationen für die zuvor aufgetragen, um die tatsächlichen Proportionen der quadrierten Abstände von weniger als mal waren3 n = 40 1 , 2 , … , 10 n - 113n = 401 , 2 , … , 10n - 1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
Die theoretischen Proportionen sind
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Die Übereinstimmung ist ausgezeichnet.
Hier ist R
Code zur Durchführung und Analyse der Simulationen.
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
Ich denke, Sie haben einige Dinge ein bisschen verwirrt. Der Abstand kann zwar nicht negativ sein, hat jedoch keinen Einfluss auf die Berechnung der Standardabweichung. Obwohl dies bedeutet, dass die Verteilung der Entfernungen nicht genau normal sein kann, kann sie dennoch eng sein. Aber selbst wenn es weit vom Normalen entfernt ist, gibt es immer noch eine Standardabweichung.
Es gibt auch keine "einseitige" Standardabweichung - Sie denken möglicherweise an Hypothesentests (die einseitig oder zweiseitig sein können). In Ihrem Titel sagen Sie, dass der Mittelwert 0 ist, aber der mittlere Abstand nicht 0 ist (es sei denn, die Bälle befinden sich in einem Stapel mit einer Höhe von 40 Bällen!) Und Sie sagen, dass es Grenzen gibt - es könnte Grenzen geben, wenn die Bälle hineingeworfen werden In einem Raum können sie nicht weiter vom Zentrum entfernt sein als der Abstand zur nächsten Wand. Aber wenn einige der Bälle nicht gegen eine Wand prallen, hat dies keine Auswirkungen auf die Dinge.
Sobald Sie die 40 Abstände haben, berechnen Sie die Standardabweichung (und den Mittelwert, den Median, den Interquartilbereich usw.) mit Standardmethoden. Sie können auch Diagramme der Entfernung erstellen (z. B. Quantil-Normal-Diagramm, Box-Diagramm), um festzustellen, ob sie ungefähr normal verteilt ist (wenn dies von Interesse ist).
quelle
Es ist schon eine Weile her, seit dies gestellt wurde, aber die Antwort auf die Frage ist, dass dies die 2D-Verteilung ist, die als Rayleigh-Verteilung bezeichnet wird. Hierbei wird angenommen, dass der Rayleigh-Formfaktor sowohl den Standardabweichungen der X- als auch der Y-Koordinaten entspricht. In der Praxis würde der Wert des Formfaktors aus dem gepoolten Durchschnitt der Standardabweichung von X und Y berechnet.
Dies gilt natürlich für die kontinuierliche Verteilung. Für eine Probe von nur 40 Bällen gibt es keine genaue Lösung. Sie müssten eine Monte-Carlo-Analyse mit einer Stichprobe von 40 Bällen durchführen. Taylor, MS & amp; Grubbs, Frank E. (1975). "Ungefähre Wahrscheinlichkeitsverteilungen für die extreme Ausbreitung" ergab Schätzungen für die Chi-Verteilung und die logarithmische Normalverteilung dafür würde zur Verteilung einer Stichprobe passen.
Bearbeiten - Trotz Wubers Zweifel sind die theoretischen Proportionen, die er berechnet hat:
0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933
Aus der CDF-Funktion ergeben sich die kumulativen Sigma-Werte für r (in Sigmas) im Bereich von:
0-1, 0-2, 0-3, ..., 0-10
sind:
0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933
quelle
Die Normalverteilung, sowohl positive als auch negative Werte, ist sinnvoll, wenn Sie erkennen, dass diese Normalverteilung für den Radius oder den "Abstand vom Schwerpunkt" gilt. Die andere Variable, Winkel, ist zufällig und gleichmäßig von 0-pi verteilt
quelle