Berechnung der 2D-Standardabweichung mit dem Mittelwert 0, begrenzt durch Grenzwerte

10

Mein Problem ist wie folgt: Ich lasse 40 Bälle gleichzeitig von einem bestimmten Punkt fallen, einige Meter über dem Boden. Die Kugeln rollen und kommen zur Ruhe. Mit Computer Vision berechne ich den Schwerpunkt in der XY-Ebene. Ich interessiere mich nur für den Abstand vom Massenschwerpunkt zu jeder Kugel, der mit einfacher Geometrie berechnet wird. Jetzt möchte ich die einseitige Standardabweichung vom Zentrum kennen. Ich könnte also wissen, dass sich eine bestimmte Anzahl von Bällen innerhalb eines Standardradius befindet, mehr Bälle innerhalb eines Standardradius von 2 * und so weiter. Wie berechne ich die einseitige Standardabweichung? Ein normaler Ansatz würde besagen, dass die Hälfte der Bälle auf der "negativen Seite" des Mittelwerts 0 liegt. Dies macht in diesem Experiment natürlich keinen Sinn. Muss ich sicherstellen, dass die Kugeln der Standardverteilung entsprechen? Vielen Dank für jede Hilfe.

K_scheduler
quelle

Antworten:

13

Um das Ausmaß der 2D-Streuung um den Schwerpunkt zu charakterisieren, möchten Sie nur den (quadratischen) mittleren quadratischen Abstand.

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

In dieser Formel sind die Punktkoordinaten und ihr Schwerpunkt (Punkt der Mittelwerte) ist( ˉ x , ˉ y ) .(xi,yi),i=1,2,,n(x¯,y¯).


Die Frage fragt nach der Verteilung der Entfernungen. Wenn die Kugeln eine isotrope bivariate Normalverteilung um ihren Schwerpunkt haben - was eine übliche und physikalisch vernünftige Annahme ist -, ist der quadratische Abstand proportional zu einer Chi-Quadrat-Verteilung mit zwei Freiheitsgraden (einer für jede Koordinate). Dies ist eine direkte Folge einer Definition der Chi-Quadrat-Verteilung als Summe der Quadrate unabhängiger Standardnormalvariablen, da ist eine lineare Kombination unabhängiger Normalvariablen mit Erwartung Schreiben der gemeinsamen Varianz vonE[xi- ˉ x ]=n-1

xix¯=n1nxiji1nxj
xiσ2E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xials , Die Annahme der Anisotropie ist, dass die die gleiche Verteilung wie die und von diesen unabhängig sind, so dass ein identisches Ergebnis für die Verteilung von . Dies legt die Proportionalitätskonstante fest: Die Quadrate der Abstände haben eine Chi-Quadrat-Verteilung mit zwei Freiheitsgraden, skaliert mit .σ2yj
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yj ( y j - ˉ y ) 2 n - 1xi(yjy¯)2n1nσ2

Der strengste Test dieser Gleichungen ist der Fall , denn dann unterscheidet sich der Bruch am meisten von . Indem wir das Experiment sowohl für als auch für simulieren und die Histogramme der quadratischen Abstände mit den skalierten Chi-Quadrat-Verteilungen (in rot) überzeichnen, können wir diese Theorie verifizieren.n - 1n=2 1n=2n=40n1n1n=2n=40

Zahl

Jede Zeile zeigt die gleichen Daten: Links ist die x-Achse logarithmisch; Auf der rechten Seite wird der tatsächliche quadratische Abstand angezeigt. Der wahre Wert von für diese Simulationen wurde auf .1σ1

Diese Ergebnisse gelten für 100.000 Iterationen mit und 50.000 Iterationen mit . Die Übereinstimmungen zwischen den Histogrammen und den Chi-Quadrat-Dichten sind ausgezeichnet.n = 40n=2n=40


Obwohl unbekannt ist, kann es auf verschiedene Arten geschätzt werden. Zum Beispiel sollte der mittlere quadratische Abstand mal der Mittelwert von , was . Schätzen Sie beispielsweise mit als fache der mittleren quadratischen Entfernung. Somit wird eine Schätzung der wäre mal dem Abstand RMS. Mit Werten der Verteilung können wir dann sagen:n - 1σ2χn1nσ2 2n=40σ240χ222n=40σ2& sgr;4039/2σ χ 2 240/78χ22

  • Ungefähr 39% der Entfernungen sind kleiner als , da 39% einer Verteilung kleiner als . & khgr; 2 2 139/40σ^χ221

  • Ungefähr 78% der Entfernungen sind kleiner als mal , da 78% einer Verteilung kleiner als .3 & khgr; 2 2 339/40σ^χ223

Und so weiter, für jedes Vielfache, das Sie anstelle von oder . Zur Kontrolle bei den Simulationen für die zuvor aufgetragen, um die tatsächlichen Proportionen der quadrierten Abstände von weniger als mal waren3 n = 40 1 , 2 , , 10 n - 113n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Die theoretischen Proportionen sind

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

Die Übereinstimmung ist ausgezeichnet.


Hier ist RCode zur Durchführung und Analyse der Simulationen.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
whuber
quelle
2
Vielen Dank für eine sehr umfassende Antwort. Ich kann nicht ganz verstehen, wie die RMS-Formel die Standardabweichung beschreiben kann, ohne durch die Anzahl der Kugeln zu dividieren. Wenn Sie es mit http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics vergleichen, haben sie die Summe durch N geteilt. Sollte die Summe durch N oder N-1 geteilt werden (da 40 Bälle nur a sind Auswahl aus einer Population von Bällen?)
K_scheduler
Nachdem ich die Berechnungen erneut durchgeführt habe, scheint mir sqrt (SDx ^ 2 + SDy ^ 2) das zu sein, wonach ich suche. Dies gibt mir einen Radius für einen Kreis, der alle Bälle mit einer Wahrscheinlichkeit von 65% enthält, oder?
K_scheduler
Dies ist eine äquivalente Formel für den Effektivwert, aber der 65% -Wert ist falsch, wie in dieser Antwort erläutert.
whuber
2
@nali All diese Punkte werden in meiner Antwort hier deutlich gemacht.
whuber
4
@nali Deine Beiträge hier gehen in ihrer Unhöflichkeit und Ad-Hominem- Attacke über die Grenzen des Anstands hinaus . Obwohl ich mir keine Sorgen darüber mache, als unwissend oder dumm angesehen zu werden, muss ich als Moderator dieser Website besorgt sein, den Diskurs zivil zu halten, und kann daher die von Ihnen gepostete Vituperation nicht tolerieren. Dementsprechend habe ich Ihren letzten Kommentar gelöscht. Wenn ich Kommentare von Ihnen sehe, die ähnlich unhöflich sind, werde ich sie ohne weitere Ankündigung löschen und sofort (und andere Moderatoren) Maßnahmen ergreifen, um Ihre Interaktionen auf dieser Website einzuschränken.
whuber
4

Ich denke, Sie haben einige Dinge ein bisschen verwirrt. Der Abstand kann zwar nicht negativ sein, hat jedoch keinen Einfluss auf die Berechnung der Standardabweichung. Obwohl dies bedeutet, dass die Verteilung der Entfernungen nicht genau normal sein kann, kann sie dennoch eng sein. Aber selbst wenn es weit vom Normalen entfernt ist, gibt es immer noch eine Standardabweichung.

Es gibt auch keine "einseitige" Standardabweichung - Sie denken möglicherweise an Hypothesentests (die einseitig oder zweiseitig sein können). In Ihrem Titel sagen Sie, dass der Mittelwert 0 ist, aber der mittlere Abstand nicht 0 ist (es sei denn, die Bälle befinden sich in einem Stapel mit einer Höhe von 40 Bällen!) Und Sie sagen, dass es Grenzen gibt - es könnte Grenzen geben, wenn die Bälle hineingeworfen werden In einem Raum können sie nicht weiter vom Zentrum entfernt sein als der Abstand zur nächsten Wand. Aber wenn einige der Bälle nicht gegen eine Wand prallen, hat dies keine Auswirkungen auf die Dinge.

Sobald Sie die 40 Abstände haben, berechnen Sie die Standardabweichung (und den Mittelwert, den Median, den Interquartilbereich usw.) mit Standardmethoden. Sie können auch Diagramme der Entfernung erstellen (z. B. Quantil-Normal-Diagramm, Box-Diagramm), um festzustellen, ob sie ungefähr normal verteilt ist (wenn dies von Interesse ist).

Peter Flom - Monica wieder einsetzen
quelle
Danke Peter, ich habe mich nicht richtig ausgedrückt. Lassen Sie mich versuchen zu klären: Stellen Sie sich die Szene von oben vor. Wenn Sie den mittleren Abstand berechnen, wird dieser als Kreis um den Schwerpunkt dargestellt (mittlerer Abstand = Radius). Eine +/- Standardabweichung davon ergibt nun einen kleineren Kreis und einen größeren Kreis. Ich möchte nicht die Standardabweichung des mittleren Abstands zum Schwerpunkt wissen, sondern die Standardabweichung vom Schwerpunkt nach außen. Mit anderen Worten, innerhalb eines Radius vom Massenmittelpunkt liegen 68,2% (eine Standardabweichung) der Kugeln.
K_scheduler
Oh ok. Dann denke ich, dass dies kein Statistikproblem ist, sondern ein mathematisches Problem. Es ist bekannt, wo 68,2% fallen werden ... Ich vergesse die Antwort, aber es geht um . π
Peter Flom - Reinstate Monica
Sie könnten in Ihrer ersten Antwort Recht haben. Nach dem, was ich gefunden habe, sollte die Verwendung der radialen Standardabweichung den Trick tun. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler
1

Es ist schon eine Weile her, seit dies gestellt wurde, aber die Antwort auf die Frage ist, dass dies die 2D-Verteilung ist, die als Rayleigh-Verteilung bezeichnet wird. Hierbei wird angenommen, dass der Rayleigh-Formfaktor sowohl den Standardabweichungen der X- als auch der Y-Koordinaten entspricht. In der Praxis würde der Wert des Formfaktors aus dem gepoolten Durchschnitt der Standardabweichung von X und Y berechnet.

XN(μx,σx2)
YN(μy,σy2)

f(x,y)=12πσxσy1- -ρ2exp(- -12(1- -ρ2)[(x- -μx)2σx2+(y- -μy)2σy2- -2ρ(x- -μx)(y- -μy)σxσy]])

(μx,μy)
ρ=0

σx2=σy2
σ2

(μx,μy)

P.D.F.(r;;σ)=rσ2exp(- -r22σ2)
σ=σx=σy
rich=(xich- -μx)2+(yich- -μy)2

C.D.F.(r;;σ)=1- -exp(- -r22σ2)

Dies gilt natürlich für die kontinuierliche Verteilung. Für eine Probe von nur 40 Bällen gibt es keine genaue Lösung. Sie müssten eine Monte-Carlo-Analyse mit einer Stichprobe von 40 Bällen durchführen. Taylor, MS & amp; Grubbs, Frank E. (1975). "Ungefähre Wahrscheinlichkeitsverteilungen für die extreme Ausbreitung" ergab Schätzungen für die Chi-Verteilung und die logarithmische Normalverteilung dafür würde zur Verteilung einer Stichprobe passen.


Bearbeiten - Trotz Wubers Zweifel sind die theoretischen Proportionen, die er berechnet hat:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933

Aus der CDF-Funktion ergeben sich die kumulativen Sigma-Werte für r (in Sigmas) im Bereich von:

0-1, 0-2, 0-3, ..., 0-10

sind:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933

MaxW
quelle
Vielen Dank, dass Sie die Distribution benannt haben. Wenn Sie jedoch (1) nicht zwischen dem Verteilungsparameter und den aus den Daten abgeleiteten Schätzungen dieses Parameters unterscheiden, (2) die (starken) Annahmen, die für die Verteilung der Bälle erforderlich sind, nicht angeben und (3) vage sind, riskieren Sie irreführende Leser. In der Tat ist unklar, worauf sich Ihr "dies" bezieht: Wäre es die Verteilung der Positionen der Bälle? (Nein.) Die Verteilung des Massenschwerpunkts? (Ja, aber mit einem Skalenparameter, der von der Standardabweichung der Kugeln abweicht.) Möchten Sie Ihre Antwort klarstellen?
whuber
füllte die Lücken ....
MaxW
4040
Die Verteilung ist ungefähr der Schwerpunkt.
MaxW
Die CDF ist natürlich für einen Ball eingerichtet. Von der CDF fallen 39% der Kugeln in einen Kreis mit dem Radius σ, 86% innerhalb von 2σ und 99% innerhalb von 3σ.
MaxW
-1

Die Normalverteilung, sowohl positive als auch negative Werte, ist sinnvoll, wenn Sie erkennen, dass diese Normalverteilung für den Radius oder den "Abstand vom Schwerpunkt" gilt. Die andere Variable, Winkel, ist zufällig und gleichmäßig von 0-pi verteilt

hacken
quelle
Der Radius, der niemals negativ sein kann, wird definitiv keine Normalverteilung haben!
whuber