Wie finde ich den erwarteten Abstand zwischen zwei gleichmäßig verteilten Punkten?

9

Wenn ich die Koordinaten und wo( X 2 , Y 2 )(X1,Y1)(X2,Y2)

X1,X2Unif(0,30) and Y1,Y2Unif(0,40).

Wie würde ich den erwarteten Wert der Entfernung zwischen ihnen finden?

Ich dachte, da der Abstand durch berechnet wird, würde der erwartete Wert sei einfach ?(1/30+1/30)2+(1/40+1/40)2(X1X2)2+(Y1Y2)2)(1/30+1/30)2+(1/40+1/40)2

Mathlete
quelle
Ihr LaTeX-Code wurde nicht korrekt gerendert. Ich hoffe, mein Fix ist das, was Sie beabsichtigt haben
Peter Flom - Reinstate Monica
Fast, aber es hat mir am Ende geholfen, vielen Dank.
Mathlete
2
Äquivalente Frage auf der Mathe-Website: Durchschnittlicher Abstand zwischen zufälligen Punkten in einem Rechteck . Eine verwandte Frage: Wahrscheinlichkeit, dass gleichmäßig zufällige Punkte in einem Rechteck einen euklidischen Abstand haben, der unter einem bestimmten Schwellenwert liegt . (Leider bin ich dort nie dazu gekommen, @whuber auf seine Vorschläge anzusprechen. Ich werde versuchen, etwas Zeit dafür zu finden.)
Kardinal
1
Danke für diese Links, @cardinal. Obwohl die mathematische Version die Antwort nicht erklärt - sie präsentiert sie nur -, enthält sie Links zu einer Ableitung, die es wert ist, überprüft zu werden.
whuber

Antworten:

2
##problem
x <- runif(1000000,0,30)
y <- runif(1000000,0,40)
Uniform <- as.data.frame(cbind(x,y))
n <- nrow(Uniform)
catch <- rep(NA,n)
for (i in 2:n) {
      catch[i] <-((x[i+1]-x[i])^2 + (y[i+1]-y[i])^2)^.5
}
mean(catch, na.rm=TRUE)
18.35855

Wenn ich richtig verstehe, wonach Sie suchen, hilft das vielleicht. Sie versuchen, den Abstand zwischen zufälligen Punkten zu ermitteln, deren X-Werte aus Unif (0,30) und Y-Werte aus Unif (0,40) generiert werden. Ich habe gerade eine Million Wohnmobile von jedem dieser Verteilungen erstellt und dann das x und das y gebunden, um einen Punkt für jedes von ihnen zu erstellen. Dann habe ich den Abstand zwischen Punkt 2 und 1 bis zum Abstand zwischen den Punkten 1.000.000 und 999.999 berechnet. Die durchschnittliche Entfernung betrug 18.35855. Lassen Sie mich wissen, ob dies nicht das ist, wonach Sie gesucht haben.

Eric Peterson
quelle
Hat sich die Freiheit genommen, für die Formatierung zu bearbeiten.
neugierige Katze
2
Sie kamen ziemlich nahe - vielleicht durch Zufall. Die wahre Antwort lautet = . Ihr Code hat zwei Probleme: (1) Die Iterationen sind nicht voneinander unabhängig. und (2) um eine angemessene Genauigkeit zu erhalten, sollte es so codiert werden, dass es schneller ist. Warum nicht die Simulation direkt durchführen, wie in . Damit erhalten Sie ungefähr vier signifikante Zahlen (in kürzerer Zeit), wie Sie anhand des Standardfehlers überprüfen können . 18.3459191108(871+960log(2)+405log(3))18.345919n <- 10^7; distance <- sqrt((runif(n,0,30)-runif(n,0,30))^2 + (runif(n,0,40)-runif(n,0,40))^2)sd(distance) / sqrt(n)
whuber
@whuber: Kannst du deine Nummer 1 erklären? Beispiel: Fall (Fall I) Ich habe Paare von Zufallszahlen aus einer bestimmten Verteilung gezogen und Differenzen berechnet und einen Mittelwert genommen. Versus (Fall II) Ich habe immer wieder eine Zahl nach der anderen gezogen und die laufenden Unterschiede in Bezug auf die letzte Zahl gezogen und dann gemittelt. Wäre der von Fall I und Fall II gemeldete Durchschnitt systematisch unterschiedlich?
neugierige Katze
1
@curious_cat Nein, die Durchschnittswerte wären ungefähr gleich, aber die Berechnung des Standardfehlers wäre anders. Wir brauchen diese Berechnung, um abzuschätzen, wie nahe der Mittelwert wahrscheinlich am wahren Wert liegt. Anstatt die kompliziertere SE-Berechnung zu erarbeiten, ist es einfacher, Punktpaare völlig unabhängig voneinander zu generieren, genau wie in der Frage festgelegt. (Es gibt so viele Möglichkeiten, wie eine Simulation schief gehen kann - ich weiß aus Erfahrung! -, dass es
ratsam ist
@whuber: Danke für die Klarstellung. Wenn Clark seinen Code länger ausgeführt hätte, hätte er möglicherweise mehr Dezimalstellen erhalten, oder?
neugierige Katze
16

Aus der geometrischen Betrachtung der Frage geht klar hervor, dass der erwartete Abstand zwischen zwei unabhängigen, einheitlichen, zufälligen Punkten innerhalb einer konvexen Menge etwas weniger als die Hälfte ihres Durchmessers betragen wird . (Es sollte weniger sein, da es relativ selten vorkommt, dass sich die beiden Punkte in extremen Bereichen wie Ecken befinden, und häufiger in der Nähe der Mitte, wo sie nahe beieinander liegen.) Da der Durchmesser dieses Rechtecks beträgt , ist dies der Fall Allein durch die Argumentation würden wir erwarten, dass die Antwort etwas weniger als .5025

Eine genaue Antwort ergibt sich aus der Definition der Erwartung als wahrscheinlichkeitsgewichteter Wert der Entfernung. Betrachten Sie im Allgemeinen ein Rechteck der Seiten und ; Wir werden es anschließend auf die richtige Größe skalieren (indem wir und die Erwartung mit multiplizieren ). Für dieses Rechteck unter Verwendung der Koordinaten beträgt die einheitliche Wahrscheinlichkeitsdichte . Der mittlere Abstand innerhalb dieses Rechtecks ​​ist dann gegeben durch1λλ=40/3030(x,y)1λdxdy

0λ010λ01(x1x2)2+(y1y2)21λdx1dy11λdx2dy2.

Mit elementaren Integrationsmethoden ist dies unkompliziert, aber schmerzhaft. Ich habe ein Computeralgebra-System ( Mathematica ) verwendet, um die Antwort zu erhalten

[2+2λ521+λ2+6λ21+λ22λ41+λ2+5λArcSinh(λ)+5λ4log(1+1+λ2λ)]/(30λ2).

Das Vorhandensein von in vielen dieser Begriffe ist keine Überraschung: Es ist der Durchmesser des Rechtecks ​​(der maximal mögliche Abstand zwischen zwei beliebigen Punkten darin). Das Auftreten von Logarithmen (einschließlich des Arcsinh) ist auch nicht überraschend, wenn Sie jemals durchschnittliche Entfernungen innerhalb einfacher ebener Figuren untersucht haben: Irgendwie wird es immer angezeigt (ein Hinweis darauf erscheint im Integral der Sekantenfunktion). Das Vorhandensein von im Nenner hat übrigens nichts mit den Besonderheiten des Problems zu tun, das ein Rechteck der Seiten und : Es ist eine universelle Konstante.)1+λ2303040

Mit um den Faktor ergibt dies .30 1λ=4/3301108(871+960log(2)+405log(3))18.345919


Eine Möglichkeit, die Situation besser zu verstehen, besteht darin, den mittleren Abstand relativ zum Durchmesser von für unterschiedliche Werte von . Bei Extremwerten (nahe oder viel größer als ) wird das Rechteck im Wesentlichen eindimensional, und eine elementarere Integration gibt an, dass der mittlere Abstand den Durchmesser auf ein Drittel reduzieren sollte. Da die Formen von Rechtecken mit und sind, ist es natürlich, das Ergebnis auf einer logarithmischen Skala von , wobei es symmetrisch zu (dem Quadrat) sein muss. Hier ist es: λ01λ1/λλλ=11+λ2λ01λ1/λλλ=1

Handlung

Damit lernen wir eine Faustregel : Der mittlere Abstand innerhalb eines Rechtecks ​​liegt zwischen und (ungefähr) seines Durchmessers, wobei die größeren Werte quadratischen Rechtecken und die kleineren Werten langen dünnen (linearen) zugeordnet sind ) Rechtecke. Der Mittelpunkt zwischen diesen Extremen wird ungefähr für Rechtecke mit Seitenverhältnissen von . Mit dieser Regel können Sie einfach einen Blick auf ein Rechteck werfen und dessen mittleren Abstand zu zwei signifikanten Zahlen schätzen.0.37 3 : 11/30.330.373:1

whuber
quelle
Sollte das "diagonal" statt "Durchmesser" sein? Tut mir leid, wenn ich nicht picke.
neugierige Katze
@curious_cat Per Definition ist der Durchmesser einer Menge von Punkten (in einem beliebigen metrischen Raum) das Höchste der Abstände zwischen zwei beliebigen Punkten darin. Für ein Rechteck ist es (offensichtlich) die Länge einer Diagonale.
whuber
Vielen Dank! Das habe ich nicht bemerkt. Ich benutzte ein naives Konzept des Durchmessers.
neugierige Katze
Nebenbei: Würde für alle Rechtecke einer bestimmten Fläche der mittlere Abstand für ein Quadrat minimiert?
neugierige Katze
2
Im Geiste der dies möchte ich Ihnen diese Antwort haben damit begonnen , würde mit „Es ist Flugzeug ...“ (+1)
Kardinal