Korrektur für normalverteilte Ungenauigkeiten der Uhr

10

Ich habe ein Experiment, das auf Hunderten von Computern durchgeführt wird, die auf der ganzen Welt verteilt sind und das Auftreten bestimmter Ereignisse messen. Die Ereignisse hängen voneinander ab, sodass ich sie in aufsteigender Reihenfolge bestellen und dann die Zeitdifferenz berechnen kann.

Die Ereignisse sollten exponentiell verteilt sein, aber wenn ich ein Histogramm zeichne, bekomme ich Folgendes:

Histogramm der Ereignisse

Die Ungenauigkeit der Uhren an den Computern führt dazu, dass einigen Ereignissen ein Zeitstempel früher zugewiesen wird als dem Ereignis, von dem sie abhängen.

Ich frage mich, ob die Uhrensynchronisation dafür verantwortlich gemacht werden kann, dass der Peak des PDF nicht bei 0 liegt (dass sie das Ganze nach rechts verschoben haben).

Wenn die Taktdifferenzen normal verteilt sind, kann ich dann einfach davon ausgehen, dass sich die Effekte gegenseitig kompensieren, und daher nur den berechneten Zeitunterschied verwenden?

cdecker
quelle

Antworten:

13

Probleme mit der Taktsynchronisation können tatsächlich dazu führen, dass die Spitze nach rechts verschoben wird. Die folgende Simulation in R zeigt dieses Phänomen. Ich habe exponentielle Zeiten und normale Uhrendifferenzen verwendet, um eine Form zu erhalten, die Ihrem Bild ungefähr ähnelt:

Uhren

Die Verteilung nach links (die tatsächlichen Unterschiede, gemessen ohne Fehler) hat ihren Spitzenwert bei 0, während die Verteilung nach rechts (Unterschiede, die mit Fehler gemessen wurden) ihren Spitzenwert um 100 hat.

R-Code:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Wenn die Taktdifferenzen mit dem Mittelwert 0 normal sind, sollten sich die Differenzen in dem Sinne aufheben, dass der Mittelwert der beobachteten Differenzen dem der tatsächlichen Differenzen entsprechen sollte. Ob dies der Fall ist, hängt davon ab, ob zwischen den Computern, auf denen das erste Ereignis auftritt, und den Computern, auf denen das zweite Ereignis auftritt, ein systematischer Unterschied besteht.

MånsT
quelle
4
+1 Schön illustriert. Mathematisch werden die Daten aus der Summe der Fehlerverteilung und der (vermuteten) Exponentialverteilung gezogen. Es ist verlockend, die Fehlerverteilung zu schätzen und die Daten zu entschlüsseln , um die wahre Verteilung zu schätzen.
whuber