Warum passt eine logarithmische Normalverteilung gut zu den Serverantwortzeiten?

7

Ich fand heraus , dass Webserver Reaktionszeiten typischerweise als von einem Lognormalverteilung modelliert hier . Was ich nicht ganz verstehe, ist, warum dies der Fall ist!

Insbesondere gibt Wikipedia an, dass eine Zufallsvariable X logarithmisch normal verteilt ist, wenn sie das Produkt mehrerer unabhängiger normaler Variablen ist.

Was würden in diesem Fall diese einzelnen normalen Variablen in der Ausführungszeit des Servercodes darstellen?

Ich habe keine Quellen gefunden, die diskutieren, warum die logarithmische Normalverteilung gut zu den Antwortzeiten des Webservers passt.

Ich bin mir nicht sicher, ob diese Frage am besten bei stackoverflow oder math.stackexchange gestellt wird, dachte aber, ich würde es hier versuchen.

Vielen Dank für jeden Einblick!

maliky0_o
quelle
Hm ... ich stimme zu, ich würde Fréchet für plausibler halten.
usεr11852
3
Lognormals treten in allgemeineren Situationen auf als als Produkte unabhängiger Normalvariablen (was ohnehin nur eine Annäherung ist): Sie erscheinen als Produkte annähernd unabhängiger Werte, die keinen großen Bereich unter ihren Dispersionen aufweisen. Ein Beispiel finden Sie unter stats.stackexchange.com/questions/3707 . Daher sind logarithmische Normalverteilungen beliebte Modelle unter Umständen, unter denen Variationen durch die kumulative Wirkung multiplikativer Abweichungen auftreten können. Dies ist überraschend häufig. Zum Beispiel ist es eine Grundlage für Benfords Gesetz .
whuber
2
Zu Ihrem Titel: Sie sind nicht wirklich lognormal. Dass die Leute sie so modellieren, bedeutet in keiner Weise, dass sie tatsächlich logarithmisch verteilt sind (dh Sie sollten Ihren Titel besser auf Ihre eigentliche Frage beziehen). Wenn Sie nicht haben gesehen gute Begründung dafür, sollten Sie auch die Möglichkeit unterhalten gibt es keine. Es kann auch vorkommen, dass es manchmal eine gute Annäherung ist - jedes Papier, in dem steht: "Nun, wir haben uns eine Reihe von Daten angesehen und es sieht ziemlich gut aus", kann die Verwendung für diese Daten rechtfertigen - es legt es im Allgemeinen nicht fest . Vielleicht ist es oft ein bequemes Modell.
Glen_b -State Monica
Ist dies auf Web (http) Server beschränkt? Oder ist das nur der Servertyp mit den umfangreichsten Leistungsdaten? HTTP wird über TCP ausgeführt, das exponentielles Backoff verwendet, um die Überlastung des Netzwerks zu bewältigen.
Livius

Antworten:

1

Vielleicht möchten Sie die Zeitung lesen

Vern Paxson. Empirisch abgeleitete analytische Modelle von großflächigen TCP-Verbindungen. IEEE / ACM-Transaktionen im Netzwerk, 1994.

welches hier online verfügbar ist . Aus der Zusammenfassung:

Wir analysieren 3 Millionen TCP-Verbindungen, die während 15 großflächigen Verkehrsspuren aufgetreten sind. Die Spuren wurden in fünf „Stub“ -Netzwerken und zwei Internetwork-Gateways gesammelt, um einen vielfältigen Blick auf den großflächigen Verkehr zu ermöglichen. Wir leiten analytische Modelle ab, die die Zufallsvariablen beschreiben, die mit Telnet-, Nntp-, SMTP- und FTP-Verbindungen verbunden sind.

und aus dem Papier

Für die meisten Verbindungen wurde das Responder / Duration-Verhältnis durch eine Exponentialverteilung gut modelliert, aber „große“ Verbindungen - diejenigen, deren Responder-Bytes in den oberen 10% aller Verbindungen lagen - hatten eine andere Verteilung. Für diese wurde das Verhältnis durch eine logarithmische Normalverteilung ziemlich gut modelliert.

Allerdings ist es schon etwas veraltet :-)

mmh
quelle
1

Sagen Sie . Sie kennen die Verteilung nicht, müssen es aber nicht. Nach dem zentralen Grenzwertsatz . Mach dir keine Sorgen über die Parameter. Dann . Letzter Teil: .X1,XniidsomethingX¯Nexp(X¯)lognormalY1=exp(iXin)=[exp(iXi)]1/n=[iexpXi]1/n

Y1 ist Ihre erste Antwortzeit. Ich weiß nichts über dieses Zeug, aber ihre Rechtfertigung dafür hat wahrscheinlich etwas damit zu tun. Wahrscheinlich stammt Ihre Rücklaufquote aus einem Durchschnitt von einer Million unbekannter Dinge, die aus einer unbekannten Verteilung stammen.

Taylor
quelle
1
Könnten Sie genauer sagen, wie diese Antwort Ihrer Meinung nach auf die Frage reagiert, warum die logarithmische Normalverteilung gut zu den Antwortzeiten von Webservern passt?
whuber