Verteilungen simulieren

9

Ich arbeite an einer Kapazitätsplanungsaufgabe und habe einige Bücher gelesen. Hier geht es speziell um Distributionen. Ich benutze R.

  1. Was ist der empfohlene Ansatz, um meine Datenverteilung zu ermitteln? Gibt es statistische Methoden, um dies zu identifizieren?

Ich habe dieses Diagramm.

PROBABILISTISCHE ANSÄTZE: SZENARIOANALYSE, ENTSCHEIDUNGSBÄUME UND SIMULATIONEN

  1. Welche Simulationsansätze stehen mit R zur Verfügung? Hier möchte ich Daten für eine bestimmte Verteilung wie Exponential generieren. Ist r-java der richtige Ansatz, wenn ich es in Java integrieren möchte?

  2. Gibt es eine Möglichkeit, vorherzusagen, welche Verteilung der Effekt (CPU-Auslastung usw.) hat, wenn ich Daten für eine bestimmte Verteilung weitergebe? Welche unterschiedlichen Auswirkungen hat das Senden bestimmter Datenverteilungen?

Bitte betrachten Sie diese als Anfängerfragen. Gibt es Bücher oder Material, das sich mit solchen Simulationen befasst?

Anmerkungen

Das Diagramm stammt vom Ende des Dokuments http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Gute Passformtechniken, auf die ich gestoßen bin

Beurteilung der Passgenauigkeit

  1. Chi-Quadrat
  2. Kolmogorov-Smirnov,
  3. Anderson-Darling-Statistikdichte, cdf-, PP- und QQ-Diagramme

Ich bin mir nicht sicher, wie die Interpretation oder die nächsten Schritte aussehen sollen, wenn ich feststelle, dass meine Verteilung normal oder exponentiell ist usw. Was kann ich damit tun? Prognose? Hoffe diese Frage ist klar.

Exponentielle Verzögerungen führen zu Warteschlangenschwankungen gemäß meinem Capacity Planning-Buch von Neil Gunther. Ich kenne diesen einen Punkt.

Mohan Radhakrishnan
quelle
Wenn Sie denken, dass Ihr Diagramm wichtig ist, sollten Sie versuchen, die Bildqualität zu verbessern ...
ocram
Ich schätze die Sorgfalt, die erforderlich ist, um eine schöne Frage zu stellen. Meiner Meinung nach muss Ihr Punkt 2. (der 3 sein sollte, denke ich) geklärt werden, oder Sie könnten ihn sogar in den Stapelüberlauf verschieben.
gui11aume
1
Ich denke meine letzte Frage gehört hierher. Angenommen, ich identifiziere meine Datenverteilung. Voraussage ich, dass zukünftige Verteilungen dieser Wahrscheinlichkeit folgen werden? Mir fehlt hier ein Teil der Datenanalyse. Ich weiß, dass ein Box-Whisker-Plot leicht Quartile zeigt, die ich verstehe. Ich verstehe den Nutzen einer Distribution nicht. Möge es Eigenschaften dieser Verteilung geben, die ich zur Vorhersage untersuchen muss.
Mohan Radhakrishnan
@ocram Wenn die Qualität schlecht ist, vergrößern Sie die Seite in Ihrem Browser: Das Detail ist da. Übrigens müssen diese Bilder aus einem Teil der Crystal Ball- Dokumentation stammen.
whuber
@whuber: In der Tat habe ich nicht einmal versucht! Entschuldigung für den Kommentar.
Ocram

Antworten:

7

Ich werde Ihren Standpunkt zu Simulationen mit R beantworten, da dies der einzige ist, mit dem ich vertraut bin. R hat viele eingebaute Distributionen, die Sie simulieren können. Die Logik der Benennung besteht darin, eine Simulation zu simulieren, die als disName bezeichnet wird rdis.

Unten sind die, die ich am häufigsten benutze

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Sie können einige Ergänzungen in finden Montage Verteilungen mit R .

Ergänzung: Vielen Dank an @jthetzel für die Bereitstellung eines Links mit einer umfassenden Liste der Distributionen und der Pakete, zu denen sie gehören.

Aber warte, es gibt noch mehr: OK, nach dem Kommentar von @ whuber werde ich versuchen, die anderen Punkte anzusprechen. In Bezug auf Punkt 1 verfolge ich niemals einen Ansatz der Anpassungsgüte. Stattdessen denke ich immer über den Ursprung des Signals nach, wie die Ursache des Phänomens, gibt es einige natürliche Symmetrien in dem, was es erzeugt usw. Sie benötigen mehrere Kapitel des Buches, um es zu behandeln, also werde ich nur zwei Beispiele geben.

  1. Wenn die Daten zählen und es keine Obergrenze gibt, versuche ich einen Poisson. Poisson-Variablen können als Anzahl aufeinanderfolgender unabhängiger Variablen während eines Zeitfensters interpretiert werden, was ein sehr allgemeiner Rahmen ist. Ich passe die Verteilung an und sehe (oft visuell), ob die Varianz gut beschrieben ist. Sehr oft ist die Varianz der Stichprobe viel höher. In diesem Fall verwende ich ein negatives Binomial. Negatives Binomial kann als eine Mischung aus Poisson mit verschiedenen Variablen interpretiert werden, was noch allgemeiner ist, sodass dies normalerweise sehr gut zur Stichprobe passt.

  2. Wenn ich denke, dass die Daten symmetrisch zum Mittelwert sind, dh dass Abweichungen gleich wahrscheinlich positiv oder negativ sind, versuche ich, einen Gaußschen Wert anzupassen. Ich überprüfe dann (wieder visuell), ob es viele Ausreißer gibt, dh Datenpunkte, die sehr weit vom Mittelwert entfernt sind. Wenn ja, verwende ich stattdessen das t eines Schülers. Die t-Verteilung des Schülers kann als eine Mischung von Gaußschen mit unterschiedlichen Varianzen interpretiert werden, was wiederum sehr allgemein ist.

Wenn ich in diesen Beispielen visuell sage, meine ich, dass ich ein QQ-Diagramm verwende

Punkt 3 verdient auch mehrere Kapitel des Buches. Die Auswirkungen der Verwendung einer Distribution anstelle einer anderen sind unbegrenzt. Anstatt alles durchzugehen, werde ich die beiden obigen Beispiele fortsetzen.

  1. In meinen frühen Tagen wusste ich nicht, dass negatives Binomial eine sinnvolle Interpretation haben kann, deshalb habe ich Poisson die ganze Zeit verwendet (weil ich die Parameter gerne in menschlichen Begriffen interpretieren möchte). Wenn Sie einen Poisson verwenden, passen Sie sehr oft gut zum Mittelwert, aber Sie unterschätzen die Varianz. Dies bedeutet, dass Sie keine Extremwerte Ihrer Stichprobe reproduzieren können und solche Werte als Ausreißer (Datenpunkte, die nicht die gleiche Verteilung wie die anderen Punkte haben) betrachten, während dies tatsächlich nicht der Fall ist.

  2. Auch in meinen frühen Tagen wusste ich nicht, dass Student's t auch eine aussagekräftige Interpretation hat und ich würde die ganze Zeit den Gaußschen verwenden. Ähnliches geschah. Ich würde den Mittelwert und die Varianz gut anpassen, aber ich würde die Ausreißer immer noch nicht erfassen, da fast alle Datenpunkte innerhalb von 3 Standardabweichungen vom Mittelwert liegen sollen. Das gleiche passierte, ich kam zu dem Schluss, dass einige Punkte "außergewöhnlich" waren, während sie es tatsächlich nicht waren.

gui11aume
quelle
2
Ein Hinweis auf gui11aume Antwort hinzuzufügen: Es gibt eine „d, p, q, r“ Syntax für vertriebsbezogene Funktionen in R. Zum Beispiel dnorm, pnorm, qnormund rnormsind die Dichte, kumulative Verteilungsfunktion (CDF), inverse CDF und Zufallsvariablengeneratorfunktionen für die Normalverteilung. In der Aufgabenansicht der Wahrscheinlichkeitsverteilung finden Sie eine umfassende Liste der verfügbaren Verteilungen.
Jthetzel
Ja, vielen Dank (+1). Ich habe lange nach einer solchen Liste gesucht. Ich habe es in die Antwort eingefügt, damit es besser sichtbar ist.
gui11aume
1
Ich konnte Ihnen nicht einmal sagen, was ein Drittel dieser Distributionen ist. So viel mehr zu lernen .... +1, aber vergessen wir nicht den Rest der Frage, die grundlegend ist (aber vielleicht etwas zu weit gefasst ist): Welche Auswirkungen haben Verteilungsentscheidungen in einer Simulation? Wie soll man diese Entscheidungen treffen?
whuber
@whuber Ich habe den Effekt der exponentiellen Verteilung von Verzögerungen auf Warteschlangenschwankungen hinzugefügt. Verweisen. Bücher über CP oder Warteschlangen.
Mohan Radhakrishnan
Ich habe Fitting-Verteilungen mit R gelesen und auch einmal QQ-Plot verwendet. Die Schätzung der maximalen Wahrscheinlichkeit beginnt mit dem mathematischen Ausdruck, der als Wahrscheinlichkeitsfunktion der Probendaten bekannt ist. Die Wahrscheinlichkeit eines Datensatzes ist die Wahrscheinlichkeit, diesen bestimmten Datensatz bei dem gewählten Wahrscheinlichkeitsmodell zu erhalten. Bedeutet dies, dass es eine Möglichkeit gibt, zu berechnen, dass die Verteilung erneut auftreten kann? Wie viele Messungen sind erforderlich, um dies zu beweisen?
Mohan Radhakrishnan