Ich arbeite an einer Kapazitätsplanungsaufgabe und habe einige Bücher gelesen. Hier geht es speziell um Distributionen. Ich benutze R.
- Was ist der empfohlene Ansatz, um meine Datenverteilung zu ermitteln? Gibt es statistische Methoden, um dies zu identifizieren?
Ich habe dieses Diagramm.
Welche Simulationsansätze stehen mit R zur Verfügung? Hier möchte ich Daten für eine bestimmte Verteilung wie Exponential generieren. Ist r-java der richtige Ansatz, wenn ich es in Java integrieren möchte?
Gibt es eine Möglichkeit, vorherzusagen, welche Verteilung der Effekt (CPU-Auslastung usw.) hat, wenn ich Daten für eine bestimmte Verteilung weitergebe? Welche unterschiedlichen Auswirkungen hat das Senden bestimmter Datenverteilungen?
Bitte betrachten Sie diese als Anfängerfragen. Gibt es Bücher oder Material, das sich mit solchen Simulationen befasst?
Anmerkungen
Das Diagramm stammt vom Ende des Dokuments http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .
Gute Passformtechniken, auf die ich gestoßen bin
Beurteilung der Passgenauigkeit
- Chi-Quadrat
- Kolmogorov-Smirnov,
- Anderson-Darling-Statistikdichte, cdf-, PP- und QQ-Diagramme
Ich bin mir nicht sicher, wie die Interpretation oder die nächsten Schritte aussehen sollen, wenn ich feststelle, dass meine Verteilung normal oder exponentiell ist usw. Was kann ich damit tun? Prognose? Hoffe diese Frage ist klar.
Exponentielle Verzögerungen führen zu Warteschlangenschwankungen gemäß meinem Capacity Planning-Buch von Neil Gunther. Ich kenne diesen einen Punkt.
quelle
Antworten:
Ich werde Ihren Standpunkt zu Simulationen mit R beantworten, da dies der einzige ist, mit dem ich vertraut bin. R hat viele eingebaute Distributionen, die Sie simulieren können. Die Logik der Benennung besteht darin, eine Simulation zu simulieren, die als
dis
Name bezeichnet wirdrdis
.Unten sind die, die ich am häufigsten benutze
Sie können einige Ergänzungen in finden Montage Verteilungen mit R .
Ergänzung: Vielen Dank an @jthetzel für die Bereitstellung eines Links mit einer umfassenden Liste der Distributionen und der Pakete, zu denen sie gehören.
Aber warte, es gibt noch mehr: OK, nach dem Kommentar von @ whuber werde ich versuchen, die anderen Punkte anzusprechen. In Bezug auf Punkt 1 verfolge ich niemals einen Ansatz der Anpassungsgüte. Stattdessen denke ich immer über den Ursprung des Signals nach, wie die Ursache des Phänomens, gibt es einige natürliche Symmetrien in dem, was es erzeugt usw. Sie benötigen mehrere Kapitel des Buches, um es zu behandeln, also werde ich nur zwei Beispiele geben.
Wenn die Daten zählen und es keine Obergrenze gibt, versuche ich einen Poisson. Poisson-Variablen können als Anzahl aufeinanderfolgender unabhängiger Variablen während eines Zeitfensters interpretiert werden, was ein sehr allgemeiner Rahmen ist. Ich passe die Verteilung an und sehe (oft visuell), ob die Varianz gut beschrieben ist. Sehr oft ist die Varianz der Stichprobe viel höher. In diesem Fall verwende ich ein negatives Binomial. Negatives Binomial kann als eine Mischung aus Poisson mit verschiedenen Variablen interpretiert werden, was noch allgemeiner ist, sodass dies normalerweise sehr gut zur Stichprobe passt.
Wenn ich denke, dass die Daten symmetrisch zum Mittelwert sind, dh dass Abweichungen gleich wahrscheinlich positiv oder negativ sind, versuche ich, einen Gaußschen Wert anzupassen. Ich überprüfe dann (wieder visuell), ob es viele Ausreißer gibt, dh Datenpunkte, die sehr weit vom Mittelwert entfernt sind. Wenn ja, verwende ich stattdessen das t eines Schülers. Die t-Verteilung des Schülers kann als eine Mischung von Gaußschen mit unterschiedlichen Varianzen interpretiert werden, was wiederum sehr allgemein ist.
Wenn ich in diesen Beispielen visuell sage, meine ich, dass ich ein QQ-Diagramm verwende
Punkt 3 verdient auch mehrere Kapitel des Buches. Die Auswirkungen der Verwendung einer Distribution anstelle einer anderen sind unbegrenzt. Anstatt alles durchzugehen, werde ich die beiden obigen Beispiele fortsetzen.
In meinen frühen Tagen wusste ich nicht, dass negatives Binomial eine sinnvolle Interpretation haben kann, deshalb habe ich Poisson die ganze Zeit verwendet (weil ich die Parameter gerne in menschlichen Begriffen interpretieren möchte). Wenn Sie einen Poisson verwenden, passen Sie sehr oft gut zum Mittelwert, aber Sie unterschätzen die Varianz. Dies bedeutet, dass Sie keine Extremwerte Ihrer Stichprobe reproduzieren können und solche Werte als Ausreißer (Datenpunkte, die nicht die gleiche Verteilung wie die anderen Punkte haben) betrachten, während dies tatsächlich nicht der Fall ist.
Auch in meinen frühen Tagen wusste ich nicht, dass Student's t auch eine aussagekräftige Interpretation hat und ich würde die ganze Zeit den Gaußschen verwenden. Ähnliches geschah. Ich würde den Mittelwert und die Varianz gut anpassen, aber ich würde die Ausreißer immer noch nicht erfassen, da fast alle Datenpunkte innerhalb von 3 Standardabweichungen vom Mittelwert liegen sollen. Das gleiche passierte, ich kam zu dem Schluss, dass einige Punkte "außergewöhnlich" waren, während sie es tatsächlich nicht waren.
quelle
dnorm
,pnorm
,qnorm
undrnorm
sind die Dichte, kumulative Verteilungsfunktion (CDF), inverse CDF und Zufallsvariablengeneratorfunktionen für die Normalverteilung. In der Aufgabenansicht der Wahrscheinlichkeitsverteilung finden Sie eine umfassende Liste der verfügbaren Verteilungen.