Ich habe die Grundgesamtheit der registrierten Amplitudenmaxima eines bestimmten Signals. Bevölkerung ist ungefähr 15 Million Proben. Ich habe ein Histogramm der Population erstellt, kann aber die Verteilung mit einem solchen Histogramm nicht erraten.
EDIT1: Datei mit Rohwerten ist hier: Rohdaten
Kann jemand helfen, die Verteilung mit dem folgenden Histogramm zu schätzen:
distributions
histogram
mbaitoff
quelle
quelle
Antworten:
Verwenden Sie fitdistrplus:
Hier ist der CRAN-Link zu fitdistrplus.
Hier ist der alte Vignettenlink für fitdistrplus.
Wenn der Vignettenlink nicht funktioniert, suchen Sie nach "Verwendung der Bibliothek fitdistrplus zur Angabe einer Verteilung aus Daten".
Die Vignette macht einen guten Job zu erklären, wie das Paket verwendet wird. Sie können sehen, wie verschiedene Distributionen in einem kurzen Zeitraum passen. Es wird auch ein Cullen / Frey-Diagramm erstellt.
quelle
plotdist
comamnd? Wie komme ich zum Cullen / Frey-Diagramm?descdist()
. Ich habe den obigen Beitrag aktualisiert, um Code und einen Link zur alten Vignette aufzunehmen. Ich konnte den obigen Vignetten-Link nicht zum Laufen bringen. Also googelt folgendes: "Verwendung der Bibliothek fitdistrplus zur Angabe einer Verteilung aus Daten". Es ist eine PDF-Datei.f1g <- fitdist(x1, "gamma")
passt eine Gammaverteilung an die Originaldaten anx1
und speichert sie inf1g
. Das Diagramm oben linksplot(f1g)
zeigt ein Histogramm für die Originaldatenx1
als Balken und das angepasste Gammadichtediagrammf1g
als durchgezogene Linie. Das Dichtediagramm (durchgezogene Linie) wird über das Histogramm gezogen, um anzuzeigen, wie gut die "Anpassung" die Daten darstellt.Dann können Sie sehr wahrscheinlich eine bestimmte Verteilung eines einfachen, geschlossenen Formulars ablehnen.
Sogar diese kleine Erhebung links in der Grafik reicht wahrscheinlich aus, um uns zu veranlassen, "eindeutig nicht das und das" zu sagen.
Auf der anderen Seite ist es wahrscheinlich ziemlich gut durch eine Reihe von gängigen Distributionen angenähert; Offensichtliche Kandidaten sind lognormal und gamma, aber es gibt eine Menge anderer. Wenn Sie sich das Protokoll der x-Variablen ansehen, können Sie wahrscheinlich entscheiden, ob das Protokoll normal ist (nachdem Sie Protokolle aufgenommen haben, sollte das Histogramm symmetrisch aussehen).
Wenn das Protokoll schief bleibt, prüfen Sie, ob Gamma in Ordnung ist. Wenn es schief ist, prüfen Sie, ob inverses Gamma oder (noch mehr schiefes) inverses Gauß in Ordnung ist. Bei dieser Übung geht es jedoch eher darum, eine Verteilung zu finden, mit der man gut leben kann. Keiner dieser Vorschläge weist tatsächlich alle Merkmale auf, die dort vorhanden zu sein scheinen.
Wenn Sie irgendeine Theorie haben, um eine Wahl zu stützen, werfen Sie all diese Diskussionen weg und nutzen Sie diese.
quelle
Ich bin mir nicht sicher, warum Sie eine Stichprobe einer bestimmten Verteilung mit einem so großen Stichprobenumfang zuordnen möchten. Sparsamkeit, Vergleich mit einer anderen Stichprobe, auf der Suche nach einer physikalischen Interpretation der Parameter?
In den meisten Statistikpaketen (R, SAS, Minitab) können Daten in einem Diagramm dargestellt werden, das eine gerade Linie ergibt, wenn die Daten aus einer bestimmten Verteilung stammen. Ich habe Diagramme gesehen, die eine gerade Linie ergeben, wenn die Daten normal sind (log normal - nach einer log Transformation), Weibull und Chi-Quadrat kommen sofort zu mir. Mit dieser Technik können Sie Ausreißer erkennen und Gründe dafür angeben, warum Datenpunkte Ausreißer sind. In R heißt das normale Wahrscheinlichkeitsdiagramm qqnorm.
quelle