Benötigen Sie Hilfe beim Identifizieren einer Verteilung anhand ihres Histogramms?

13

Ich habe die Grundgesamtheit der registrierten Amplitudenmaxima eines bestimmten Signals. Bevölkerung ist ungefähr 15 Million Proben. Ich habe ein Histogramm der Population erstellt, kann aber die Verteilung mit einem solchen Histogramm nicht erraten.

EDIT1: Datei mit Rohwerten ist hier: Rohdaten

Kann jemand helfen, die Verteilung mit dem folgenden Histogramm zu schätzen: Bildbeschreibung hier eingeben

mbaitoff
quelle
1
nicht, dass es dramatisch ist, aber bei der Verwendung von Histogrammen hilft es normalerweise, die relative Frequenz anstelle der absoluten Frequenz auf der y-Achse zu haben.
Posdef
das heißt 120000/15000000 = 0,008 statt 120000 auf der vertikalen Achse?
Mbaitoff
@mbaitoff: Ihre Kommentare zur Antwort von schenectady weisen darauf hin, dass Sie weniger daran interessiert sind, den Namen der Distribution zu erhalten, sondern herauszufinden, WARUM die Werte auf diese Weise verteilt werden. Ist das richtig ?
Steffen
1
@mbaitoff, ich bin mir nicht sicher, ob es zu Ihrer Anwendung passt, aber in verwandten Anwendungsgebieten werden Wellengrößen, die (viele) zufällige Reflexionen zwischen Quelle und Empfänger erfahren, durch eine Rayleigh-Verteilung oder eine ihrer Verallgemeinerungen modelliert, z. B. Reis oder Nakagami- - Distributionen. m
Kardinal
2
Das wirkliche Interesse an diesen Daten liegt in den Dutzenden oder mehr Spitzen: Die Datenmenge ist groß genug, um real zu sein , in dem Sinne, dass sie Hinweise auf tatsächliche lokale Modi sind. Hier scheint es eine Fülle von Daten zu geben, die mit einer Fülle von Informationen übersehen werden könnten, wenn eine einfache parametrische Formel verwendet würde, um ihre Verteilung zusammenzufassen.
Whuber

Antworten:

23

Verwenden Sie fitdistrplus:

Hier ist der CRAN-Link zu fitdistrplus.

Hier ist der alte Vignettenlink für fitdistrplus.

Wenn der Vignettenlink nicht funktioniert, suchen Sie nach "Verwendung der Bibliothek fitdistrplus zur Angabe einer Verteilung aus Daten".

Die Vignette macht einen guten Job zu erklären, wie das Paket verwendet wird. Sie können sehen, wie verschiedene Distributionen in einem kurzen Zeitraum passen. Es wird auch ein Cullen / Frey-Diagramm erstellt.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

bill_080
quelle
(+1): Wusste das Paket vorher nicht.
Steffen
1
(+1 (wusste nicht, dass es sich um ein Cullen / Frey-Diagramm handelt. Das musste ich mir irgendwann
selbst einfallen lassen
Das zweite Bild ist mit plotdistcomamnd? Wie komme ich zum Cullen / Frey-Diagramm?
Juanpablo
1
@ Juanpablo - versuchen descdist(). Ich habe den obigen Beitrag aktualisiert, um Code und einen Link zur alten Vignette aufzunehmen. Ich konnte den obigen Vignetten-Link nicht zum Laufen bringen. Also googelt folgendes: "Verwendung der Bibliothek fitdistrplus zur Angabe einer Verteilung aus Daten". Es ist eine PDF-Datei.
bill_080
3
@juanpablo - Die Anweisung f1g <- fitdist(x1, "gamma")passt eine Gammaverteilung an die Originaldaten an x1und speichert sie in f1g. Das Diagramm oben links plot(f1g)zeigt ein Histogramm für die Originaldaten x1als Balken und das angepasste Gammadichtediagramm f1gals durchgezogene Linie. Das Dichtediagramm (durchgezogene Linie) wird über das Histogramm gezogen, um anzuzeigen, wie gut die "Anpassung" die Daten darstellt.
bill_080
6

Bevölkerung ist ungefähr 15 Million Proben.

Dann können Sie sehr wahrscheinlich eine bestimmte Verteilung eines einfachen, geschlossenen Formulars ablehnen.

Sogar diese kleine Erhebung links in der Grafik reicht wahrscheinlich aus, um uns zu veranlassen, "eindeutig nicht das und das" zu sagen.

Auf der anderen Seite ist es wahrscheinlich ziemlich gut durch eine Reihe von gängigen Distributionen angenähert; Offensichtliche Kandidaten sind lognormal und gamma, aber es gibt eine Menge anderer. Wenn Sie sich das Protokoll der x-Variablen ansehen, können Sie wahrscheinlich entscheiden, ob das Protokoll normal ist (nachdem Sie Protokolle aufgenommen haben, sollte das Histogramm symmetrisch aussehen).

Wenn das Protokoll schief bleibt, prüfen Sie, ob Gamma in Ordnung ist. Wenn es schief ist, prüfen Sie, ob inverses Gamma oder (noch mehr schiefes) inverses Gauß in Ordnung ist. Bei dieser Übung geht es jedoch eher darum, eine Verteilung zu finden, mit der man gut leben kann. Keiner dieser Vorschläge weist tatsächlich alle Merkmale auf, die dort vorhanden zu sein scheinen.

Wenn Sie irgendeine Theorie haben, um eine Wahl zu stützen, werfen Sie all diese Diskussionen weg und nutzen Sie diese.

Glen_b - Setzen Sie Monica wieder ein
quelle
Wow, was ist das für eine Vorstellung von der Sache? nett! :)
onurcanbektas
1

Ich bin mir nicht sicher, warum Sie eine Stichprobe einer bestimmten Verteilung mit einem so großen Stichprobenumfang zuordnen möchten. Sparsamkeit, Vergleich mit einer anderen Stichprobe, auf der Suche nach einer physikalischen Interpretation der Parameter?

In den meisten Statistikpaketen (R, SAS, Minitab) können Daten in einem Diagramm dargestellt werden, das eine gerade Linie ergibt, wenn die Daten aus einer bestimmten Verteilung stammen. Ich habe Diagramme gesehen, die eine gerade Linie ergeben, wenn die Daten normal sind (log normal - nach einer log Transformation), Weibull und Chi-Quadrat kommen sofort zu mir. Mit dieser Technik können Sie Ausreißer erkennen und Gründe dafür angeben, warum Datenpunkte Ausreißer sind. In R heißt das normale Wahrscheinlichkeitsdiagramm qqnorm.

schenectady
quelle
Gute Idee, den qqplot vorzuschlagen. Ich denke jedoch, dass Ihre Erklärung der Technik ein wenig vage / schwer zu verstehen ist. Können Sie einen beispielhaften R-Code bereitstellen? Dies würde den Wert der Antwort drastisch erhöhen.
Steffen
Ich gehe davon aus, dass jemand wie ich auf das Bild gestoßen ist und die zugrunde liegende Verteilung untersucht hat, da die Werte eine physikalische Basis haben.
Mbaitoff
Ich untersuche den physikalischen Hintergrund der Probenverteilung - wie sie verteilt wird und warum.
mbaitoff