Wie kann ich überprüfen, ob meine Daten, z. B. das Gehalt, aus einer kontinuierlichen Exponentialverteilung in R stammen?
Hier ist ein Histogramm meiner Probe:
. Jede Hilfe wird sehr geschätzt!
r
distributions
goodness-of-fit
exponential
stjudent
quelle
quelle
fitdistr
in R. Sie passt die Wahrscheinlichkeitsdichtefunktionen (pdfs) basierend auf der Maximum Likelihood Estimation (MLE) -Methode an. Auch die Suche in den Begriffen dieser Seite als pdf, fitdistr, mle und ähnliche Fragen werden gestellt. Denken Sie daran, dass Fragen wie diese fast reproduzierbare Beispiele erfordern , um gute Antworten zu erhalten. Es ist auch hilfreich, wenn die Frage nicht nur die Programmierung betrifft (was dazu führen kann, dass sie als Off-Topic zurückgestellt wird).Antworten:
Ich würde es tun, indem ich zuerst den einzigen Verteilungsparameter unter
rate
Verwendung von schätzefitdistr
. Dies sagt Ihnen nicht, ob die Verteilung passt oder nicht, daher müssen Sie den Anpassungstest verwenden. Hierfür können Sie verwendenks.test
:Aus meiner persönlichen Erfahrung (obwohl ich es nie offiziell irgendwo gefunden habe, bitte bestätigen oder korrigieren Sie mich),
ks.test
wird es nur ausgeführt, wenn Sie zuerst die Parameterschätzung angeben. Sie können die Parameter nicht automatisch schätzen lassen, wie dies zgoodfit
. B. der Fall ist. Deshalb benötigen Sie dieses zweistufige Verfahren mitfitdistr
.Für weitere Informationen , die hervorragende Anleitung von folgen Ricci: DISTRIBUTIONS MIT R FITTING .
quelle
Normalerweise würde ich empfehlen, die Exponentialität mithilfe von Diagnoseplots (z. B. QQ-Plots) zu überprüfen, aber ich werde die Tests diskutieren, da die Leute sie häufig wünschen:
Wie Tomas vorschlägt, ist der Kolmogorov-Smirnov-Test nicht zum Testen der Exponentialität mit einem nicht angegebenen Parameter geeignet.
Wenn Sie jedoch die Tabellen für die Parameterschätzung anpassen, erhalten Sie den Lilliefors-Test für die Exponentialverteilung.
Lilliefors, H. (1969), "Über den Kolmogorov-Smirnov-Test für die Exponentialverteilung mit unbekanntem Mittelwert", Journal of the American Statistical Association , Vol. 64. S. 387–389.
Die Verwendung dieses Tests wird in der praktischen nichtparametrischen Statistik von Conover erörtert .
In D'Agostino & Stephens ' Goodness of Fit Techniques diskutieren sie jedoch eine ähnliche Modifikation des Anderson-Darling-Tests (etwas schräg, wenn ich mich recht entsinne, aber ich denke, alle erforderlichen Informationen darüber, wie man es für den Exponentialfall angeht, sind vorhanden zu finden in dem Buch), und das ist fast sicher, mehr Macht gegen interessante Alternativen zu haben.
Schließlich könnte man den Smooth-Test- Ansatz verwenden, wie in dem Buch von Rayner & Best ( Smooth Tests of Goodness of Fit , 1990 - obwohl ich glaube, dass es einen neueren gibt, bei dem Thas und " in R " zum Titel hinzugefügt wurden). Der Exponentialfall wird auch behandelt in:
JCW Rayner und DJ Best (1990), "Smooth Tests of Goodness of Fit: Ein Überblick", International Statistical Review , Vol. 58, No. 1 (April 1990), S. 9-17
Cosma Shalizi erörtert auch reibungslose Tests in einem Kapitel seiner Vorlesungsunterlagen für fortgeschrittene Datenanalyse oder in Kapitel 15 seines Buches Fortgeschrittene Datenanalyse aus elementarer Sicht .
In einigen der oben genannten Fälle müssen Sie möglicherweise die Verteilung der Teststatistik simulieren. Für andere sind Tabellen verfügbar (in einigen Fällen kann es jedoch einfacher sein, die Simulation durchzuführen oder sich selbst genauer zu simulieren, wie dies beim Lilliefors-Test der Fall ist, da die Simulationsgröße im Original begrenzt ist).
quelle
Sie können ein qq-Diagramm verwenden , bei dem es sich um eine grafische Methode zum Vergleichen von zwei Wahrscheinlichkeitsverteilungen handelt, indem Sie deren Quantile gegeneinander zeichnen .
In R gibt es keine Standard-QQ-Plot-Funktion für die Exponentialverteilung (zumindest unter den Basisfunktionen). Sie können dies jedoch verwenden:
Bei der Interpretation Ihrer Ergebnisse: Wenn die beiden zu vergleichenden Verteilungen ähnlich sind, liegen die Punkte im qq-Diagramm ungefähr auf der Linie y = x. Wenn die Verteilungen linear zusammenhängen, liegen die Punkte im qq-Diagramm ungefähr auf einer Linie, jedoch nicht unbedingt auf der Linie y = x.
quelle
qexp
von SSC handelt es sich um eine vordefinierte Implementierung.