Ich möchte einchecken, R
ob meine Daten für Log-Normal- oder Pareto-Distributionen geeignet sind. Wie könnte ich das machen? Vielleicht ks.test
könnte mir das helfen, aber wie könnte ich die Parameter und für die Pareto-Verteilung für meine Daten erhalten?
11
Antworten:
... Ich habe gerade bemerkt, dass Sie dort das Tag "Regression" haben. Wenn Sie ein Regressionsproblem haben, können Sie die univariate Verteilung der Antwort nicht betrachten, um die Verteilungsform zu bewerten, da dies vom Muster der x abhängt. Wenn Sie prüfen möchten, ob eine Antwortvariable (y) in einer Art Regression oder GLM eine logarithmische oder eine Pareto-Verteilung aufweist, bei der sich die Mittelwerte je nach Beobachtung unterscheiden, ist dies eine ganz andere Frage (die jedoch im Grunde auf ähnliche Arten der Analyse zurückzuführen ist) auf den Residuen). Können Sie bitte klären, ob es sich um ein Regressionsproblem handelt? Meine Antwort bezieht sich derzeit auf die Beurteilung von univariaten lognormalen oder Pareto
Sie haben dort ganz andere Fragen.
Nehmen Sie Protokolle und erstellen Sie ein normales QQ-Diagramm. Überprüfen Sie, ob die Verteilung für Ihre Zwecke nahe genug ist.
Akzeptieren Sie von Anfang an, dass keine der von Ihnen in Betracht gezogenen Distributionen eine genaue Beschreibung ist. Sie suchen ein vernünftiges Modell. Dies bedeutet, dass Sie bei kleinen Stichprobengrößen keine vernünftige Option ablehnen, bei ausreichender Stichprobengröße jedoch alle ablehnen. Schlimmer noch, bei großen Stichproben lehnen Sie perfekt anständige Modelle ab, während Sie bei kleinen Stichproben schlechte Modelle nicht ablehnen.
Solche Tests sind keine wirklich nützliche Grundlage für die Modellauswahl.
Kurz gesagt, Ihre Frage von Interesse - so etwas wie "Was ist ein gutes Modell für diese Daten, das nahe genug ist, um spätere Schlussfolgerungen nützlich zu machen?" wird einfach nicht durch Goodness-of-Fit-Tests beantwortet. In einigen Fällen kann die Statistik der Anpassungsgüte (anstelle von Entscheidungen, die sich aus darauf basierenden Ablehnungsregeln ergeben) in einigen Fällen eine nützliche Zusammenfassung bestimmter Arten von Anpassungsmängeln liefern.
Nein. Erstens gibt es das Problem, das ich gerade erwähnt habe, und zweitens ist ein Kolmogorov-Smirnov-Test ein Test für eine vollständig spezifizierte Verteilung. Sie haben keine davon.
In vielen Fällen würde ich QQ-Diagramme und ähnliche Anzeigen empfehlen. In solchen Fällen mit rechtem Versatz würde ich eher mit Protokollen arbeiten (ein Lognormal sieht dann normal aus, während ein Pareto exponentiell aussieht). Bei vernünftigen Stichprobengrößen ist es nicht schwer, visuell zu unterscheiden, ob Daten eher normal als exponentiell aussehen oder umgekehrt. Holen Sie sich zunächst einige aktuelle Daten und zeichnen Sie diese auf - sagen wir mindestens ein halbes Dutzend Proben, damit Sie wissen, wie sie aussehen.
Siehe ein Beispiel unten
Wenn Sie Parameter schätzen müssen, verwenden Sie MLE ... aber tun Sie dies nicht, um zwischen Pareto und lognormal zu entscheiden.
Kannst du sagen, welches davon lognormal und welches Pareto ist?
Beachten Sie, dass bei den normalen QQ-Plots (linke Spalte) die Protokolle von Datensatz 1 eine ziemlich gerade Linie ergeben, während Datensatz 2 die rechte Schiefe zeigt. Bei den Exponentialkurven zeigen die Protokolle von Datensatz 1 einen helleren rechten Schwanz als Exponential, während Datensatz 2 eine ziemlich gerade Linie zeigt (die Werte im rechten Schwanz neigen dazu, ein wenig zu wackeln, selbst wenn das Modell korrekt ist; dies ist Nicht ungewöhnlich bei schweren Schwänzen. Dies ist ein Grund, warum Sie mehrere Stichproben mit ähnlicher Größe wie die, die Sie betrachten, zeichnen müssen, um zu sehen, wie Diagramme normalerweise aussehen.
Code für diese vier Diagramme:
Wenn Sie ein Problem vom Regressionstyp haben - eines, bei dem sich die Mittelwerte mit anderen Variablen ändern, können Sie die Eignung einer der beiden Verteilungsannahmen nur dann beurteilen, wenn ein geeignetes Modell für den Mittelwert vorhanden ist.
quelle
Dies ist natürlich eine Frage der Modellauswahl , vorausgesetzt, Sie möchten nur überprüfen, ob Ihre Daten von dem einen oder dem anderen Modell stammen, und Ihr Ziel ist es nicht, das richtige Modell im unendlich dimensionalen Ozean der Verteilungen zu finden. Eine Option ist die Verwendung von AIC (was Modelle mit dem niedrigsten AIC-Wert bevorzugt, und ich werde hier nicht versuchen, dies zu beschreiben). Schauen Sie sich das folgende Beispiel mit simulierten Daten an:
quelle
Vielleicht fitdistr ()?
quelle