Ich versuche festzustellen, ob mein Datensatz mit kontinuierlichen Daten einer Gammaverteilung mit den Parametern shape 1.7 und rate 0.000063 folgt.
Das Problem ist, wenn ich mit R ein QQ-Diagramm meines Datensatzes gegen die theoretische Verteilung Gamma (1,7, 0,000063) erstelle, bekomme ich ein Diagramm, das zeigt, dass die empirischen Daten in etwa mit der Gamma-Verteilung übereinstimmen. Dasselbe passiert mit dem ECDF-Plot.
Wenn ich jedoch einen Kolmogorov-Smirnov-Test durchführe, erhalte ich einen unangemessen kleinen Wert von .
Welchen soll ich wählen, um zu glauben? Die grafische Ausgabe oder das Ergebnis von KS-Test?
pdf
kolmogorov-smirnov
cdf
qq-plot
user22119
quelle
quelle
Antworten:
Ich sehe keinen Sinn darin, dem QQ-Plot nicht zu "glauben" (wenn Sie es richtig produziert haben); Es ist nur eine grafische Darstellung der Realität Ihrer Daten, die der definierten Verteilung gegenübergestellt wird. Natürlich passt es nicht perfekt zusammen, aber wenn es für Ihre Zwecke gut genug ist, kann das mehr oder weniger das Ende der Geschichte sein. Vielleicht möchten Sie diese verwandte Frage prüfen: Ist das Testen der Normalität im Wesentlichen nutzlos?
Der Wert aus dem KS-Test zeigt Ihnen im Grunde genommen, dass Ihre Stichprobengröße groß genug ist, um die Nullhypothese zu widerlegen, dass Ihre Daten genau der gleichen Verteilung wie Ihre Referenzverteilung angehören (ich nehme an, Sie haben auf die Gamma-Verteilung verwiesen; Sie) Vielleicht möchten Sie dies noch einmal überprüfen. Das scheint auch aus dem QQ-Plot klar genug zu sein (dh es gibt einige kleine, aber scheinbar systematische Abweichungsmuster), so dass ich glaube, dass es hier keine wirklich widersprüchlichen Informationen gibt.p
Ob sich Ihre Daten für Ihre beabsichtigten Zwecke zu stark von einer Gammaverteilung unterscheiden, ist eine andere Frage. Der KS-Test allein kann dies nicht beantworten (da das Ergebnis unter anderem von Ihrer Stichprobengröße abhängt), aber der QQ-Plot kann Ihnen bei der Entscheidung helfen. Vielleicht möchten Sie auch nach Alternativen zu anderen Analysen suchen, die Sie durchführen möchten, und wenn Sie die Empfindlichkeit nachfolgender Analysen für Abweichungen von der Gammaverteilung besonders ernst nehmen, sollten Sie auch einige Simulationstests in Betracht ziehen .
quelle
Was Sie tun können, ist, mehrere Stichproben aus Ihrer theoretischen Verteilung zu erstellen und diese auf dem Hintergrund Ihres QQ-Plots zu zeichnen. Dadurch erhalten Sie eine Vorstellung davon, welche Art von Variabilität Sie vernünftigerweise nur von der Probenahme erwarten können.
Sie können diese Idee erweitern, um einen Umschlag um die theoretische Linie zu erstellen. Verwenden Sie dazu das Beispiel ab Seite 86-89 von:
Venables, WN und Ripley, BD 2002. Moderne angewandte Statistik mit S. New York: Springer.
Dies wird ein punktueller Umschlag sein. Sie können diese Idee noch weiter ausdehnen, um eine Gesamthülle zu erstellen. Verwenden Sie dazu die Ideen auf den Seiten 151-154 von:
Davison, AC und Hinkley, DV 1997. Bootstrap-Methoden und ihre Anwendung. Cambridge: Cambridge University Press.
Für eine grundlegende Untersuchung ist es jedoch mehr als ausreichend, nur ein paar Referenzproben im Hintergrund Ihres QQ-Diagramms zu zeichnen.
quelle
Der KS-Test setzt bestimmte Parameter Ihrer Distribution voraus. Es testet die Hypothese "die Daten werden gemäß dieser bestimmten Verteilung verteilt". Sie haben diese Parameter möglicherweise irgendwo angegeben. Andernfalls wurden möglicherweise einige nicht übereinstimmende Standardeinstellungen verwendet. Beachten Sie, dass der KS-Test konservativ wird, wenn die geschätzten Parameter in die Hypothese aufgenommen werden.
Die meisten Anpassungstests werden jedoch falsch herum durchgeführt. Wenn der KS-Test keine Signifikanz gezeigt hätte, bedeutet dies nicht, dass das Modell, das Sie nachweisen wollten, geeignet ist. Das hat @Nick Stauner über zu kleine Stichproben gesagt. Dieses Problem ähnelt Punkthypothesentests und Äquivalenztests.
Also am Ende: Betrachte nur die QQ-Diagramme.
quelle
QQ-Plot ist eine explorative Datenanalysetechnik und sollte wie alle anderen EDA-Plots behandelt werden. Sie sollen Ihnen nur vorläufige Einblicke in die vorliegenden Daten geben. Sie sollten Ihre Analyse niemals auf der Grundlage von EDA-Plots wie QQ-Plots entscheiden oder stoppen. Es ist ein falscher Rat, nur QQ-Diagramme zu berücksichtigen. Sie sollten auf jeden Fall quantitative Techniken wie den KS-Test anwenden. Angenommen, Sie haben einen anderen QQ-Plot für einen ähnlichen Datensatz. Wie würden Sie die beiden ohne ein quantitatives Tool vergleichen? Der nächste Schritt ist für Sie, nach dem EDA- und KS-Test herauszufinden, warum der KS-Test einen niedrigen p-Wert liefert (in Ihrem Fall könnte dies sogar auf einen Fehler zurückzuführen sein).
EDA-Techniken sind NICHT als Entscheidungshilfen gedacht. Ich würde sogar sagen, dass Inferenzstatistiken nur als Anhaltspunkt dienen. Sie geben Ihnen Hinweise, in welche Richtung Ihre statistische Analyse gehen soll. Zum Beispiel würde ein T-Test an einer Stichprobe nur ein Konfidenzniveau ergeben, das besagt, dass die Stichprobe zur Grundgesamtheit gehören kann (oder nicht). Basierend auf dieser Einsicht, zu welcher Verteilung Ihre Daten gehören und zu welcher sind seine Parameter usw. In der Tat, wenn einige behaupten, dass sogar Techniken, die als Teil der maschinellen Lernbibliotheken implementiert wurden, explorativen Charakter haben !!! Ich hoffe sie meinen es in diesem Sinne ...!
Statistische Entscheidungen auf der Grundlage von Plots oder Visualisierungstechniken zu treffen, spottet über Fortschritte in der statistischen Wissenschaft. Wenn Sie mich fragen, sollten Sie diese Diagramme als Hilfsmittel verwenden, um die endgültigen Schlussfolgerungen auf der Grundlage Ihrer quantitativen statistischen Analyse zu kommunizieren.
quelle