Ich habe zwei Datengruppen. Jeweils mit unterschiedlicher Verteilung mehrerer Variablen. Ich versuche festzustellen, ob sich die Verteilungen dieser beiden Gruppen statistisch signifikant unterscheiden. Ich habe die Daten sowohl in Rohform als auch in einfacher zu verarbeitenden diskreten Kategorien mit Häufigkeitszählern zusammengefasst.
Welche Tests / Verfahren / Methoden sollte ich verwenden, um festzustellen, ob sich diese beiden Gruppen erheblich unterscheiden, und wie kann ich das in SAS oder R (oder Orange) tun?
distributions
statistical-significance
Jay Stevens
quelle
quelle
Antworten:
Ich glaube, dass dies einen Kolmogorov-Smirnov-Test mit zwei Stichproben oder ähnliches erfordert. Der Kolmogorov-Smirnov-Test mit zwei Stichproben basiert auf dem Vergleich der Unterschiede in den empirischen Verteilungsfunktionen (ECDF) von zwei Stichproben, was bedeutet, dass er sowohl auf den Ort als auch auf die Form der beiden Stichproben anspricht. Es wird auch auf eine multivariate Form verallgemeinert.
Dieser Test ist in verschiedenen Formaten in verschiedenen Paketen in R enthalten. Wenn Sie also im Wesentlichen über ausreichende Kenntnisse verfügen, müssen Sie nur einen dieser Tests installieren (z. B. fBasics ) und ihn auf Ihren Beispieldaten ausführen.
quelle
proc npar1way
. In Rks.test()
gibt es zusätzlich dasnortest
Paket, das mehrere andere Anpassungstests bereitstellt.Ich werde die dumme Frage des Beraters stellen. Warum möchten Sie wissen, ob sich diese Verteilungen statistisch signifikant unterscheiden?
Handelt es sich bei den von Ihnen verwendeten Daten um repräsentative Stichproben aus Populationen oder Prozessen, und möchten Sie den Nachweis erbringen, dass sich diese Populationen oder Prozesse unterscheiden? Dann ist ein statistischer Test genau das Richtige für Sie. Aber das scheint mir eine seltsame Frage zu sein.
Oder interessiert es Sie, ob Sie sich wirklich so verhalten müssen, als ob diese Populationen oder Prozesse unabhängig von der Wahrheit unterschiedlich sind? Dann ist es besser, eine Verlustfunktion zu bestimmen, im Idealfall eine, die für Sie aussagekräftige Einheiten zurückgibt, und den erwarteten Verlust vorherzusagen, wenn Sie (a) die Populationen als unterschiedlich behandeln und (b) sie als gleich behandeln. Oder Sie können ein Quantil der Verlustverteilung wählen, wenn Sie eine mehr oder weniger konservative Position einnehmen möchten.
quelle
Möglicherweise möchten Sie relative Verteilungsmethoden anwenden. Nennen Sie eine Gruppe die Referenzgruppe und die andere die Vergleichsgruppe. Ähnlich wie beim Erstellen eines Wahrscheinlichkeits-Wahrscheinlichkeits-Diagramms können Sie ein relatives CDF / PDF erstellen, bei dem es sich um ein Verhältnis der Dichten handelt. Diese relative Dichte kann zur Schlussfolgerung herangezogen werden. Wenn die Verteilungen identisch sind, erwarten Sie eine einheitliche relative Verteilung. Es gibt grafische und statistische Werkzeuge, um Abweichungen von der Einheitlichkeit zu untersuchen und zu untersuchen.
Ein guter Ausgangspunkt, um ein besseres Verständnis zu erlangen, ist das Anwenden relativer Verteilungsmethoden in R und des reldist- Pakets in R. Weitere Informationen finden Sie in dem Buch Relative Verteilungsmethoden in den Sozialwissenschaften von Handcock und Morris. Es gibt auch einen Artikel der Autoren, der die relevanten Techniken behandelt.
quelle
Ein Maß für die Differenz zwischen zwei Verteilungen ist das Kriterium der "maximalen mittleren Diskrepanz", das im Grunde genommen die Differenz zwischen den empirischen Mitteln der Proben aus den beiden Verteilungen in einem reproduzierenden Kernel-Hilbert-Raum (RKHS) misst. Siehe dieses Dokument "Eine Kernel-Methode für das Zwei-Beispiel-Problem" .
quelle
Ich weiß nicht, wie man SAS / R / Orange verwendet, aber es hört sich so an, als ob die Art von Test, die Sie benötigen, ein Chi-Quadrat-Test ist .
quelle