Gibt es eine Version mit mehreren Stichproben oder eine Alternative zum Kolmogorov-Smirnov-Test?

12

Ich vergleiche die Größenverteilung von Bäumen in sechs Parzellenpaaren, wobei eine Parzelle eine Behandlung erhielt und die andere eine Kontrolle. Unter Verwendung eines Kolmogorov-Smirnov-Tests für jedes Paar von Parzellen stelle ich fest, dass Bereich von 0,0003707 bis 0,75 liegt . Gibt es geeignete Methoden für den Umgang mit allen Wiederholungen zusammen, z. B. eine Erweiterung des KS-Tests um mehrere Stichproben, oder gibt es einen geeigneten Folgetest? Oder sollte ich einfach so etwas wie "Die Größenverteilung unterscheidet sich signifikant ( p < 0,05 ) in 2 Parzellenpaaren und geringfügig ( p = 0,59 ) in einem Parzellenpaar."p0,00037070,75(p<0,05p=0,59

N Brouwer
quelle
2
Was möchten Sie mit diesen Verteilungen vergleichen, dass sie sich in der zentralen Tendenz oder in der Form unterscheiden? Ich neige dazu, KS als mehr über die Form / Natur einer Verteilung zu denken, aber so etwas wie der Friedman-Test kann feststellen, dass sich die Stichproben in der zentralen Tendenz unterscheiden.
gung - Wiedereinsetzung von Monica

Antworten:

13

r2

Momo
quelle
5
Nun, der Nachteil dieses "schönen" Papiers von Böhm und Hornik ist, dass es meines Erachtens keine öffentlich zugängliche Implementierung gibt. Die Mathematik ist so komplex, dass Sie sie nicht selbst implementieren möchten. Ich habe den Autoren eine Mail geschickt und sie gefragt, aber sie haben nicht geantwortet. Beachten Sie, dass Hornik Mitglied der R Core Developers-Gruppe ist ... Wenn jemand etwas über eine Implementierung weiß, posten Sie hier einen Link!
Laryx Decidua
8

Es gibt ein R-Paket kSamples , mit dem Sie unter anderem einen nicht-parametrischen k-sample Anderson-Darling-Test durchführen können. Die Nullhypothese ist, dass alle k Abtastwerte aus derselben Verteilung stammten, die nicht spezifiziert werden muss. Vielleicht kannst du das benutzen.

Kleines Beispiel zum Vergleich von Normal- und Gamma-verteilten Stichproben, die den gleichen Mittelwert und die gleiche Varianz aufweisen:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"
Laryx Decidua
quelle
4

Ein paar Ansätze:

Verwenden Sie die paarweisen p-Werte, aber passen Sie sie für mehrere Vergleiche an, indem Sie so etwas wie Bon Feroni oder False Discovery Rate verwenden (der erste Wert ist wahrscheinlich etwas zu konservativ). Dann können Sie sicher sein, dass alle, die sich noch erheblich unterscheiden, wahrscheinlich nicht auf die mehrfachen Tests zurückzuführen sind.

Sie können einen Gesamttest für die KS-Variante erstellen, indem Sie den größten Abstand zwischen den Verteilungen ermitteln, dh alle empirischen cdfs zeichnen und den größten Abstand zwischen der untersten und der obersten Linie ermitteln, oder vielleicht den durchschnittlichen Abstand oder einen anderen aussagekräftigen Wert messen. Wenn Sie einen Permutationstest durchführen, können Sie feststellen, ob dies von Bedeutung ist: Gruppieren Sie alle Daten in einem großen Bereich, teilen Sie sie dann nach dem Zufallsprinzip in Gruppen mit denselben Stichprobengrößen wie Ihre ursprünglichen Gruppen auf, berechnen Sie die Statistik für die permutierten Daten neu und wiederholen Sie den Vorgang viele Male (999 oder so). Dann sehen Sie, wie Ihre ursprünglichen Daten mit den permutierten Datensätzen verglichen werden. Wenn die ursprüngliche Datenstatistik in die Mitte der permutierten Daten fällt, gibt es keine signifikanten Unterschiede, aber wenn sie am Rand liegt, oder jenseits der permutierten ist etwas Wichtiges los (aber das sagt dir nicht, welche davon verschieden sind). Sie sollten dies wahrscheinlich mit simulierten Daten ausprobieren, bei denen Sie wissen, dass es einen Unterschied gibt, der groß genug ist, um interessant zu sein. Überprüfen Sie einfach die Leistung dieses Tests, um die interessanten Unterschiede zu ermitteln.

Greg Snow
quelle