Was tun, wenn die Mittelwerte zweier Stichproben erheblich voneinander abweichen, der Unterschied jedoch zu gering ist, um eine Rolle zu spielen?

13

Ich habe zwei Proben ( n70 in beiden Fällen). Die Mittel unterscheiden sich um etwa das Doppelte der gepoolten Standardabweichung. dev. Der resultierende T Wert ist ungefähr 10. Obwohl es gut zu wissen ist, dass ich schlüssig gezeigt habe, dass die Mittelwerte nicht gleich sind, scheint dies von dem großen n getrieben zu sein. Wenn ich mir die Histogramme der Daten ansehe, habe ich sicherlich nicht das Gefühl, dass ein kleiner p-Wert für die Daten wirklich repräsentativ ist, und um ehrlich zu sein, fühle ich mich nicht wirklich wohl, wenn ich es zitiere. Ich stelle wahrscheinlich die falsche Frage. Was ich denke ist: ok, die Mittel sind unterschiedlich, aber spielt das wirklich eine Rolle, da die Verteilungen eine signifikante Überschneidung aufweisen?

Ist dies der Ort, an dem Bayes-Tests nützlich sind? Wenn ja, wo ist ein guter Ausgangspunkt, ein bisschen googeln hat nichts Sinnvolles gebracht, aber ich kann nicht die richtige Frage stellen. Wenn dies die falsche Sache ist, hat jemand irgendwelche Vorschläge? Oder ist dies nur ein Diskussionspunkt im Gegensatz zur quantitativen Analyse?

Bowler
quelle
Ich möchte nur zu allen anderen Antworten hinzufügen, dass Ihre erste Aussage falsch ist: Sie haben NICHT schlüssig gezeigt, dass die Mittel unterschiedlich sind . Der p-Wert eines t-Tests gibt Aufschluss darüber, ob die Wahrscheinlichkeit der Beobachtung Ihrer Daten oder von Extremwerten davon bei der Nullhypothese wahrscheinlich / unwahrscheinlich ist (für den t-Test gilt μA=μB , dh H0 : {"Die Mittel sind gleich"}), was nicht bedeutet, dass die Mittel tatsächlich verschieden sind . Außerdem gehe ich davon aus, dass Sie auch einen F-Test durchgeführt haben, um die Gleichheit der Varianzen zu testen, bevor Sie den gepoolten Varianz-T-Test durchgeführt haben, oder?
Néstor
Ihre Frage ist sehr gut, da sie eine wichtige Unterscheidung aufwirft und zeigt, dass Sie tatsächlich über Ihre Daten nachdenken, anstatt in einer statistischen Ausgabe nach einigen Sternen zu suchen und sich für erledigt zu erklären. Wie mehrere Antworten zeigen, ist die statistische Signifikanz nicht gleichbedeutend mit der Aussagekraft . Und wenn Sie darüber nachdenken, können sie nicht sein: Woher würde ein statistisches Verfahren wissen, dass eine statistisch signifikante mittlere Differenz von 0,01 etwas in Feld A bedeutet, aber in Feld B bedeutungslos klein ist?
Wayne
Die Sprache stimmte zwar nicht, aber wenn der p-Wert mit dem übereinstimmt, den ich erhalte, neige ich dazu, nicht zu wählerisch mit den Worten umzugehen. Ich habe einen F-Test (und einen QQ-Plot) gemacht. Es ist nah genug für Jazz, wie man sagt.
Bowler
1
FWIW, wenn Ihre Mittelwerte 2 SDs auseinander liegen, scheint mir das ein ziemlich großer Unterschied zu sein. Das hängt natürlich von Ihrem Fachgebiet ab, aber das ist ein Unterschied, den die Leute mit bloßem Auge leicht bemerken würden (z. B. unterscheiden sich die Durchschnittshöhen von US-Männern und -Frauen im Alter von 20 bis 29 um etwa 1,5 SD) Überlappen Sie sich überhaupt nicht, Sie müssen keine Datenanalysen durchführen. Mindestens w / N so klein wie 6, p ist <0,05, wenn sich die Verteilungen nicht überlappen.
gung - Wiedereinsetzung von Monica
Ich bin damit einverstanden, dass der Unterschied groß ist, auch wenn sich herausstellte, dass er absolut respektlos ist.
Bowler

Antworten:

12

Es sei der Mittelwert der ersten Population und μ 2 der Mittelwert der zweiten Population. Es scheint, dass Sie einen t- Test mit zwei Stichproben verwendet haben , um zu testen, ob μ 1 = μ 2 ist . Das signifikante Ergebnis impliziert, dass μ 1μ 2 , aber der Unterschied scheint zu gering zu sein, um für Ihre Anwendung von Bedeutung zu sein.μ1μ2tμ1=μ2μ1μ2

Was Sie festgestellt haben, ist die Tatsache, dass statistisch signifikant oft etwas anderes als signifikant für die Anwendung sein kann . Obwohl der Unterschied statistisch signifikant sein kann, ist er möglicherweise dennoch nicht aussagekräftig .

Bayesianische Tests lösen dieses Problem nicht - Sie werden nur den Schluss ziehen, dass ein Unterschied besteht.

Es könnte jedoch einen Ausweg geben. Zum Beispiel für eine einseitige Hypothese könnte man entscheiden , dass , wenn ist Δ Einheiten größer als μ 2 dann wäre das ein spürbarer Unterschied sein, der groß genug ist für Ihre Anwendung wichtig ist .μ1Δμ2

In diesem Fall würden Sie testen, ob anstatt ob μ 1 - μ 2 = 0 ist . Die t- Statistik (unter der Annahme gleicher Varianzen) wäre in diesem Fall T = x 1 - x 2 - Δμ1μ2Δμ1μ2=0t wobeispdie Schätzung der gepoolten Standardabweichung ist. Nach der Nullhypothese ist diese Statistikmitn1+n2-2Freiheitsgradent-verteilt.

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Eine einfache Möglichkeit, diesen Test durchzuführen, besteht darin, von Ihren Beobachtungen von der ersten Population zu subtrahieren und dann einen regelmäßigen einseitigen t- Test mit zwei Stichproben durchzuführen .Δt

MånsT
quelle
8

Es ist gültig, mehrere Ansätze zu vergleichen, jedoch nicht mit dem Ziel, den zu wählen, der unseren Wünschen / Überzeugungen entspricht.

Meine Antwort auf Ihre Frage lautet: Es ist möglich, dass sich zwei Verteilungen überlappen, obwohl sie unterschiedliche Mittel haben. Dies scheint Ihr Fall zu sein (wir müssten jedoch Ihre Daten und Ihren Kontext anzeigen, um eine genauere Antwort zu erhalten).

Ich werde dies anhand einiger Ansätze zum Vergleich der normalen Mittelwerte veranschaulichen .

1. Testt

70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

σ

enter image description here

μ

Eine Definition der Profilwahrscheinlichkeit und -wahrscheinlichkeit finden Sie unter 1 und 2 .

μnx¯Rp(μ)=exp[n(x¯μ)2]

Für die simulierten Daten können diese in R wie folgt berechnet werden

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2

μ

(μ,σ)

π(μ,σ)1σ2

μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Auch hier überschneiden sich die Glaubwürdigkeitsintervalle für die Mittel auf keinem vernünftigen Niveau.

Zusammenfassend können Sie sehen, wie all diese Ansätze trotz der Überlappung der Verteilungen einen signifikanten Unterschied der Mittelwerte anzeigen (was das Hauptinteresse ist).

P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Ich hoffe das hilft.

Gemeinschaft
quelle
2
(+1) Vielen Dank für eine wirklich nützliche Antwort auf BaySian-Methoden. Auch der P (X <Y) -Link beantwortet ein anderes Problem, über das ich mich in derselben Analyse gewundert habe.
Bowler
7

Die richtige Frage beantworten

OK, die Mittel sind unterschiedlich, aber ist das wirklich wichtig, da die Verteilungen eine signifikante Überschneidung aufweisen?

Jeder Test, der fragt, ob Gruppenmittelwerte unterschiedlich sind, sagt Ihnen, ob Mittelwerte unterschiedlich sind, wenn er richtig funktioniert. Es wird Ihnen nicht gesagt, dass die Verteilung der Daten selbst unterschiedlich ist, da dies eine andere Frage ist. Diese Frage hängt sicherlich davon ab, ob die Mittel unterschiedlich sind, aber auch von vielen anderen Dingen, die (unvollständig) als Varianz, Schrägstellung und Kurtosis zusammengefasst werden können.

Sie beachten zu Recht, dass die Gewissheit, wo sich die Mittelwerte befinden, von der Menge der Daten abhängt, die Sie schätzen müssen. Wenn Sie also mehr Daten haben, können Sie mittlere Unterschiede in sich näher überlappenden Verteilungen erkennen. Aber Sie fragen sich, ob

wie kleiner p-Wert ist wirklich repräsentativ für die Daten

In der Tat ist es nicht, zumindest nicht direkt. Und das ist so gewollt. Es ist (ungefähr) repräsentativ für die Gewissheit, dass ein bestimmtes Paar von Stichprobenstatistiken der Daten (nicht die Daten selbst) unterschiedlich sind.

Wenn Sie die Daten selbst formaler darstellen möchten, als nur die Histogramme und Testmomente anzuzeigen, sind möglicherweise zwei Dichtediagramme hilfreich. Es hängt vielmehr wirklich von dem Argument ab, für das Sie den Test verwenden.

Eine Bayesianische Version

In all diesen Punkten verhalten sich Bayes'sche Differenztests und T-Tests gleich, weil sie versuchen, dasselbe zu tun. Die einzigen Vorteile, die mir bei der Verwendung eines Bayes'schen Ansatzes in den Sinn kommen, sind: a) dass es einfach sein wird, den Test so durchzuführen, dass möglicherweise unterschiedliche Varianzen für jede Gruppe möglich sind, und b) dass der Schwerpunkt auf der Schätzung der wahrscheinlichen Größe der Mittelwertdifferenz liegt anstatt einen p-Wert für einen Unterschiedstest zu finden. Trotzdem sind diese Vorteile recht gering: Zum Beispiel kann man in b) immer ein Konfidenzintervall für die Differenz angeben.

Die Anführungszeichen über "Tests" sind absichtlich. Es ist sicherlich möglich, die Bayes'schen Hypothesen zu testen, und die Leute tun es auch. Ich würde jedoch vorschlagen, dass der komparative Vorteil des Ansatzes darin besteht, ein plausibles Modell der Daten zu erstellen und seine wichtigen Aspekte mit angemessener Unsicherheit zu kommunizieren.

Conjugateprior
quelle
3

Erstens ist dies kein Problem, wenn man sich auf häufige Tests stützt. Das Problem liegt in der Nullhypothese, dass die Mittelwerte exakt gleich sind. Wenn sich die Populationen also im Mittel um eine geringe Menge unterscheiden und die Stichprobengröße groß genug ist, ist die Wahrscheinlichkeit, diese Nullhypothese abzulehnen, sehr hoch. Daher fiel der p-Wert für Ihren Test sehr klein aus. Der Täter ist die Wahl der Nullhypothese. Wählen Sie d> 0 und nehmen Sie die Nullhypothese an, dass sich die Mittelwerte um weniger als d im absoluten Wert um weniger als d unterscheiden. Sie wählen d, damit der tatsächliche Unterschied ausreichend groß ist, um ihn abzulehnen. Dein Problem geht weg. Bayesianische Tests lösen Ihr Problem nicht, wenn Sie auf einer Nullhypothese der exakten Mittelgleichheit bestehen.

Michael R. Chernick
quelle
Ich schrieb meine Antwort gleichzeitig mit den beiden anderen.
Michael R. Chernick