Anzeigen von Fehlerbalken für gekreuzte (gepaarte) Experimente

19

Das folgende Szenario wurde zur häufigst gestellten Frage im Trio von Ermittler (I), Prüfer / Herausgeber (R, nicht mit CRAN verwandt) und mir (M) als Handlungsersteller. Wir können davon ausgehen, dass es sich bei (R) um den typischen medizinischen Big Boss-Gutachter handelt, der nur weiß, dass jeder Plot einen Fehlerbalken aufweisen muss, andernfalls ist er falsch. Wenn ein statistischer Prüfer involviert ist, sind Probleme viel weniger kritisch.

Szenario

In einer typischen pharmakologischen Kreuzstudie werden zwei Arzneimittel A und B auf ihre Wirkung auf den Glucosespiegel getestet. Jeder Patient wird zweimal in zufälliger Reihenfolge und unter der Annahme einer Übertragung getestet. Der primäre Endpunkt ist der Unterschied zwischen Glukose (BA), und wir gehen davon aus, dass ein paarweiser t-Test ausreichend ist.

(I) möchte ein Diagramm, das die absoluten Glukosespiegel in beiden Fällen zeigt. Er befürchtet (R) den Wunsch nach Fehlerbalken und fragt nach Standardfehlern in Balkendiagrammen. Beginnen wir hier nicht mit dem Krieg der Balkendiagramme ._)

Balkendiagramme und SE-Glucose für zwei Behandlungen

(I): Das kann nicht wahr sein. Die Balken überlappen sich und wir haben p = 0,03? Das habe ich in der Schule nicht gelernt.

(M): Wir haben hier ein gepaartes Design. Die angeforderten Fehlerbalken sind völlig irrelevant, was zählt, ist der SE / CI der gepaarten Differenzen, die in der Darstellung nicht gezeigt werden. Wenn ich eine Wahl hätte und es nicht zu viele Daten gäbe, würde ich die folgende Darstellung vorziehen

Verbundene Linien zeigen die Paarung, Punkte die ursprünglichen Werte

Hinzugefügt 1: Dies ist die parallele Koordinatendarstellung, die in mehreren Antworten erwähnt wurde

(M): Die Linien zeigen die Paarung, und die meisten Linien gehen nach oben, und das ist der richtige Eindruck, weil die Steigung zählt (ok, das ist kategorisch, aber trotzdem).

(I): Das Bild ist verwirrend. Niemand versteht es und es hat keine Fehlerbalken (R lauert).

(M): Wir könnten auch ein weiteres Diagramm hinzufügen, das das relevante Konfidenzintervall der Differenz zeigt. Der Abstand von der Nulllinie vermittelt einen Eindruck von der Effektgröße.

(I): Niemand tut es

(R): Und es verschwendet wertvolle Bäume

(M): (als guter Deutscher): Ja, Punkt auf den Bäumen wird genommen. Aber ich benutze dies trotzdem (und werde es nie veröffentlicht), wenn wir mehrere Behandlungen und mehrere Kontraste haben.

Konfidenzintervall der Differenz

Irgendwelche Vorschläge ? Der R-Code ist unten angegeben, wenn Sie ein Diagramm erstellen möchten.

# Graphics for Crossover experiments
library(ggplot2)
library(plyr)
theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines")))
n = 20
effect = 5 
set.seed(4711)
glu0 = rnorm(n,120,30)
glu1 = glu0 + rnorm(n,effect,7)
dt = data.frame(patient = rep(paste0("P",10:(9+n))),              
                treatment = rep(c("A","B"), each=n),glucose = c(glu0,glu1))

dt1 = ddply(dt,.(treatment), function(x){
  data.frame(glucose = mean(x$glucose), se = sqrt(var(x$glucose)/nrow(x)) )})

tt = t.test(glucose~treatment,paired=TRUE,data=dt,conf.int=TRUE)
dt2 = data.frame(diff = -tt$estimate,low=-tt$conf.int[2], up=-tt$conf.int[1])
p = paste("p =",signif(tt$p.value,2))

png(height=300,width=300)
ggplot(dt1, aes(x=treatment, y=glucose, fill=treatment))+      
  geom_bar(stat="identity")+  
  geom_errorbar(aes(ymin=glucose-se, ymax=glucose+se),size=1., width=0.3)+
  geom_text(aes(1.5,150),label=p,size=6)

ggplot(dt,aes(x=treatment,y=glucose, group=patient))+ylim(0,190)+
  geom_line()+geom_point(size=4.5)+
  geom_text(aes(1.5,60),label=p,size=6)

ggplot(dt2,aes(x="",y=diff))+
  geom_errorbar(aes(ymin=low,ymax=up),size=1.5,width=0.2)+ 
  geom_text(aes(1,-0.8),label=p,size=6)+
  ylab("95% CI of difference glucose B-A")+  ylim(-10,10)+
  theme(panel.border=element_blank(), panel.grid.major.x=element_blank(),
         panel.grid.major.y=element_line(size=1,colour="grey88"))

dev.off()
Dieter Menne
quelle
Oh mein gott @ dieter-menne, tolle frage! Dies hängt von der Art der Zeitschrift ab, bei der Sie den Artikel einreichen. Ich werde mich von den Graphenkriegen fernhalten, aber ich liebe die Graphen 2 und 3: so viele Informationen auf so wenig Raum.
Doug.Numbers
4
Masson and Loftus (2003) wird häufig zitiert. Sie zeigen Beispieldiagramme, in denen sie den CI der Differenz in einem zweiten Feld desselben Diagramms darstellen. Ob das alle im Zirkus glücklich machen wird, weiß ich nicht (ich fühle aber für dich!)
Andy W
Vielen Dank, @AndyW, für den Hinweis. Es ist auf den Punkt, hat aber ein Problem: Es ist aus der Psychologie. Es gibt viel mehr gute Artikel zu diesem Thema von Psychologen, die im Vergleich zu medizinischen Gutachtern einen viel besseren statistischen Hintergrund haben. Ich wünschte, ich könnte einen hochrangigen Leitfaden zu diesem Thema finden, das ist das einzige scharfe Schwert, mit dem ich umgehen könnte.
Dieter Menne

Antworten:

17

Sie gehen zu Recht davon aus, dass Fehlerbalken, die den Standardfehler des Mittelwerts darstellen, für themeninterne Entwürfe völlig ungeeignet sind. Die Frage der Überlappung von Fehlerbalken und der Signifikanz ist jedoch ein weiteres Thema, auf das ich am Ende dieser kommentierten Referenzliste zurückkommen werde.

Es gibt eine reiche psychologische Literatur zu Konfidenzintervallen oder Fehlerbalken, die genau das tun, was Sie wollen. Das Nachschlagewerk ist klar:

Loftus, GR & Masson, MEJ (1994). Verwenden von Konfidenzintervallen in fachinternen Designs . Psychonomic Bulletin & Review , 1 (4), 476–490. doi: 10.3758 / BF03210951

Ihr Problem ist jedoch, dass sie für alle Ebenen eines subjektinternen Faktors denselben Fehlerterm verwenden. Dies scheint kein großes Problem für Ihren Fall zu sein (2 Ebenen). Es gibt jedoch modernere Ansätze, um dieses Problem zu lösen. Vor allem:

Franz, V. & Loftus, G. (2012). Standardfehler und Konfidenzintervalle in fachinternen Entwürfen: Verallgemeinern von Loftus und Masson (1994) und Vermeiden von Verzerrungen alternativer Konten . Psychonomic Bulletin & Review , 1–10. doi: 10.3758 / s13423-012-0230-1

Baguley, T. (2011). Berechnung und grafische Darstellung der Konfidenzintervalle innerhalb des Subjekts für ANOVA. Methoden der Verhaltensforschung . doi: 10.3758 / s13428-011-0123-7 [ hier zu finden ]

Weitere Referenzen finden sich in den beiden letztgenannten Veröffentlichungen (die meiner Meinung nach beide eine Lektüre wert sind).


Wie interpretieren Forscher CIs? Schlecht laut folgendem Papier:

Belia, S., Fidler, F., Williams, J. & Cumming, G. (2005). Forscher verstehen Konfidenzintervalle und Standardfehlerbalken falsch . Psychological Methods , 10 (4), 389–396. doi: 10.1037 / 1082-989X.10.4.389

Wie sollen wir überlappende und nicht überlappende CIs interpretieren?

Cumming, G. & Finch, S. (2005). Inferenz per Auge: Konfidenzintervalle und Lesen von Datenbildern . American Psychologist , 60 (2), 170–180. doi: 10.1037 / 0003-066X.60.2.170


Ein letzter Gedanke (obwohl dies für Ihren Fall nicht relevant ist): Wenn Sie in einem Diagramm ein Split-Plot-Design (dh innerhalb und zwischen Subjektfaktoren) haben, können Sie Fehlerbalken insgesamt vergessen. Ich würde (demütig) meine raw.means.plotFunktion im R-Paket empfehlen plotrix.

Henrik
quelle
2
Sehr nützliche Referenzliste. Cumming hat viele seiner Ideen in amazon.com/Understanding-New-Statistics-Meta-Analysis-ebook/dp/… (Was auch immer Sie über den Ausdruck "die neue Statistik" sagen möchten, ich stimme wahrscheinlich zu.)
Nick Cox
@amoeba Das von mir angegebene Baguley-Papier verwendet die Morey-Papiertechnik.
Henrik
10

Die Frage scheint weniger nach Fehlerbalken als nach den besten Möglichkeiten zu bestehen, gepaarte Daten zu zeichnen.

Im Grunde genommen sind Fehlerbalken hier höchstens eine Möglichkeit, die Unsicherheit zusammenzufassen: Sie sagen nicht viel über eine Feinstruktur in den Daten aus, und sie können auch nicht viel darüber aussagen.

Parallele Koordinatendiagramme - manchmal auch als Profildiagramme bezeichnet - wurden in der Frage erwähnt. Grundlegende Streudiagramme wurden bereits von @Ray Koopman vorgeschlagen.

AB(A+B)/2A+B

Eine weitere Quelle für diese Handlung ist Neyman, J., Scott, EL und Shane, CD 1953. Zur räumlichen Verteilung von Galaxien: ein spezifisches Modell. Astrophysical Journal 117: 92–133.

In groben Zügen ähneln solche Diagramme der Idee, Residuen gegen angepasste zu zeichnen, die auch von Tukey und seinem Schwager im Quadrat von Anscombe populär gemacht wurden.

AB=0A=BAB

Ein vernachlässigtes Design ist das Parallel-Linien-Diagramm von McNeil, DR 1992. Zur grafischen Darstellung gepaarter Daten. American Statistician 46: 307–310. Dies wird auch in den beiden folgenden Referenzen erörtert.

Stata-verknüpfte Übersichten mit mehreren Referenzen sind in

2004, Graphing Vereinbarung und Uneinigkeit. Stata Journal 4: 329 & ndash; 349.

.pdf abrufbar unter http://www.stata-journal.com/sjpdf.html?articlenum=gr0005

Gepaarte, parallele oder Profildiagramme für Änderungen, Korrelationen und andere Vergleiche. Stata Journal 9: 621 & ndash; 639.

.pdf abrufbar unter http://www.stata-journal.com/sjpdf.html?articlenum=gr0041

Nicht-Stata-Benutzer sollten in der Lage sein, den Stata-Code zu überspringen und sich darin zurechtzufinden, wie sie die Diagramme in ihrer eigenen Lieblingssoftware implementieren können.

AB

Nick Cox
quelle
4

Versuchen Sie es mit einem Streudiagramm der einzelnen Punkte (A, B). Die meisten von ihnen sollten nur auf einer Seite der Diagonale liegen (Linie A = B). Es gibt zwei Analoga von Fehlerbalken. Das konventionelle, das einem CI für die mittlere Differenz entspricht, wäre ein Konfidenzband für die mittlere Differenz. Das Band wäre der Bereich zwischen zwei Linien, die beide parallel zur Diagonale verlaufen. Ein gepaarter t-Test wäre nur dann von Bedeutung, wenn sich beide Kanten des Bandes auf derselben Seite der Diagonale befinden.

Ein konservativeres Fehlerbalkenanalog wäre eine Vertrauensellipse für den Schwerpunkt.

Ray Koopman
quelle
1
cmethodBcmethodA
Nein, cl. - :) Die klinische Chemie ist zu hoch entwickelt. Könnte es sein, dass Sie einen Verweis in "dort" hinzugefügt hatten; Ich bin nicht sicher, von welchem ​​Papier Sie sprechen.
Dieter Menne
4

Vorläufige Zusammenfassung:

Masson / Loftus ist sehr ausführlich und für meine medizinischen Kollegen, die so etwas wie eine "Interaktion" nicht akzeptieren würden, keine einfache Lektüre. Sie haben auch einige Vorschläge für mehrere Vergleiche, die zeigen, dass paarweise Konfidenzintervalle schwer zu veranschaulichen sind, wenn man nicht stark vereinfachen möchte.

Masson Loftus

Ich mag diesen Stil nicht: Die Balken mit Fehlerbalken sehen im letzten Jahrtausend Excelish aus. Sie verwenden jedoch auch einen etwas eleganteren Stil:

Masson Loftus ohne Balken

Cumming / Finch und Belia et al. Es sind Pflichtlesungen. Die erste ist die perfekte Wahl, um Ihrem Freund zu geben, wer schaudert, wenn er das Wort Interaktion sieht . Nachdem ich diesen Artikel gelesen hatte, bestellte ich Cummings Buch. Die zweite zeigt einen Test, den ich in Shiny für das nächste Treffen der medizinischen Ermittler durchführen werde.

Cumming / Finch

Ich mag diese Handlung, auch wenn es eine zweite Achse gibt, die ich noch nie benutzt habe. In Henriks und einigen anderen Beiträgen zu StackOverflow finden Sie eine Grafikmethode auf R-Basis. Ich würde es vorziehen, die zweite Achse links vom Unterschied zu platzieren, um absolut klar zu machen, dass sich die Werte geändert haben, und vielleicht eine p-Wert-Achse hinzuzufügen.

Jemand aus der Gitterfraktion, der einen Schuss macht? Alle gelieferten Lösungen sind Basisgrafiken und nicht panelisierbar / facettierbar.

Beachten Sie jedoch, dass Kommentare und Artikel zumeist aus der Abteilung für Psychologie stammen (und von der Hardcore-Chemie stammen). Es wäre gut, Kommentare von Rezensenten von medizinischen Fachzeitschriften zu erhalten.

Dieter Menne
quelle
0

Warum nicht einfach den Unterschied * für jeden Patienten aufzeichnen? Sie können dann ein Histogramm, ein Box-Diagramm oder ein Diagramm mit normaler Wahrscheinlichkeit verwenden und ein 95% -Konfidenzintervall für die Differenz überlagern.

  • In einigen Szenarien kann es sich um den Unterschied der Logarithmen handeln. Siehe zum Beispiel Patterson & Jones, "Bioequivalence and Statistics in Clinical Pharmacology", Chapman, 2006.
Emil Friedman
quelle
Warum nicht? Es könnte gültige Informationen liefern, aber Diagramme mit einzelnen Punkten oder Paaren sind in der medizinischen Forschung nicht wirklich beliebt. Das ist der Grund, warum parallele Handlungen (die mehr Informationen liefern) so unbeliebt sind. Medizinische Forscher wollen Mittelwerte und "normale Bereiche" (was auch immer das ist).
Dieter Menne