Wie man glaubwürdige Intervalle für ein medizinisches Publikum zusammenfasst

21

Mit Stan und Frontend - Paketen rstanarmoder brmsich kann einfach Daten für den Bayesian analysiert , wie ich zuvor mit gemischten Modellen wie lme. Obwohl ich die meisten Bücher und Artikel von Kruschke-Gelman-Wagenmakers-etc auf meinem Schreibtisch habe, verraten diese nicht, wie ich die Ergebnisse für ein medizinisches Publikum zusammenfassen soll, das zwischen der Skylla des Bayesianischen Zorns und der Charybdis der medizinischen Gutachter hin- und hergerissen ist ( "Wir wollen Bedeutungen, nicht so diffuses Zeug").

Ein Beispiel: Die Magenfrequenz (1 / min) wird in drei Gruppen gemessen; gesunde Kontrollen sind die Referenz. Da es für jeden Teilnehmer mehrere Messungen gibt, habe ich à la frequentist das folgende gemischte Modell verwendet lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Leicht bearbeitete Ergebnisse:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Der Einfachheit halber werde ich 2 * std Fehler als 95% CI verwenden.

Im frequentistischen Kontext hätte ich das folgendermaßen zusammengefasst:

  • In der Kontrollgruppe lag die geschätzte Frequenz bei 2,7 / min (möglicherweise wird hier ein CI hinzugefügt, aber ich vermeide dies manchmal aufgrund der durch Absolut- und Differenz-CI verursachten Verwirrung).
  • In der no_symptoms-Gruppe war die Frequenz um 0,4 / min höher, CI (0,11 bis 0,59) / min, p = 0,006 als bei der Kontrolle.
  • In der with_symptoms-Gruppe war die Frequenz um 0,2 / min höher, CI (-0,04 bis 0,4) / min, p = 0,11 als bei der Kontrolle.

Dies ist ungefähr die maximal akzeptable Komplexität für eine medizinische Veröffentlichung. Der Prüfer wird mich wahrscheinlich bitten, im zweiten Fall "nicht signifikant" hinzuzufügen.

Hier ist das gleiche mit stan_lmerund Standardprioren.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

wobei CredI zu 90% glaubwürdige Intervalle sind (siehe die Rstanarm-Vignette, warum 90% als Standard verwendet wird.)

Fragen:

  • Wie lässt sich die obige Zusammenfassung auf die Bayesianische Welt übertragen?
  • Inwieweit ist eine Vorbesprechung erforderlich? Ich bin mir ziemlich sicher, dass die Zeitung mit der üblichen "subjektiven Annahme" zurückkommen wird, wenn ich die Prioritäten erwähne. oder zumindest mit "keine technische Diskussion, bitte". Alle bayesianischen Behörden fordern jedoch, dass die Auslegung nur im Zusammenhang mit Prioren gültig ist.
  • Wie kann ich ein "Signifikanz" -Surrogat in der Formulierung liefern, ohne Bayes'sche Konzepte zu verraten? Etwas wie "glaubwürdig anders" (uuuh ...) oder fast glaubwürdig anders (buoha ..., klingt wie "am Rande der Bedeutung").

Jonah Gabry und Ben Goodrich (2016). rstanarm: Bayesian Applied Regression Modeling über Stan. R-Paket Version 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Stan-Entwicklungsteam (2015). Stan: Eine C ++ - Bibliothek für Wahrscheinlichkeiten und Stichproben, Version 2.8.0. URL http://mc-stan.org/ .

Paul-Christian Bürkner (2016). brms: Bayesian Regression Models mit Stan. R-Paket Version 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J., Bates D., DebRoy S., Sarkar D. und R Core Team (2016). nlme: Lineare und nichtlineare Modelle mit gemischten Effekten . R-Paket Version 3.1-124, http://CRAN.R-project.org/package=nlme>.

Dieter Menne
quelle
1
Ich habe keine Erfahrung mit Gutachtern / Herausgebern von medizinischen Fachzeitschriften, aber vielleicht könnten Sie versuchen zu sagen, dass es keine Wahrscheinlichkeit gibt, dass der Achsenabschnitt negativ ist, keine Wahrscheinlichkeit, dass der Koeffizient für die Scheinvariable "keine Symptome" negativ ist, und eine Wahrscheinlichkeit von etwa 5% dass der Koeffizient für die Dummy-Variable "mit Symptomen" negativ ist. Sie können damit ca. 5% genauer quantifizieren mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).
Ben Goodrich
Wir haben darüber nachgedacht und die 5% klangen ok; Forscher werden es in "Bedeutung" übersetzen, aber da sie Bedeutung normalerweise falsch verstehen, werden sie durch doppelte Verneinung Recht haben. "Zero Probability" hingegen ist ein Killer: Würden Sie das akzeptieren? Vielleicht wäre <1 / Reff (p <0,001) eine Annäherung? Aber nochmal: Wenn ich p <xxx schreibe, bin ich in Bedeutungswelt.
Dieter Menne
Korrigieren Sie Reff zu n_eff oben.
Dieter Menne
1
Ich persönlich würde eine Endwahrscheinlichkeit nicht als "weniger als 1 in n_eff Chance" bezeichnen, da n_eff die Genauigkeit betrifft, mit der der Mittelwert geschätzt wird. Vielleicht könnten Sie Ihre Ketten lang genug laufen lassen, um 1 negativen Zug für den Koeffizienten zu erhalten, group_nosymptomsund dann sagen, die Wahrscheinlichkeit, dass er negativ ist, ist 1 / draws. Aber beim Abfangen wird die Kette für diese Daten niemals in den negativen Bereich wandern, also könnte man sagen, dass die Wahrscheinlichkeit geringer ist als 1 / draws.
Ben Goodrich
Ich habe hier einige gute Ratschläge zur Aufnahme von p-Werten für einen Domain-Experten, aber keinen statistischen Experten erhalten: stats.stackexchange.com/questions/148649/… . Wir verwenden p <Minimum (n_eff alle Parameter) als konservative Oberegrenze , wenn p = 0
stijn

Antworten:

16

Schnelle Gedanken:

1) Das Hauptproblem ist, welche Frage Sie für Ihr Publikum beantworten möchten, da dies bestimmt, welche Informationen Sie für Ihre statistische Analyse benötigen. In diesem Fall scheint es mir, dass Sie die Größe der Unterschiede zwischen Gruppen schätzen möchten (oder vielleicht die Größe der Verhältnisse der Gruppen, wenn dies das Ihrem Publikum vertrautere Maß ist). Die Größe der Unterschiede ergibt sich nicht direkt aus den Analysen, die Sie in der Frage vorgestellt haben. Aus der Bayes'schen Analyse lässt sich jedoch direkt das ableiten, was Sie möchten: Sie möchten die posteriore Verteilung der Differenzen (oder Verhältnisse). Aus der posterioren Verteilung der Differenzen (oder Verhältnisse) können Sie dann eine direkte Wahrscheinlichkeitsaussage wie die folgende machen:

"Die zu 95% glaubwürdigsten Unterschiede liegen zwischen [Untergrenze 95% HDI] und [Obergrenze 95% HDI]" (hier verwende ich das 95% -Intervall mit der höchsten Dichte [HDI] als glaubwürdiges Intervall, und weil diese von sind Definition der Parameterwerte mit der höchsten Dichte, die als "am glaubwürdigsten" eingestuft werden.)

Ein medizinisches Fachpublikum würde diese Aussage intuitiv und korrekt verstehen, da das Publikum normalerweise die Bedeutung eines häufig auftretenden Konfidenzintervalls meint (auch wenn dies nicht die Bedeutung eines häufig auftretenden Konfidenzintervalls ist).

Wie bekommen Sie die Unterschiede (oder Verhältnisse) von Stan oder JAGS? Lediglich durch Nachbearbeitung der fertigen MCMC-Kette. Berechnen Sie bei jedem Schritt in der Kette die relevanten Unterschiede (oder Verhältnisse) und untersuchen Sie dann die hintere Verteilung der Unterschiede (oder Verhältnisse). Beispiele finden Sie in DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ für MCMC in Abbildung 7.9 (S. 177), für JAGS in Abbildung 8.6 (S. 211) und für Stan in Abschnitt 16.3 (S. 16.3) 468) usw.!

2) Wenn Sie aus Tradition gezwungen sind, eine Aussage darüber zu treffen, ob eine Differenz von Null abgelehnt wird oder nicht, haben Sie zwei Bayes'sche Optionen.

2A) Eine Möglichkeit besteht darin, Wahrscheinlichkeitsaussagen über Intervalle nahe Null und deren Beziehung zum HDI zu treffen. Dazu richten Sie eine Region der praktischen Äquivalenz (ROPE) um Null ein, die lediglich eine Entscheidungsschwelle darstellt, die für Ihre angewandte Domäne geeignet ist - wie groß ist ein geringfügiger Unterschied? Das Setzen derartiger Grenzen erfolgt beispielsweise routinemäßig bei klinischen Nicht-Minderwertigkeitstests. Wenn Sie ein Maß für die „Effektgröße“ in Ihrem Feld haben, gibt es möglicherweise Konventionen für die „kleine“ Effektgröße, und die ROPE-Grenzwerte können beispielsweise die Hälfte eines kleinen Effekts sein. Dann können Sie direkte Wahrscheinlichkeitsaussagen wie diese machen:

"Nur 1,2% der posterioren Differenzverteilung sind praktisch gleich Null"

und

"Die zu 95% glaubwürdigsten Unterschiede sind alle praktisch nicht gleich Null (dh der 95% HDI und das SEIL überlappen sich nicht), und deshalb lehnen wir Null ab." (Beachten Sie die Unterscheidung zwischen der Wahrscheinlichkeitsaussage von der posterioren Verteilung und der nachfolgenden Entscheidung, die auf dieser Aussage basiert.)

Sie können aus praktischen Gründen auch eine Differenz von Null akzeptieren, wenn die zu 95% glaubwürdigsten Werte alle praktisch gleich Null sind.

2B) Eine zweite Bayes'sche Option ist das Testen der Bayes'schen Nullhypothese. (Beachten Sie, dass die Methode oben nicht wargenannt "Hypothesentest"!) Beim Testen der Bayes'schen Nullhypothese wird ein Bayes'scher Modellvergleich einer früheren Verteilung durchgeführt, bei dem angenommen wird, dass die Differenz nur Null sein kann, und einer alternativen früheren Verteilung, bei der angenommen wird, dass die Differenz ein diffuser Bereich von Möglichkeiten sein könnte. Das Ergebnis eines solchen Modellvergleichs hängt (in der Regel) sehr stark von der Wahl der alternativen Verteilung ab, weshalb die Wahl der vorrangigen Alternative sorgfältig begründet werden muss. Es ist am besten, mindestens schwach informierte Prioritäten sowohl für die Null als auch für die Alternative zu verwenden, damit der Modellvergleich wirklich aussagekräftig ist. Beachten Sie, dass der Modellvergleich andere Informationen liefert als die Schätzung der Unterschiede zwischen Gruppen, da der Modellvergleich eine andere Frage behandelt. Somit kann auch bei einem Modellvergleich

Es könnte Möglichkeiten geben, einen Bayes'schen Nullhypothesentest anhand der Stan / JAGS / MCMC-Ausgabe durchzuführen, aber ich weiß es in diesem Fall nicht. Zum Beispiel könnte man eine Savage-Dickey-Näherung an einen Bayes-Faktor versuchen, aber das würde davon abhängen, die vorherige Dichte der Differenzen zu kennen, was eine mathematische Analyse oder eine zusätzliche MCMC-Näherung vom vorherigen erfordern würde.

Die beiden Methoden zur Entscheidung über Nullwerte werden in Kap. 12 von DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Aber ich möchte wirklich nicht, dass diese Diskussion von einer Debatte über die "richtige" Methode zur Bewertung von Nullwerten abgelenkt wird. Sie sind einfach anders und liefern unterschiedliche Informationen. Der Hauptpunkt meiner Antwort ist Punkt 1 oben: Betrachten Sie die hintere Verteilung der Unterschiede zwischen den Gruppen.

John K. Kruschke
quelle
3
Willkommen auf unserer Webseite! Schön, dass Sie Teil unserer Community werden!
Tim
Wenn Sie Ihr Konto mit diesem Konto zusammenführen möchten, stats.stackexchange.com/users/16592 (das scheint auch Ihnen zu gehören), können Sie dies automatisch über stats.stackexchange.com/contact tun .
Amöbe sagt Reinstate Monica
Sie können den hier beschriebenen Hypothesentest mit brms durchführen. Siehe: github.com/paul-buerkner/brms
bjw
3

Nach der SO-Etikette hätte dies als Kommentar an @John K. Kruschke geschrieben werden sollen, längere Kommentare sind jedoch schwer zu strukturieren. Es tut uns leid.

  • @John K. Kruschke schreibt: Nur durch Nachbearbeitung der fertigen MCMC-Kette ...

lower_CredIund upper_CredIim ursprünglichen Beitrag wurden wie von Ihnen erwähnt aus den vollständigen MCMC-Ketten berechnet und sind zum besseren Vergleich mit der lmeAusgabe nur geringfügig neu formatiert . Während Sie HDI bevorzugen, sind dies einfache Quantile; mit dem symmetrischen posterior in diesem Beispiel macht es keinen großen Unterschied.

  • Seil und Effektgröße

Ich habe Anträge bei Ethikkommissionen gesehen, bei denen die statistische Leistung ohne Angabe der Annahme über die Effektgröße berechnet wurde. Selbst für den Fall, dass es keinen Weg gibt, einen "klinisch relevanten Effekt" zu definieren, ist es schwierig, medizinischen Forschern das Konzept zu erklären. Bei Nicht-Minderwertigkeitsversuchen ist es etwas einfacher, aber diese sind nicht so häufig Gegenstand einer Studie.

Daher bin ich mir ziemlich sicher, dass die Einführung von ROPES nicht akzeptabel sein wird - eine weitere Annahme ist, dass die Leute nicht mehr als eine Zahl im Auge behalten können. Bayes-Faktoren könnten funktionieren, da es nur eine Zahl gibt, die man wie P-Werte vorher mit nach Hause nehmen kann.

  • Priors

Ich bin überrascht, dass weder @John K. Kruschke noch @Ben Goodrich vom Stan-Team Priors erwähnen. Die meisten Artikel zu diesem Thema fordern eine ausführliche Diskussion der vorherigen Sensibilität bei der Präsentation der Ergebnisse.

Es wäre schön, wenn Sie in der nächsten Ausgabe Ihres Buches - hoffentlich mit Stan - für ausgewählte Beispiele die Felder "Veröffentlichung (in einem nicht statistischen Artikel) mit 100 Wörtern" einfügen könnten. Wenn ich Ihr Kapitel 23.1 in Worte fassen würde, würde eine typische medizinische Forschungsarbeit 100 Seiten und Zahlen lang sein ...

Dieter Menne
quelle
* Der Hauptpunkt war die Betrachtung der posterioren Verteilung der Unterschiede (zwischen Gruppen, zwischen Gruppenkombinationen). Das ist es, was die Nachbearbeitung der MCMC-Kette erfordert.
John K. Kruschke
* ROPE: Sie "sind sich ziemlich sicher, dass ROPEs nicht akzeptabel sind" und "es ist schwierig, medizinischen Forschern das Konzept zu erklären". Ich verstehe dann nicht, wie Bayes-Faktoren einfacher zu erklären oder akzeptiert werden, da ein Bayes-Faktor eine noch ausführlichere Erklärung und Begründung für eine bestimmte BF-Entscheidungsschwelle erfordert !! Mir scheint, Sie sind davon ausgegangen, dass Ihr Publikum in einem frequentistischen Rahmen permanent verknöchert ist. wenn das der Fall ist, benutze einfach Frequentist Stats oder reiche deine Arbeit in einem aufgeklärten Tagebuch ein.
John K. Kruschke
* Sie übertreiben stark die Empfehlungen von Kapitel 23.1, die in einer kleinen Textmenge tatsächlich kurz angesprochen werden können, insbesondere für einfache Modelle, wie Sie sie hier verwenden. Fortsetzung im nächsten Kommentar ...
John K. Kruschke
1
(i) Motivieren Sie den Gebrauch von Bayesian - es gibt Ihnen reichlich informative posteriore Verteilungen. (ii) Erklären Sie das Modell und seine Parameter, was in diesem Fall einfach ist. (iii) Begründen Sie in diesem Fall das Vorher-Wieder-Triviale, nur um zu sagen, dass Sie diffuse Priors verwendet haben, die im Wesentlichen keinen Einfluss auf den Seitenzahn haben. (Aber NICHT, wenn Sie Bayes-Faktoren verwenden, für die die Prioritäten entscheidend sind.) (Iv) Berichten Sie über die Glätte der MCMC-Kette - es ist trivial, zu sagen, dass ESS für alle Parameter und Unterschiede etwa 10.000 betrug. Fortsetzung im nächsten Kommentar ...
John K. Kruschke
1
(v) Interpretation des Seitenzahns: Geben Sie für jeden interessierenden Unterschied einfach die zentrale Tendenz (z. B. den Modus) des Seitenzahns und dessen 95% HDI an. Es ist nicht so kurz wie ein Tweet, aber es sind nur ein paar Absätze.
John K. Kruschke