Mit Stan und Frontend - Paketen rstanarm
oder brms
ich kann einfach Daten für den Bayesian analysiert , wie ich zuvor mit gemischten Modellen wie lme
. Obwohl ich die meisten Bücher und Artikel von Kruschke-Gelman-Wagenmakers-etc auf meinem Schreibtisch habe, verraten diese nicht, wie ich die Ergebnisse für ein medizinisches Publikum zusammenfassen soll, das zwischen der Skylla des Bayesianischen Zorns und der Charybdis der medizinischen Gutachter hin- und hergerissen ist ( "Wir wollen Bedeutungen, nicht so diffuses Zeug").
Ein Beispiel: Die Magenfrequenz (1 / min) wird in drei Gruppen gemessen; gesunde Kontrollen sind die Referenz. Da es für jeden Teilnehmer mehrere Messungen gibt, habe ich à la frequentist das folgende gemischte Modell verwendet lme
:
summary(lme(freq_min~ group, random = ~1|study_id, data = mo))
Leicht bearbeitete Ergebnisse:
Fixed effects: freq_min ~ group
Value Std.Error DF t-value p-value
(Intercept) 2.712 0.0804 70 33.7 0.0000
groupno_symptoms 0.353 0.1180 27 3.0 0.0058
groupwith_symptoms 0.195 0.1174 27 1.7 0.1086
Der Einfachheit halber werde ich 2 * std Fehler als 95% CI verwenden.
Im frequentistischen Kontext hätte ich das folgendermaßen zusammengefasst:
- In der Kontrollgruppe lag die geschätzte Frequenz bei 2,7 / min (möglicherweise wird hier ein CI hinzugefügt, aber ich vermeide dies manchmal aufgrund der durch Absolut- und Differenz-CI verursachten Verwirrung).
- In der no_symptoms-Gruppe war die Frequenz um 0,4 / min höher, CI (0,11 bis 0,59) / min, p = 0,006 als bei der Kontrolle.
- In der with_symptoms-Gruppe war die Frequenz um 0,2 / min höher, CI (-0,04 bis 0,4) / min, p = 0,11 als bei der Kontrolle.
Dies ist ungefähr die maximal akzeptable Komplexität für eine medizinische Veröffentlichung. Der Prüfer wird mich wahrscheinlich bitten, im zweiten Fall "nicht signifikant" hinzuzufügen.
Hier ist das gleiche mit stan_lmer
und Standardprioren.
freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)
contrast lower_CredI frequency upper_CredI
(Intercept) 2.58322 2.714 2.846
groupno_symptoms 0.15579 0.346 0.535
groupwith_symptoms -0.00382 0.188 0.384
wobei CredI zu 90% glaubwürdige Intervalle sind (siehe die Rstanarm-Vignette, warum 90% als Standard verwendet wird.)
Fragen:
- Wie lässt sich die obige Zusammenfassung auf die Bayesianische Welt übertragen?
- Inwieweit ist eine Vorbesprechung erforderlich? Ich bin mir ziemlich sicher, dass die Zeitung mit der üblichen "subjektiven Annahme" zurückkommen wird, wenn ich die Prioritäten erwähne. oder zumindest mit "keine technische Diskussion, bitte". Alle bayesianischen Behörden fordern jedoch, dass die Auslegung nur im Zusammenhang mit Prioren gültig ist.
- Wie kann ich ein "Signifikanz" -Surrogat in der Formulierung liefern, ohne Bayes'sche Konzepte zu verraten? Etwas wie "glaubwürdig anders" (uuuh ...) oder fast glaubwürdig anders (buoha ..., klingt wie "am Rande der Bedeutung").
Jonah Gabry und Ben Goodrich (2016). rstanarm: Bayesian Applied Regression Modeling über Stan. R-Paket Version 2.9.0-3. https://CRAN.R-project.org/package=rstanarm
Stan-Entwicklungsteam (2015). Stan: Eine C ++ - Bibliothek für Wahrscheinlichkeiten und Stichproben, Version 2.8.0. URL http://mc-stan.org/ .
Paul-Christian Bürkner (2016). brms: Bayesian Regression Models mit Stan. R-Paket Version 0.8.0. https://CRAN.R-project.org/package=brms
Pinheiro J., Bates D., DebRoy S., Sarkar D. und R Core Team (2016). nlme: Lineare und nichtlineare Modelle mit gemischten Effekten . R-Paket Version 3.1-124, http://CRAN.R-project.org/package=nlme>.
quelle
mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)
.group_nosymptoms
und dann sagen, die Wahrscheinlichkeit, dass er negativ ist, ist1 / draws
. Aber beim Abfangen wird die Kette für diese Daten niemals in den negativen Bereich wandern, also könnte man sagen, dass die Wahrscheinlichkeit geringer ist als1 / draws
.Antworten:
Schnelle Gedanken:
1) Das Hauptproblem ist, welche Frage Sie für Ihr Publikum beantworten möchten, da dies bestimmt, welche Informationen Sie für Ihre statistische Analyse benötigen. In diesem Fall scheint es mir, dass Sie die Größe der Unterschiede zwischen Gruppen schätzen möchten (oder vielleicht die Größe der Verhältnisse der Gruppen, wenn dies das Ihrem Publikum vertrautere Maß ist). Die Größe der Unterschiede ergibt sich nicht direkt aus den Analysen, die Sie in der Frage vorgestellt haben. Aus der Bayes'schen Analyse lässt sich jedoch direkt das ableiten, was Sie möchten: Sie möchten die posteriore Verteilung der Differenzen (oder Verhältnisse). Aus der posterioren Verteilung der Differenzen (oder Verhältnisse) können Sie dann eine direkte Wahrscheinlichkeitsaussage wie die folgende machen:
"Die zu 95% glaubwürdigsten Unterschiede liegen zwischen [Untergrenze 95% HDI] und [Obergrenze 95% HDI]" (hier verwende ich das 95% -Intervall mit der höchsten Dichte [HDI] als glaubwürdiges Intervall, und weil diese von sind Definition der Parameterwerte mit der höchsten Dichte, die als "am glaubwürdigsten" eingestuft werden.)
Ein medizinisches Fachpublikum würde diese Aussage intuitiv und korrekt verstehen, da das Publikum normalerweise die Bedeutung eines häufig auftretenden Konfidenzintervalls meint (auch wenn dies nicht die Bedeutung eines häufig auftretenden Konfidenzintervalls ist).
Wie bekommen Sie die Unterschiede (oder Verhältnisse) von Stan oder JAGS? Lediglich durch Nachbearbeitung der fertigen MCMC-Kette. Berechnen Sie bei jedem Schritt in der Kette die relevanten Unterschiede (oder Verhältnisse) und untersuchen Sie dann die hintere Verteilung der Unterschiede (oder Verhältnisse). Beispiele finden Sie in DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ für MCMC in Abbildung 7.9 (S. 177), für JAGS in Abbildung 8.6 (S. 211) und für Stan in Abschnitt 16.3 (S. 16.3) 468) usw.!
2) Wenn Sie aus Tradition gezwungen sind, eine Aussage darüber zu treffen, ob eine Differenz von Null abgelehnt wird oder nicht, haben Sie zwei Bayes'sche Optionen.
2A) Eine Möglichkeit besteht darin, Wahrscheinlichkeitsaussagen über Intervalle nahe Null und deren Beziehung zum HDI zu treffen. Dazu richten Sie eine Region der praktischen Äquivalenz (ROPE) um Null ein, die lediglich eine Entscheidungsschwelle darstellt, die für Ihre angewandte Domäne geeignet ist - wie groß ist ein geringfügiger Unterschied? Das Setzen derartiger Grenzen erfolgt beispielsweise routinemäßig bei klinischen Nicht-Minderwertigkeitstests. Wenn Sie ein Maß für die „Effektgröße“ in Ihrem Feld haben, gibt es möglicherweise Konventionen für die „kleine“ Effektgröße, und die ROPE-Grenzwerte können beispielsweise die Hälfte eines kleinen Effekts sein. Dann können Sie direkte Wahrscheinlichkeitsaussagen wie diese machen:
"Nur 1,2% der posterioren Differenzverteilung sind praktisch gleich Null"
und
"Die zu 95% glaubwürdigsten Unterschiede sind alle praktisch nicht gleich Null (dh der 95% HDI und das SEIL überlappen sich nicht), und deshalb lehnen wir Null ab." (Beachten Sie die Unterscheidung zwischen der Wahrscheinlichkeitsaussage von der posterioren Verteilung und der nachfolgenden Entscheidung, die auf dieser Aussage basiert.)
Sie können aus praktischen Gründen auch eine Differenz von Null akzeptieren, wenn die zu 95% glaubwürdigsten Werte alle praktisch gleich Null sind.
2B) Eine zweite Bayes'sche Option ist das Testen der Bayes'schen Nullhypothese. (Beachten Sie, dass die Methode oben nicht wargenannt "Hypothesentest"!) Beim Testen der Bayes'schen Nullhypothese wird ein Bayes'scher Modellvergleich einer früheren Verteilung durchgeführt, bei dem angenommen wird, dass die Differenz nur Null sein kann, und einer alternativen früheren Verteilung, bei der angenommen wird, dass die Differenz ein diffuser Bereich von Möglichkeiten sein könnte. Das Ergebnis eines solchen Modellvergleichs hängt (in der Regel) sehr stark von der Wahl der alternativen Verteilung ab, weshalb die Wahl der vorrangigen Alternative sorgfältig begründet werden muss. Es ist am besten, mindestens schwach informierte Prioritäten sowohl für die Null als auch für die Alternative zu verwenden, damit der Modellvergleich wirklich aussagekräftig ist. Beachten Sie, dass der Modellvergleich andere Informationen liefert als die Schätzung der Unterschiede zwischen Gruppen, da der Modellvergleich eine andere Frage behandelt. Somit kann auch bei einem Modellvergleich
Es könnte Möglichkeiten geben, einen Bayes'schen Nullhypothesentest anhand der Stan / JAGS / MCMC-Ausgabe durchzuführen, aber ich weiß es in diesem Fall nicht. Zum Beispiel könnte man eine Savage-Dickey-Näherung an einen Bayes-Faktor versuchen, aber das würde davon abhängen, die vorherige Dichte der Differenzen zu kennen, was eine mathematische Analyse oder eine zusätzliche MCMC-Näherung vom vorherigen erfordern würde.
Die beiden Methoden zur Entscheidung über Nullwerte werden in Kap. 12 von DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Aber ich möchte wirklich nicht, dass diese Diskussion von einer Debatte über die "richtige" Methode zur Bewertung von Nullwerten abgelenkt wird. Sie sind einfach anders und liefern unterschiedliche Informationen. Der Hauptpunkt meiner Antwort ist Punkt 1 oben: Betrachten Sie die hintere Verteilung der Unterschiede zwischen den Gruppen.
quelle
Nach der SO-Etikette hätte dies als Kommentar an @John K. Kruschke geschrieben werden sollen, längere Kommentare sind jedoch schwer zu strukturieren. Es tut uns leid.
lower_CredI
undupper_CredI
im ursprünglichen Beitrag wurden wie von Ihnen erwähnt aus den vollständigen MCMC-Ketten berechnet und sind zum besseren Vergleich mit derlme
Ausgabe nur geringfügig neu formatiert . Während Sie HDI bevorzugen, sind dies einfache Quantile; mit dem symmetrischen posterior in diesem Beispiel macht es keinen großen Unterschied.Ich habe Anträge bei Ethikkommissionen gesehen, bei denen die statistische Leistung ohne Angabe der Annahme über die Effektgröße berechnet wurde. Selbst für den Fall, dass es keinen Weg gibt, einen "klinisch relevanten Effekt" zu definieren, ist es schwierig, medizinischen Forschern das Konzept zu erklären. Bei Nicht-Minderwertigkeitsversuchen ist es etwas einfacher, aber diese sind nicht so häufig Gegenstand einer Studie.
Daher bin ich mir ziemlich sicher, dass die Einführung von ROPES nicht akzeptabel sein wird - eine weitere Annahme ist, dass die Leute nicht mehr als eine Zahl im Auge behalten können. Bayes-Faktoren könnten funktionieren, da es nur eine Zahl gibt, die man wie P-Werte vorher mit nach Hause nehmen kann.
Ich bin überrascht, dass weder @John K. Kruschke noch @Ben Goodrich vom Stan-Team Priors erwähnen. Die meisten Artikel zu diesem Thema fordern eine ausführliche Diskussion der vorherigen Sensibilität bei der Präsentation der Ergebnisse.
Es wäre schön, wenn Sie in der nächsten Ausgabe Ihres Buches - hoffentlich mit Stan - für ausgewählte Beispiele die Felder "Veröffentlichung (in einem nicht statistischen Artikel) mit 100 Wörtern" einfügen könnten. Wenn ich Ihr Kapitel 23.1 in Worte fassen würde, würde eine typische medizinische Forschungsarbeit 100 Seiten und Zahlen lang sein ...
quelle