Bayesianische Modellauswahl und glaubwürdiges Intervall

9

Ich habe einen Datensatz mit drei Variablen, wobei alle Variablen quantitativ sind. Nennen wir es , und . Ich passe ein Regressionsmodell in einer Bayes'schen Perspektive über MCMC mit anyx1x2rjags

Ich habe eine explorative Analyse durchgeführt und das Streudiagramm von , dass ein quadratischer Term verwendet werden sollte. Dann habe ich zwei Modelle montierty×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

In Modell 1 ist die Effektgröße jedes Parameters nicht klein und das zu 95% glaubwürdige Intervall enthält nicht den Wert .0

In Modell 2 ist die Effektgröße der Parameter und klein und jedes der glaubwürdigen Intervalle für alle Parameter enthält .β3β40

Die Tatsache, dass ein glaubwürdiges Intervall enthält, reicht aus, um zu sagen, dass der Parameter nicht signifikant ist?0

Dann habe ich das folgende Modell angepasst

(3)y=β0+β1x1+β2x2+β3x22

Die Effektgröße jedes Parameters ist nicht klein, aber mit Ausnahme von alle glaubwürdigen Intervalle .β10

Welches ist der richtige Weg, um Variablen in der Bayes'schen Statistik auszuwählen?

EDIT: Ich kann Lasso in jedem Regressionsmodell wie dem Beta-Modell verwenden. Ich verwende ein Modell mit variabler Streuung, wobei wobei ein Vektor ist. Ich sollte Laplace auch in .

log(σ)=δδX
δδδδ

EDIT2: Ich habe zwei Modelle angepasst, eines mit Gaußschem für , und eines mit Laplace (doppelt exponentiell).βjδj

Die Schätzungen für das Gaußsche Modell sind

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Die Schätzungen für das Lasso-Modell sind

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

Die Schätzungen für und sich im Lasso-Modell reduziert. dies, dass ich diese Variablen aus dem Modell entfernen sollte?δ2δ4

EDIT3: Das Modell mit doppelt exponentiellem Prior (Lasso) gibt mir größere Abweichungs-, BIC- und DIC-Werte als das Modell mit Gaußschen Prioritäten, und ich erhalte sogar kleinere Werte, nachdem ich den Dispersionskoeffizienten im Gaußschen Modell entfernt habe.δ2


quelle
2
In Abschnitt 18.4 von DBDA2E * geht es um die Variablenauswahl bei multipler Regression. Mit großer Vorsicht können Sie Einschlussindikatoren für jeden Koeffizienten eingeben und die hintere Einschlusswahrscheinlichkeit untersuchen. Bei der Interpretation der posterioren Verteilung von Parametern zeigt der 95% HDI einschließlich Null keine Äquivalenz zu Null an. * DBDA2E = Bayesian Data Analysis 2. Ausgabe.
John K. Kruschke
2
Der natürliche Weg, Modelle in einem Bayes'schen Rahmen zu vergleichen, besteht in Grenzwahrscheinlichkeiten und nicht in glaubwürdigen Intervallen. Eine mit der Modellmittelung verbundene Alternative besteht darin, eine Mischungsdarstellung zu verwenden und aus den Gewichten jedes Modells / jeder Komponente abzuleiten, welches Modell von den Daten bevorzugt wird.
Xi'an
@ Xi'an, aber zwei oder mehr Modelle anhand von Grenzwahrscheinlichkeiten zu vergleichen, wäre nicht dasselbe wie die Verwendung von Bayes-Faktoren, wenn alle Modelle die gleiche vorherige Wahrscheinlichkeit hätten?
DeltaIV
Sehr geehrter Herr Prof. Kruschke, ich habe Zweifel an der Berechnung der kritischen Intervalle. Was ich verstanden habe, dass es viele glaubwürdige Intervalle geben kann, abhängig von der Plausibilität des Seitenzahns basierend auf verschiedenen Prioritäten. Aber wie kann man hier entscheiden, welche Priors am plausibelsten sind, was wiederum den plausibelsten Posterior ergibt? Eine andere Frage ist, dass ich Variational Inference (VI) zur Berechnung der Posterioren verwende und schließlich die Untergrenze der Modellbeweise berechne. Wie berechnet man das glaubwürdige Intervall für die Posterioren im Fall von VI? Wie geht man bei VI für den Bayes-Faktor vor?
Sandipan Karmakar

Antworten:

9

Es ist bekannt, dass das Erstellen eines Modells basierend auf dem, was wichtig ist (oder einem anderen Kriterium wie AIC, ob ein glaubwürdiges Intervall 0 enthält usw.), ziemlich problematisch ist, insbesondere wenn Sie dann schließen, als hätten Sie kein Modell erstellt. Eine Bayes'sche Analyse ändert daran nichts (siehe auch https://stats.stackexchange.com/a/201931/86652 ). Das heißt, Sie sollten keine Variablenauswahl durchführen, sondern eine Modellmittelung durchführen (oder etwas, das Ihnen einige Nullkoeffizienten bringen könnte, aber den gesamten Modellierungsprozess widerspiegelt, wie z. B. LASSO oder elastisches Netz).

Die Wahl des Bayes'schen Modells wird eher als Bayes'sche Modellmittelung bezeichnet. Sie haben verschiedene Modelle mit jeweils unterschiedlicher vorheriger Wahrscheinlichkeit. Wenn die Wahrscheinlichkeit des hinteren Modells für ein Modell niedrig genug wird, verwerfen Sie das Modell im Wesentlichen vollständig. Bei gleichen vorherigen Gewichten für jedes Modell und für flache Prioritäten nähert sich die Modellmittelung mit Gewichten proportional zu für jedes Modell diesem an.exp(BIC/2)

Sie können alternativ die Modellmittelung als Prior ausdrücken, die eine Mischung aus einer Punktmasse (das Gewicht der Punktmasse ist die vorherige Wahrscheinlichkeit, dass der Effekt genau Null ist = der Effekt ist nicht im Modell) und einer kontinuierlichen Verteilung (z Spike-and-Slab-Priors). MCMC-Abtastung kann für einen solchen Prior ziemlich schwierig sein.

Carvalho et al. Motivieren Sie das Schrumpfen des Hufeisens vorher, indem Sie vorschlagen, dass es wie eine kontinuierliche Annäherung an einen Spike-and-Slab-Prior funktioniert. Es geht auch darum, das Problem in ein hierarchisches Modell einzubetten, bei dem die Größe und das Vorhandensein von Effekten auf einige Variablen die erforderlichen Beweise für andere ein wenig lockern (durch den globalen Schrumpfungsparameter ist dies ein bisschen wie eine falsche Entdeckung Ratenkontrolle) und andererseits ermöglichen es einzelne Effekte, für sich zu stehen, wenn die Beweise klar genug sind. Das brms R-Paket, das auf Stan / rstan aufbaut, bietet eine praktische Implementierung . Es gibt eine Reihe weiterer ähnlicher Prioritäten wie das Hufeisen + Prior und das gesamte Thema ist ein Bereich der laufenden Forschung.

Björn
quelle
Bayesian Lasso ist wie folgt stats.stackexchange.com/questions/28609/… ? Ich bin ein Modell mit Dispersionsvariable. Sollte ich das doppelte Exponentail vorher auch für diese Parameter verwenden?
2

Es gibt eine Reihe formaler Methoden für die Bayes'sche Variablenauswahl. Eine leicht veraltete Übersicht über die Auswahlmethoden für Bayes'sche Variablen finden Sie in:

Eine Überprüfung der Bayes'schen Variablenauswahlmethoden: Was, wie und welche

Eine neuere Überprüfung, die auch einen Vergleich verschiedener Methoden und der Leistung von R-Paketen beinhaltet, in denen sie implementiert sind, lautet:

Methoden und Werkzeuge für die Bayes'sche Variablenauswahl und Modellmittelung bei univariater linearer Regression

Diese Referenz ist insofern besonders nützlich, als sie Sie auf bestimmte R-Pakete verweist, bei denen Sie nur die Antwort und die Kovariatenwerte (und in einigen Fällen die Hyperparameterwerte) einfügen müssen, um die Variablenauswahl auszuführen.

Eine andere, schnelle und schmutzige und nicht empfohlene Methode zur Durchführung der "Bayes'schen" Variablenauswahl ist die schrittweise Auswahl (vorwärts, rückwärts, beide) unter Verwendung von BIC und des R-Befehls stepAIC (), die angepasst werden können, um die Auswahl in Bezug auf durchzuführen BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Eine andere schnelle und schmutzige Methode zum Testen von ist die Verwendung des Savage-Dickey-Dichteverhältnisses und der posterioren Simulation, die Sie bereits erhalten haben:β4=0

https://arxiv.org/pdf/0910.1452.pdf

CTHULHU
quelle
Ich denke, die Frage ist, warum die drei Parameter in Modell 3 alle glaubwürdige Regionen haben, die 0 enthalten, und nicht, ob 0 ist oder nicht .β4
Michael R. Chernick
@ MichaelChernick Warum fragt dann das OP "In this case is reasonable say that $\beta_4\neq 0$"? und "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU
Ich habe diesen Teil der Frage verpasst, aber ich glaube nicht, dass es das Hauptproblem war.
Michael R. Chernick
1
@ MichaelChernick Nun, ich denke, die OP hat das letzte Wort hier ...
CTHULHU
1

Die ganze Idee der Bayes'schen Statistik unterscheidet sich von einem frequentistischen Ansatz. Auf diese Weise denke ich, dass die Verwendung der Bedeutungsbegriffe nicht korrekt ist. Ich denke, es liegt am Leser zu entscheiden, ob die Ergebnisse (Verteilung), die Sie von Ihrem Modell für Ihre , für ihn zuverlässig oder vertrauenswürdig sind. Es kommt immer auf die Verteilung selbst an. Wie schief und breit ist es und wie viel Fläche liegt unter Null?β

Einen schönen Vortrag zum Thema finden Sie auch hier um 41:55 Uhr:

https://vimeo.com/14553953

burton030
quelle
Ich habe ein Beispiel für ein Histogramm einer Variablen hinzugefügt, deren glaubwürdiges Intervall enthält. Sie einen Blick darauf werfen? 0
1
Zurück vom Wochenende. Wo finden wir das Histogramm?
burton030