Ich habe einen Datensatz mit drei Variablen, wobei alle Variablen quantitativ sind. Nennen wir es , und . Ich passe ein Regressionsmodell in einer Bayes'schen Perspektive über MCMC mit anrjags
Ich habe eine explorative Analyse durchgeführt und das Streudiagramm von , dass ein quadratischer Term verwendet werden sollte. Dann habe ich zwei Modelle montiert
(1)
(2)
In Modell 1 ist die Effektgröße jedes Parameters nicht klein und das zu 95% glaubwürdige Intervall enthält nicht den Wert .
In Modell 2 ist die Effektgröße der Parameter und klein und jedes der glaubwürdigen Intervalle für alle Parameter enthält .
Die Tatsache, dass ein glaubwürdiges Intervall enthält, reicht aus, um zu sagen, dass der Parameter nicht signifikant ist?
Dann habe ich das folgende Modell angepasst
(3)
Die Effektgröße jedes Parameters ist nicht klein, aber mit Ausnahme von alle glaubwürdigen Intervalle .
Welches ist der richtige Weg, um Variablen in der Bayes'schen Statistik auszuwählen?
EDIT: Ich kann Lasso in jedem Regressionsmodell wie dem Beta-Modell verwenden. Ich verwende ein Modell mit variabler Streuung, wobei wobei ein Vektor ist. Ich sollte Laplace auch in .
EDIT2: Ich habe zwei Modelle angepasst, eines mit Gaußschem für , und eines mit Laplace (doppelt exponentiell).
Die Schätzungen für das Gaußsche Modell sind
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Die Schätzungen für das Lasso-Modell sind
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Die Schätzungen für und sich im Lasso-Modell reduziert. dies, dass ich diese Variablen aus dem Modell entfernen sollte?
EDIT3: Das Modell mit doppelt exponentiellem Prior (Lasso) gibt mir größere Abweichungs-, BIC- und DIC-Werte als das Modell mit Gaußschen Prioritäten, und ich erhalte sogar kleinere Werte, nachdem ich den Dispersionskoeffizienten im Gaußschen Modell entfernt habe.
Antworten:
Es ist bekannt, dass das Erstellen eines Modells basierend auf dem, was wichtig ist (oder einem anderen Kriterium wie AIC, ob ein glaubwürdiges Intervall 0 enthält usw.), ziemlich problematisch ist, insbesondere wenn Sie dann schließen, als hätten Sie kein Modell erstellt. Eine Bayes'sche Analyse ändert daran nichts (siehe auch https://stats.stackexchange.com/a/201931/86652 ). Das heißt, Sie sollten keine Variablenauswahl durchführen, sondern eine Modellmittelung durchführen (oder etwas, das Ihnen einige Nullkoeffizienten bringen könnte, aber den gesamten Modellierungsprozess widerspiegelt, wie z. B. LASSO oder elastisches Netz).
Die Wahl des Bayes'schen Modells wird eher als Bayes'sche Modellmittelung bezeichnet. Sie haben verschiedene Modelle mit jeweils unterschiedlicher vorheriger Wahrscheinlichkeit. Wenn die Wahrscheinlichkeit des hinteren Modells für ein Modell niedrig genug wird, verwerfen Sie das Modell im Wesentlichen vollständig. Bei gleichen vorherigen Gewichten für jedes Modell und für flache Prioritäten nähert sich die Modellmittelung mit Gewichten proportional zu für jedes Modell diesem an.exp(−BIC/2)
Sie können alternativ die Modellmittelung als Prior ausdrücken, die eine Mischung aus einer Punktmasse (das Gewicht der Punktmasse ist die vorherige Wahrscheinlichkeit, dass der Effekt genau Null ist = der Effekt ist nicht im Modell) und einer kontinuierlichen Verteilung (z Spike-and-Slab-Priors). MCMC-Abtastung kann für einen solchen Prior ziemlich schwierig sein.
Carvalho et al. Motivieren Sie das Schrumpfen des Hufeisens vorher, indem Sie vorschlagen, dass es wie eine kontinuierliche Annäherung an einen Spike-and-Slab-Prior funktioniert. Es geht auch darum, das Problem in ein hierarchisches Modell einzubetten, bei dem die Größe und das Vorhandensein von Effekten auf einige Variablen die erforderlichen Beweise für andere ein wenig lockern (durch den globalen Schrumpfungsparameter ist dies ein bisschen wie eine falsche Entdeckung Ratenkontrolle) und andererseits ermöglichen es einzelne Effekte, für sich zu stehen, wenn die Beweise klar genug sind. Das brms R-Paket, das auf Stan / rstan aufbaut, bietet eine praktische Implementierung . Es gibt eine Reihe weiterer ähnlicher Prioritäten wie das Hufeisen + Prior und das gesamte Thema ist ein Bereich der laufenden Forschung.
quelle
Es gibt eine Reihe formaler Methoden für die Bayes'sche Variablenauswahl. Eine leicht veraltete Übersicht über die Auswahlmethoden für Bayes'sche Variablen finden Sie in:
Eine Überprüfung der Bayes'schen Variablenauswahlmethoden: Was, wie und welche
Eine neuere Überprüfung, die auch einen Vergleich verschiedener Methoden und der Leistung von R-Paketen beinhaltet, in denen sie implementiert sind, lautet:
Methoden und Werkzeuge für die Bayes'sche Variablenauswahl und Modellmittelung bei univariater linearer Regression
Diese Referenz ist insofern besonders nützlich, als sie Sie auf bestimmte R-Pakete verweist, bei denen Sie nur die Antwort und die Kovariatenwerte (und in einigen Fällen die Hyperparameterwerte) einfügen müssen, um die Variablenauswahl auszuführen.
Eine andere, schnelle und schmutzige und nicht empfohlene Methode zur Durchführung der "Bayes'schen" Variablenauswahl ist die schrittweise Auswahl (vorwärts, rückwärts, beide) unter Verwendung von BIC und des R-Befehls stepAIC (), die angepasst werden können, um die Auswahl in Bezug auf durchzuführen BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
Eine andere schnelle und schmutzige Methode zum Testen von ist die Verwendung des Savage-Dickey-Dichteverhältnisses und der posterioren Simulation, die Sie bereits erhalten haben:β4=0
https://arxiv.org/pdf/0910.1452.pdf
quelle
"In this case is reasonable say that $\beta_4\neq 0$"
? und"Which is the right way to do variable selection in Bayesian statistics"
?Die ganze Idee der Bayes'schen Statistik unterscheidet sich von einem frequentistischen Ansatz. Auf diese Weise denke ich, dass die Verwendung der Bedeutungsbegriffe nicht korrekt ist. Ich denke, es liegt am Leser zu entscheiden, ob die Ergebnisse (Verteilung), die Sie von Ihrem Modell für Ihre , für ihn zuverlässig oder vertrauenswürdig sind. Es kommt immer auf die Verteilung selbst an. Wie schief und breit ist es und wie viel Fläche liegt unter Null?β
Einen schönen Vortrag zum Thema finden Sie auch hier um 41:55 Uhr:
https://vimeo.com/14553953
quelle