Multinomial-Dirichlet-Modell mit Hyperprior-Verteilung auf die Konzentrationsparameter

10

Ich werde versuchen, das vorliegende Problem so allgemein wie möglich zu beschreiben. Ich modelliere Beobachtungen als kategoriale Verteilung mit einem Parameterwahrscheinlichkeitsvektor Theta.

Dann nehme ich an, dass der Parametervektor Theta einer Dirichlet-Vorverteilung mit den Parametern folgt .α1,α2,,αk

Ist es dann möglich, auch eine Hyperpriorverteilung über die Parameter aufzuerlegen ? Muss es sich um eine multivariate Verteilung wie die kategoriale Verteilung und die Dirichlet-Verteilung handeln? Mir scheint, die Alphas sind immer positiv, also sollte ein Gamma-Hyperprior funktionieren.α1,α2,,αk

Ich bin mir nicht sicher, ob jemand versucht hat, solche (möglicherweise) überparametrisierten Modelle anzupassen, aber es erscheint mir vernünftig zu denken, dass die Alphas nicht repariert werden sollten, sondern aus einer Gammaverteilung stammen sollten.

Bitte versuchen Sie, mir einige Referenzen und Einblicke zu geben, wie ich einen solchen Ansatz in der Praxis ausprobieren könnte.

Dnaiel
quelle
Ja, das ist möglich und es wurde getan. Im Allgemeinen wird dies als Bayes'sches hierarchisches Modell bezeichnet. Vorzugsweise sollte dieser Prior mögliche Abhängigkeiten berücksichtigen.
@Procrastinator danke. Haben Sie eine Referenz für gute Bayes'sche hierarchische Modelle, die sich mit dieser Art von Modellen befassen? Vielen Dank.
Dnaiel
@Procrastinator: Haben Sie sich bemüht, Papiere / Berichte oder idealerweise praktische Bewerbungsunterlagen zu Bayesianischen Hierarchischen Modellen zu erhalten?
Zhubarb

Antworten:

12

α1=α2=...αKα<1α>1

In Fällen, in denen keine starken Erwartungen an spärliche oder dichte multinomiale Verteilungen bestehen, bietet die Platzierung eines Hyperprior über Ihrer Dirichlet-Verteilung Ihrem Modell zusätzliche Flexibilität bei der Auswahl.

βDirichlet(1)λExponential()θDirichlet(βλ)

Das zusätzliche Dirichlet dient lediglich dazu, eine Symmetrie zu vermeiden.

Ich habe auch gesehen, dass Leute nur den Gamma-Hyper-Prior für ein Dirichlet im Kontext von Hidden-Markov-Modellen mit multinomialen Emissionsverteilungen verwenden, aber ich kann anscheinend keine Referenz finden. Es scheint auch, dass ich auf ähnliche Hypers gestoßen bin, die in Themenmodellen verwendet werden.

Jerad
quelle
Danke tolle Antwort! Ich habe ein kurzes Follow-up-Q. Wird dieses Modell für jedes Thetas eine unterschiedliche Variabilität zulassen? Ich habe diese Frage, da der Parameter Lambda von allen Thetas gemeinsam genutzt wird und daher alle denselben Skalierungsparameter haben. Ich habe mich gefragt, ob das Modell im Falle einer Überdispersion eine solche Flexibilität bieten würde. Ihre Intuition / Ihr Wissen hier wird sehr geschätzt! Vielen Dank!
Dnaiel
Dirichlet(0.2,0.2,0.2,0.2)θθβ
4

Um eine Lösung für dieses Hyperprior-Problem zu demonstrieren, habe ich in PyMC3 ein hierarchisches Gamma-Dirichlet-Multinomial-Modell implementiert. Der Gamma-Prior für das Dirichlet wird in Ted Dunnings Blog-Post angegeben und abgetastet .

Das von mir implementierte Modell finden Sie in dieser Übersicht , wird aber auch im Folgenden beschrieben:

Dies ist ein Bayes'sches hierarchisches (Pooling-) Modell für Filmbewertungen. Jeder Film kann auf einer Skala von null bis fünf bewertet werden. Jeder Film wird mehrmals bewertet. Wir möchten eine geglättete Verteilung der Bewertungen für jeden Film finden.

Wir werden aus den Daten eine Top-Level-Vorverteilung (Hyperprior) für Filmbewertungen lernen. Jeder Film hat dann einen eigenen Prior, der durch diesen Top-Level-Prior geglättet wird. Eine andere Art, darüber nachzudenken, besteht darin, dass der Prior für Bewertungen für jeden Film auf die Verteilung auf Gruppenebene oder in Pools reduziert wird.

Wenn ein Film eine atypische Bewertungsverteilung aufweist, werden durch diesen Ansatz die Bewertungen auf etwas reduziert, das den Erwartungen besser entspricht. Darüber hinaus kann dieses zuvor erlernte Verfahren nützlich sein, um Filme mit wenigen Bewertungen zu booten, damit sie sinnvoll mit Filmen mit vielen Bewertungen verglichen werden können.

Das Modell ist wie folgt:

γk=1...KGamma(α,β)

θm=1...MDirichletM(cγ1,...,cγK)

zm=1...M,n=1...NmCategoricalM(θm)

wo:

  • KK=6
  • M
  • Nmm
  • α=1/K
  • β
  • c
  • γkk
  • θmK
  • zmnnm
Brad B.
quelle
1

Dies ist eine direkte Bayes'sche Konjugat-Vormodellierung. Eine natürliche Erweiterung des Beta-Binomial-Modells. Eine gute Quelle dafür könnte aus dem Buch stammen . Und Posterior ist auch Dirichlet und daher liefert die Simulation von Dirichlet die notwendigen Zusammenfassungen

Subbiah
quelle
1
Vielen Dank. Ich kenne ein solches Buch, eine gute Referenz. Ich habe versucht, es zu untersuchen, aber sie bieten kein solches multinomiales hierarchisches Modell direkt, aber sie haben Unmengen guter Ideen, die angewendet werden können.
Dnaiel
1
Das Dirichlet-Multinom ist ein konjugiertes Modell, aber die Operation erkundigte sich nach einem (Hyper-) vor den Parametern des Dirichlets. Es gibt kein Standardkonjugat vor der Dirichlet-Verteilung, obwohl es tatsächlich eines geben muss , da es ein Mitglied der Exponentialfamilie ist.
Jerad