Merkmalsauswahl auf einem Bayes'schen hierarchischen verallgemeinerten linearen Modell

8

Ich möchte eine hierarchische GLM schätzen, aber mit Merkmalsauswahl, um zu bestimmen, welche Kovariaten auf Bevölkerungsebene relevant sind, um sie einzubeziehen.

Angenommen, ich habe G Gruppen mit N Beobachtungen und K möglichen Kovariaten. Das heißt, ich habe eine Entwurfsmatrix von Kovariaten , Ergebnissen . Die Koeffizienten für diese Kovariaten sind . y ( N G ) × 1 & bgr; K × 1x(NG)×Ky(NG)×1βK×1

Angenommen, ~B e r n o u l l i ( p ( x , β ) )YBernoulli(p(x,β))

Das Folgende ist ein standardmäßiges hierarchisches Bayes'sches GLM mit einem Logit-Stichprobenmodell und normalverteilten Gruppenkoeffizienten.

L(y|x,β1,...βG)g=1Gt=1N(Pr{j=1|pt,βg})yg,t(1Pr{j=1|pt,βg})1yg,t

β1,...βG|μ,ΣiidNd(μ,Σ)

Σ ~ I W ( V 0 , V - 1 0 )

μ|ΣN(μ0,a1Σ)
ΣIW(v0,V01)

Ich möchte dieses Modell so modifizieren (oder ein Papier finden, das dies tut, oder eine Arbeit, die es diskutiert), dass es eine scharfe Merkmalsauswahl (wie in LASSO) für die Dimensionalität von β .

(1) Der einfachste und direkteste Weg wäre, dies auf Bevölkerungsebene zu regulieren, so dass wir die Dimensionalität von Wesentlichen einschränken und alle dieselbe Dimension haben.βμβ

(2) Das nuanciertere Modell würde auf Gruppenebene schrumpfen, wobei die Dimension von von der hierarhischen Einheit abhängt.β

Ich bin daran interessiert, 1 und 2 zu lösen, aber viel wichtiger ist 1.

wolfsatthedoor
quelle

Antworten:

1

Die Art und Weise, wie ich (1) angehen würde, wäre ein Spike-and-Slab-Modell wie:

βg,k=zkmg,k

zkBern(p)

mg,kN(μ,Σ)

μ,ΣNIWv0(μ0,V01)

Diese:

  • Behält die Flexibilität der vom NIW vor .μ , Σβμ,Σ
  • Modelliert die Auswahl von Variablen für alle Gruppen gleichzeitig.
  • Leicht erweiterbar durch Hinzufügen eines Subindex für die Gruppe zu und Vorliegen einer gemeinsamen Beta für jeden Standort . kzg,kk

Natürlich denke ich, dass dies die Art von Problem ist, bei dem es eine Reihe gültiger Ansätze gibt.

Vermutungen
quelle
2

Die Auswahl von Features ist kein großes Ziel für eine Analyse. Wenn nicht alle Prädiktoren nicht miteinander korreliert sind und Ihre Stichprobengröße immens ist, können die Daten Ihnen die Antwort nicht zuverlässig mitteilen. Die Modellspezifikation ist wichtiger als die Modellauswahl. Details finden Sie in meinen RMS-Kursnotizen . Eine Schrumpfung ohne Merkmalsauswahl (z. B. Grat oder bestrafte Schätzung der maximalen Wahrscheinlichkeit) kann jedoch eine gute Idee sein. Hierarchische Bayes'sche Modelle sind sogar noch besser, weil sie statistische Inferenzen im geschrumpften Modell ermöglichen, während wir die meisten Inferenzwerkzeuge in der frequentistischen Welt nach dem Schrumpfen verlieren.L2

Frank Harrell
quelle