Bayesianisches Lasso gegen Spitze und Platte

Frage: Was sind die Vor- und Nachteile einer vorherigen Verwendung für die Variablenauswahl?

Angenommen , ich habe die Wahrscheinlichkeit: , wo ich setzen kann entweder eine der priors: oder:

y \sim N (X w, σ^{2} I)

$y\sim\mathcal{N}(Xw,\sigma^2I)$

w_{i} \sim π δ_{0} + (1 - π) N (0, 100) π = 0.9,

$w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,,$

w_{i} \sim \exp (- λ | w_{i} |) λ \sim Γ (1, 1) .

$w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,.$

Ich setze , um zu betonen, dass die meisten Gewichte Null und ein Gamma vor , um den Parameter 'Regularisierung' auszuwählen. $\pi=0.9$ $\lambda$

Mein Professor besteht jedoch weiterhin darauf, dass die Lasso-Version die Koeffizienten „verkleinert“ und nicht die richtige Variablenauswahl vornimmt, dh sogar die relevanten Parameter werden zu stark verkleinert.

$\frac{1}{|w_i|}$

bayesian feature-selection sachinruk
quelle

Ihr Professor hat Recht, dass er relevante Parameter verkleinert, aber was nun? Es verkleinert sie nur so weit, dass sie nicht wesentlich zur Reduzierung des Fehlers beitragen. Und warum sollte man sich auf die richtige Variablenauswahl konzentrieren

Bei den meisten Problemen würde ich ja zustimmen. Bei einigen Problemen (z. B. Krebserkennung mit Genexpression) ist es jedoch sehr wichtig zu ermitteln, welche Merkmale die ausschlaggebenden Faktoren sind. ps Ich bin seitdem von meinem Postdoc weggezogen, da er ein Idiot ist. Maschinelles Lernen ftw !!!

sachinruk

Spike and Slab ist der Goldstandard bei der variablen Auswahl, und ich arbeite auch lieber mit LASSO. @Sachin_ruk: Der Spike und der Slab Prior können auch mit Variational Bayes implementiert werden ...

Sandipan Karmakar,

@ SandipanKarmakar könntest du einen Link posten, der sich auf Spike und Slab mit Variational Bayes bezieht.

sachinruk

Ihre Frage führt Modellierungs- und Implementierungsprobleme zusammen. Sie sollten separat verarbeitet werden.

Xi'an

Antworten:

Beide Methoden (LASSO vs. Spike-and-Slab) können als Bayes'sche Schätzprobleme interpretiert werden, bei denen Sie unterschiedliche Parameter angeben. Einer der Hauptunterschiede besteht darin, dass die LASSO-Methode keine Punktmasse für den Prior auf Null setzt (dh die Parameter sind fast sicher a priori ungleich Null), wohingegen die Spike-and-Slab-Methode eine erhebliche Punktmasse setzt auf null.

Meiner bescheidenen Meinung nach ist der Hauptvorteil der Spike-and-Slab-Methode, dass sie sich gut für Probleme eignet, bei denen die Anzahl der Parameter größer als die Anzahl der Datenpunkte ist und Sie eine erhebliche Anzahl von Parametern vollständig eliminieren möchten aus dem Modell. Da diese Methode im Stand der Technik eine große Punktmasse auf Null setzt, liefert sie nachträgliche Schätzungen, die in der Regel nur einen kleinen Teil der Parameter betreffen, und vermeidet hoffentlich eine Überanpassung der Daten.

Wenn Ihr Professor Ihnen sagt, dass der Erstere keine variable Auswahlmethode durchführt, meint er wahrscheinlich Folgendes. Unter LASSO ist fast sicher jeder der Parameter a priori ungleich Null (dh sie sind alle im Modell). Da die Wahrscheinlichkeit über die Parameterunterstützung auch ungleich Null ist, bedeutet dies auch, dass beide mit ziemlicher Sicherheit a priori ungleich Null sind (dh, sie sind alle im Modell). Nun könnten Sie dies mit einem Hypothesentest ergänzen und Parameter auf diese Weise aus dem Modell ausschließen, aber dies wäre ein zusätzlicher Test, der auf das Bayes'sche Modell auferlegt wird.

Die Ergebnisse der Bayes'schen Schätzung spiegeln einen Beitrag aus den Daten und einen Beitrag aus dem Stand der Technik wider. Natürlich "schrumpft" eine vorherige Verteilung, die enger um Null konzentriert ist (wie die Spike-and-Slab-Verteilung), die resultierenden Parameterschätzer im Vergleich zu einer früheren Verteilung, die weniger konzentriert ist (wie die LASSO-Verteilung). Dieses "Schrumpfen" ist natürlich nur der Effekt der von Ihnen angegebenen Vorinformationen. Die Form des LASSO-Prior bedeutet, dass alle Parameterschätzungen relativ zu einem flacheren Prior in Richtung des Mittelwerts verkleinert werden.

Setzen Sie Monica wieder ein
quelle