Ich denke, Sie sollten einen Bereich von bis verwenden0
λ′max=11−αλmax
Meine Argumentation stammt aus der Erweiterung des Lasso-Falls, und eine vollständige Ableitung finden Sie weiter unten. Das Qualifikationsmerkmal ist, dass es die -Einschränkung, die durch die Regularisierung verursacht wird, nicht erfasst . Wenn ich herausfinde, wie das behoben werden kann (und ob es tatsächlich repariert werden muss), komme ich zurück und bearbeite es.dofℓ2
Definieren Sie das Ziel
f(b)=12∥y−Xb∥2+12γ∥b∥2+δ∥b∥1
Dies ist das von Ihnen beschriebene Ziel, wobei jedoch einige Parameter ersetzt wurden, um die Klarheit zu verbessern.
Herkömmlicherweise kann nur dann eine Lösung für das Optimierungsproblem wenn der Gradient bei Null ist. Der Term ist jedoch nicht glatt, so dass die Bedingung tatsächlich ist, dass im Subgradienten bei .b=0minf(b)b=0∥b∥10b=0
Der Subgradient von istf
∂f=−XT(y−Xb)+γb+δ∂∥b∥1
wobei den Subgradienten in Bezug auf . Bei wird dies∂bb=0
∂f|b=0=−XTy+δ[−1,1]d
Dabei ist die Dimension von und a ein dimensionaler Würfel. Damit das Optimierungsproblem eine Lösung von , muss es so seindb[−1,1]ddb=0
(XTy)i∈δ[−1,1]
für jede Komponente . Dies entsprichti
δ>maxi∣∣∣∣∑jyjXij∣∣∣∣
Dies ist die Definition, die Sie für . Wenn jetzt eingetauscht wird, fällt die Formel oben im Beitrag heraus.λmaxδ=(1−α)λ