Der variable Koeffizient steigt und fällt dann mit abnehmendem Lambda (LASSO)

8

Ich regressiere einen kontinuierlichen Prädiktor für über 60 Variablen (sowohl kontinuierlich als auch kategorial) mit LASSO (glmnet).

Bei der Untersuchung des variablen Trace-Diagramms stelle ich fest, dass eine der Schlüsselvariablen mit zunehmendem log Lambda einen Koeffizienten aufweist, der tatsächlich zunimmt. Dann, nach einem bestimmten Punkt, beginnt es abzunehmen, wie wir es erwarten würden.

Um sicherzustellen, dass dies kein Zufall war, habe ich 10 Modelle mit Bootstraps ausgeführt und sehr ähnliche Ergebnisse erzielt.

Ist das möglich oder liegt ein Problem mit den Daten vor? Wenn legitim, was sagt uns dieser Trend im Koeffizienten der Variablen über die Variable und die Beziehung zur Antwort aus?

Anfängliches Variablendiagramm 10 Bootstrap-Modelle

matsuo_basho
quelle

Antworten:

10

Es ist nicht nur möglich, es ist ein sehr häufiges Ereignis.

Beachten Sie, dass die Strafe . So können einige Komponenten an Größe zunehmen, solange andere abnehmen, ohne die Norm insgesamt zu erhöhen. Manchmal, wenn zunimmt, kann ein (oder mehrere) Koeffizient (e) auf Kosten anderer an Größe zunehmen, die zusammen mindestens genauso schnell abnehmen, da dies dazu beiträgt, die Steigerungsrate des Mangels an Anpassungsdauer länger als zu halten sie alle zusammen zu reduzieren würde. λ||β||1λ

Vielleicht Sie zeichnen, was mit passiert wenn zunimmt.i|βi|logλ

Sie werden diese Art von Verhalten oft sehen, wenn zwischen den Prädiktoren eine gewisse Korrelation besteht - es kann eine Art Substitutionseffekt geben.

Beachten Sie, dass in Ihrem Top-Plotist fast immer abnehmend oder ziemlich stabil (der gelegentliche kleine Anstieg wird durch Abnahmen der Koeffizienten noch anderer Variablen ausgeglichen)|β4|+|β11|

Glen_b -Reinstate Monica
quelle
Was sagt diese Dynamik über die Auswirkung der Variablen auf die Reaktion im Vergleich dazu aus, wenn sie mit zunehmendem Lambda nur abnimmt?
matsuo_basho
Ich bin mir nicht ganz sicher, was Sie dort fragen, aber Sie müssen die Auswirkungen aller Variablen zusammen berücksichtigen. Wenn zum Beispiel in einem Großteil dieser Zunahme von mit zunehmendem nahezu konstant ist , wie wir in Ihrem oberen Diagramm sehen, möchten Sie wahrscheinlich überlegen, wie sich dieser Kontrast auswirkt . Der Effekt von allein kann rätselhaft sein, da Ihnen dort die halbe Geschichte fehlt. β4β11β4λx4
Glen_b -Reinstate Monica
+1, aber wäre es möglich, ein konstruktives Beispiel zu erhalten, das zeigt, wie und warum solche Dinge passieren?
Richard Hardy
Lassen Sie mich einige Hintergrundinformationen geben, warum ich die Frage stelle. Ich möchte die wichtigsten Variablen im Modell identifizieren. Aus den von mir ausgeführten Modellen geht hervor, dass die Variablen 4 und entweder die Variablen 11 oder 24 konsistent im Modell enthalten sind, wenn das Lambda hoch ist. Wir können also sagen, dass sie wichtig sind. Obwohl Variable 4 im Allgemeinen einen positiven Koeffizienten hat, ist die Art und Weise, wie sie sich ändert, etwas verwirrend. Sagt uns diese Dynamik etwas über die Interpretation der Auswirkung der Variablen auf die Antwort?
matsuo_basho