Lasso-ing die Reihenfolge einer Verzögerung?

9

Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit . $\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)$ $\Sigma$ $\Sigma$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{j - 1} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j}

$Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j$

ε_{j} \sim N (0, σ_{j})

$\varepsilon_j \sim N(0, \sigma_j)$

Dies wird normalerweise nicht durchgeführt, da -Kovarianzparameter geschätzt werden müssen. Ein Modell ist "lag- ", wenn wir dh wir verwenden nur das vorhergehende Terme zur Vorhersage von aus der Historie. $O(J^2)$ $k$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{k} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j},

$Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j,$

k

$k$

Y_{j}

$Y_j$

Was ich wirklich gerne tun würde, ist eine Art Schrumpfungsidee zu verwenden, um einige der wie den LASSO auf Null zu setzen . Aber die Sache ist, ich würde auch die Methode , wie ich Modelle bevorzugen , die lag- sind für einige ; Ich möchte Verzögerungen höherer Ordnung mehr als Verzögerungen niedrigerer Ordnung bestrafen. Ich denke, dies ist etwas, was wir besonders gerne tun würden, da die Prädiktoren stark korreliert sind. $\phi_{\ell j}$ $k$ $k$

Ein weiteres Problem ist, dass wenn (sagen wir) auf verkleinert wird, es mir auch gefallen würde, wenn auf verkleinert wird , dh dass in allen bedingten Verteilungen dieselbe Verzögerung verwendet wird. $\phi_{35}$ $0$ $\phi_{36}$ $0$

Ich könnte darüber spekulieren, aber ich möchte das Rad nicht neu erfinden. Gibt es LASSO-Techniken, die entwickelt wurden, um diese Art von Problem zu lösen? Bin ich besser dran, wenn ich etwas ganz anderes mache, wie die schrittweise Einbeziehung von Verzögerungsaufträgen? Da mein Modellraum klein ist, könnte ich sogar eine Strafe für dieses Problem verwenden, denke ich? $L_0$

feature-selection lasso shrinkage Kerl
quelle

2

Sie können die Kreuzvalidierung wiederholt von k = 0 bis zu einem beliebigen Maximum durchführen und die Leistung gegen k auftragen. Da das Modell an Daten getestet wird, die es zuvor noch nicht gesehen hat, gibt es keine Garantie dafür, dass die komplexen Modelle eine bessere Leistung erbringen. In der Tat sollten Sie eine Leistungsminderung feststellen, wenn das Modell aufgrund von Überanpassung zu komplex wird. Persönlich denke ich, dass dies sicherer und einfacher zu rechtfertigen ist als ein willkürlicher Straffaktor, aber Ihr Kilometerstand kann variieren.

Ich verfolge auch nicht wirklich, wie geordnet Lasso die Frage beantwortet. Es scheint zu restriktiv, es erzwingt die Reihenfolge der Koeffizienten vollständig. Während die ursprüngliche Frage für einige Daten mit einer Lösung enden kann, bei der nicht streng mit l abnimmt. $\phi_{lj}$

Nir Friedman
quelle

Um Ihrer Frage LaTeX hinzuzufügen, schließen Sie den Ausdruck zwischen Dollarzeichen ($) ein.

Patrick Coulombe

1

(1) Aus dem Modell allein ist nicht ersichtlich, dass die Koeffizientenreihenfolge wünschenswert ist, aber im Wesentlichen ist sie vernünftig. In einer klinischen Studie mit wiederholten gibt es beispielsweise keinen wesentlichen Grund zu der Annahme, dass eine kleine Störung von stochastisch stärker beeinflusst als eine kleine Störung von . Das bestellte LASSO nutzt dieses Wissen von vornherein besser, mit dem geringen Risiko, dass es nicht wahr ist.

Y_{j - 2}

$Y_{j-2}$

Y_{j}

$Y_j$

Y_{j - 1}

$Y_{j-1}$

Kerl

(2) Im Allgemeinen würde ich diese CV-Strategie zumindest teilweise nicht anwenden, da sie zu dogmatisch ist. Ich kann bessere Vorhersagen erhalten, indem ich eine Verzögerung mit Bedacht verkleinere, anstatt sie vollständig wegzuwerfen.

Kerl

Nir, ein nützlicher Kommentar zum bestellten LASSO. Ich habe meine Antwort etwas umfassender bearbeitet. Vielen Dank!

Sean Easter

Danke Sean. Guy, ich finde es nicht zu dogmatisch. Sie setzen ak nicht in Stein, sondern lassen es variieren. Das von ihm gewählte k wird zu Beginn der Überanpassung sein. Ich bin auch nicht einverstanden mit Ihrer Aussage über angebliche a priori Kenntnisse. Etwas, das vernünftig erscheint und weiß, dass das Ding völlig anders ist. Ich muss zugeben, dass es in traditionellen Statistiken einen Widerstand gegen Kreuzvalidierung zu geben scheint, den ich nie verstanden habe. Ich würde die Vorhersageeffizienz von Beispieldaten anstelle des Hinzufügens von Annahmen jeden Tag wählen.

Nir Friedman

2

Das geordnete LASSO scheint genau das zu sein, wonach Sie suchen: Es berechnet die regulierten Regressionskoeffizienten wie im Standard-LASSO, unterliegt jedoch der zusätzlichen Einschränkung, dass. $\beta_{1...j}$ $|\beta_1| \geq |\beta_2|...\geq|\beta_j|$

Dies erreicht das zweite Ziel, Koeffizienten für Verzögerungen höherer Ordnung auf Null zu setzen, ist jedoch restriktiver als die einzige Einschränkung, ein Modell mit niedrigerer Verzögerung zu bevorzugen. Und wie andere betonen, ist dies eine schwere Einschränkung, die sehr schwer zu rechtfertigen sein kann.

Nachdem auf die Vorbehalte verzichtet wurde, werden die Ergebnisse der Methode sowohl für reale als auch für simulierte Zeitreihendaten vorgestellt und Algorithmen zum Ermitteln der Koeffizienten detailliert beschrieben. Die Schlussfolgerung erwähnt ein R-Paket, aber das Papier ist ziemlich neu und eine Suche auf CRAN nach "bestelltem LASSO" ist leer, daher vermute ich, dass sich das Paket noch in der Entwicklung befindet.

Das Papier bietet auch einen verallgemeinerten Ansatz, bei dem zwei Regularisierungsparameter "nahezu Monotonie fördern". (Siehe S. 6.) Mit anderen Worten, man sollte in der Lage sein, die Parameter so einzustellen, dass eine entspannte Reihenfolge möglich ist. Leider werden weder Beispiele noch Vergleiche der entspannten Methode geliefert. Die Autoren schreiben jedoch, dass die Implementierung dieser Änderung eine einfache Angelegenheit ist, einen Algorithmus durch einen anderen zu ersetzen, und hofft, dass er Teil des kommenden R-Pakets sein wird.

Sean Easter
quelle

Danke, das ist wirklich interessant, dass dies eine neue Idee ist. Ich hatte tatsächlich die gleiche Idee, das Problem mit einem Freund zu besprechen, als ich die Frage vor 9 Monaten stellte, sie aber nie eingehend untersuchte! Ich nahm nur an, dass die Idee nicht so neu war oder dass jemand anderes bereits eine Arbeit darüber geschrieben hatte.

Kerl

Sehr willkommen! Ich war überrascht, dass es selbst so neu war.

Sean Easter

1

Die verschachtelte LASSO-Strafe ( pdf ) könnte angewendet werden, es gibt jedoch keine R-Pakete dafür.

user53874
quelle

1

Derzeit ist dies eher ein Kommentar als eine Antwort. Können Sie es ein wenig erweitern, vielleicht indem Sie die verschachtelte LASSO-Strafe usw. besprechen?

Gung - Reinstate Monica

0

Ich weiß, dass Sie es als Prämisse geschrieben haben, aber ich würde das bestellte LASSO nicht verwenden, ohne absolut sicher zu sein, dass dies erforderlich ist, da die Annahmen des geordneten LASSO nicht direkt für die Vorhersage von Zeitreihen geeignet sind. Betrachten Sie als Gegenbeispiel den Fall, in dem Sie eine Verzögerungszeit von beispielsweise zehn Zeitschritten zwischen Messung und Ziel haben. Offensichtlich können die geordneten LASSO-Einschränkungen solche Effekte nicht verarbeiten, ohne den ersten neun Parametern Unsinn zuzuschreiben.

Im Gegensatz dazu würde ich mich lieber an das normale LASSO halten und alle vorherigen Beobachtungen einbeziehen - insbesondere, weil Sie geschrieben haben, dass Ihr Modellraum klein ist und die Routinen zur Optimierung des Koordinatenabfalls für das LASSO (wie hier beschrieben ) auch für große Datensätze effizient funktionieren. Berechnen Sie dann den Pfad für den Regularisierungsstärkeparameter und prüfen Sie, welche Parameter enthalten sind, wenn Sie von large nach wechseln . Besonders die früher genannten sind die wichtigsten. $\lambda$ $\lambda$ $\lambda=0$

Schließlich müssen Sie ein geeignetes Kriterium auswählen und den Parameter mithilfe von Kreuzvalidierung, standardmäßiger eindimensionaler Minimierung oder was auch immer optimieren . Das Kriterium kann beispielsweise "Vorhersagefehler + Anzahl der enthaltenen Variablen" sein (--AIC-Kriterium-ähnlich). $\lambda$

Davidhigh
quelle

Ich wäre offensichtlich nicht an Einschränkungen in der Reihenfolge der Koeffizienten interessiert, wenn ich keine starken a priori Gründe hätte, dies zu glauben. Für die Modelle, von denen ich vermute, dass sie wahrscheinlich sind, sollte der bestellte LASSO heuristisch effizienter sein. Ein Lag-10-Koeffizient zu haben, wobei die anderen 9 0 sind, macht in meiner inhaltlichen Einstellung keinen Sinn . Dies ist ein Problem, an dem meine Kollegen gearbeitet haben (geordnetes Schrumpfen der Verzögerungen), aber sie verwendeten Bayesuan-Ideen und würden daher kein (nicht-Bayesianisches) LASSO in Betracht ziehen.

Kerl

Ok, Sie scheinen zu wissen, was Sie tun. Denken Sie jedoch daran, dass das geordnete LASSO stärker eingeschränkt ist als Ihre Anweisung "Einmal Null - Immer Null". Alternativ können Sie auch ein Modell in Betracht ziehen, bei dem die Parameter multiplikativ eingegeben werden. Dann kann die relative Bedeutung entweder zunehmen oder abnehmen, bis ein Koeffizient Null wird.

Davidhigh

Lasso-ing die Reihenfolge einer Verzögerung?

Antworten: