Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .
Dies wird normalerweise nicht durchgeführt, da -Kovarianzparameter geschätzt werden müssen. Ein Modell ist "lag- ", wenn wir dh wir verwenden nur das vorhergehende Terme zur Vorhersage von aus der Historie.
Was ich wirklich gerne tun würde, ist eine Art Schrumpfungsidee zu verwenden, um einige der wie den LASSO auf Null zu setzen . Aber die Sache ist, ich würde auch die Methode , wie ich Modelle bevorzugen , die lag- sind für einige ; Ich möchte Verzögerungen höherer Ordnung mehr als Verzögerungen niedrigerer Ordnung bestrafen. Ich denke, dies ist etwas, was wir besonders gerne tun würden, da die Prädiktoren stark korreliert sind.
Ein weiteres Problem ist, dass wenn (sagen wir) auf verkleinert wird, es mir auch gefallen würde, wenn auf verkleinert wird , dh dass in allen bedingten Verteilungen dieselbe Verzögerung verwendet wird.
Ich könnte darüber spekulieren, aber ich möchte das Rad nicht neu erfinden. Gibt es LASSO-Techniken, die entwickelt wurden, um diese Art von Problem zu lösen? Bin ich besser dran, wenn ich etwas ganz anderes mache, wie die schrittweise Einbeziehung von Verzögerungsaufträgen? Da mein Modellraum klein ist, könnte ich sogar eine Strafe für dieses Problem verwenden, denke ich?
Das geordnete LASSO scheint genau das zu sein, wonach Sie suchen: Es berechnet die regulierten Regressionskoeffizienten wie im Standard-LASSO, unterliegt jedoch der zusätzlichen Einschränkung, dass. | β 1 | ≥ | β 2 | . . . ≥ | β j |β1...j |β1|≥|β2|...≥|βj|
Dies erreicht das zweite Ziel, Koeffizienten für Verzögerungen höherer Ordnung auf Null zu setzen, ist jedoch restriktiver als die einzige Einschränkung, ein Modell mit niedrigerer Verzögerung zu bevorzugen. Und wie andere betonen, ist dies eine schwere Einschränkung, die sehr schwer zu rechtfertigen sein kann.
Nachdem auf die Vorbehalte verzichtet wurde, werden die Ergebnisse der Methode sowohl für reale als auch für simulierte Zeitreihendaten vorgestellt und Algorithmen zum Ermitteln der Koeffizienten detailliert beschrieben. Die Schlussfolgerung erwähnt ein R-Paket, aber das Papier ist ziemlich neu und eine Suche auf CRAN nach "bestelltem LASSO" ist leer, daher vermute ich, dass sich das Paket noch in der Entwicklung befindet.
Das Papier bietet auch einen verallgemeinerten Ansatz, bei dem zwei Regularisierungsparameter "nahezu Monotonie fördern". (Siehe S. 6.) Mit anderen Worten, man sollte in der Lage sein, die Parameter so einzustellen, dass eine entspannte Reihenfolge möglich ist. Leider werden weder Beispiele noch Vergleiche der entspannten Methode geliefert. Die Autoren schreiben jedoch, dass die Implementierung dieser Änderung eine einfache Angelegenheit ist, einen Algorithmus durch einen anderen zu ersetzen, und hofft, dass er Teil des kommenden R-Pakets sein wird.
quelle
Die verschachtelte LASSO-Strafe ( pdf ) könnte angewendet werden, es gibt jedoch keine R-Pakete dafür.
quelle
Ich weiß, dass Sie es als Prämisse geschrieben haben, aber ich würde das bestellte LASSO nicht verwenden, ohne absolut sicher zu sein, dass dies erforderlich ist, da die Annahmen des geordneten LASSO nicht direkt für die Vorhersage von Zeitreihen geeignet sind. Betrachten Sie als Gegenbeispiel den Fall, in dem Sie eine Verzögerungszeit von beispielsweise zehn Zeitschritten zwischen Messung und Ziel haben. Offensichtlich können die geordneten LASSO-Einschränkungen solche Effekte nicht verarbeiten, ohne den ersten neun Parametern Unsinn zuzuschreiben.
Im Gegensatz dazu würde ich mich lieber an das normale LASSO halten und alle vorherigen Beobachtungen einbeziehen - insbesondere, weil Sie geschrieben haben, dass Ihr Modellraum klein ist und die Routinen zur Optimierung des Koordinatenabfalls für das LASSO (wie hier beschrieben ) auch für große Datensätze effizient funktionieren. Berechnen Sie dann den Pfad für den Regularisierungsstärkeparameter und prüfen Sie, welche Parameter enthalten sind, wenn Sie von large nach wechseln . Besonders die früher genannten sind die wichtigsten.λ λ = 0λ λ λ=0
Schließlich müssen Sie ein geeignetes Kriterium auswählen und den Parameter mithilfe von Kreuzvalidierung, standardmäßiger eindimensionaler Minimierung oder was auch immer optimieren . Das Kriterium kann beispielsweise "Vorhersagefehler + Anzahl der enthaltenen Variablen" sein (--AIC-Kriterium-ähnlich).λ
quelle