Ich habe aus anderen Beiträgen erfahren, dass man Prädiktorvariablen, die in ein Lasso-Modell eingehen, keine "Wichtigkeit" oder "Signifikanz" zuweisen kann, da die Berechnung der p-Werte oder Standardabweichungen dieser Variablen noch in Arbeit ist.
Ist es unter diesen Umständen richtig zu behaupten, dass man NICHT sagen kann, dass Variablen, die vom Lasso-Modell ausgeschlossen wurden, "irrelevant" oder "unbedeutend" sind?
Wenn ja, was kann ich tatsächlich über die Variablen behaupten, die entweder ausgeschlossen oder in einem Lasso-Modell enthalten sind? In meinem speziellen Fall habe ich den Abstimmungsparameter Lambda ausgewählt, indem ich die 10-fache Kreuzvalidierung 100 Mal wiederholt habe, um Randonmess zu reduzieren und die Fehlerkurven zu mitteln.
UPDATE1: Ich bin einem Vorschlag unten gefolgt und habe Lasso mit Bootstrap-Beispielen erneut ausgeführt. Ich habe es mit 100 Samples versucht (diese Menge konnte meine Computerleistung über Nacht verwalten) und es entstanden einige Muster. 2 meiner 41 Variablen sind mehr als 95% der Fälle in das Modell eingegangen, 3 Variablen mehr als 90% und 5 Variablen mehr als 85%. Diese 5 Variablen gehören zu den 9, die in das Modell eingegeben wurden, als ich es mit der ursprünglichen Stichprobe ausgeführt hatte, und waren dann diejenigen mit den höchsten Koeffizientenwerten. Wenn ich Lasso mit beispielsweise 1000 Bootstrap-Beispielen ausführen und diese Muster beibehalten werden, wie kann ich meine Ergebnisse am besten präsentieren?
Klingen 1000 Bootstrap-Samples genug? (Meine Stichprobengröße ist 116)
Sollte ich alle Variablen auflisten und wie häufig sie in das Modell eingegeben werden, und dann argumentieren, dass diejenigen, die häufiger eingegeben werden, mit größerer Wahrscheinlichkeit von Bedeutung sind?
Ist das so weit ich mit meinen Ansprüchen gehen kann? Da es sich um eine laufende Arbeit handelt (siehe oben), kann ich keinen Grenzwert verwenden, oder?
UPDATE2: Nach einem Vorschlag unten habe ich Folgendes berechnet: Im Durchschnitt haben 78% der Variablen im ursprünglichen Modell die Modelle eingegeben, die für die 100 Bootstrap-Beispiele generiert wurden. Auf der anderen Seite nur 41% umgekehrt. Dies hat zum großen Teil damit zu tun, dass die für die Bootstrap-Beispiele generierten Modelle tendenziell viel mehr Variablen enthielten (durchschnittlich 17) als das ursprüngliche Modell (9).
UPDATE3: Wenn Sie mir bei der Interpretation der Ergebnisse helfen könnten, die ich durch Bootstrapping und Monte-Carlo-Simulation erhalten habe, schauen Sie sich bitte diesen anderen Beitrag an.