Ich führe sowohl mit Lasso als auch mit Ridge ein Regressionsmodell durch (um eine diskrete Ergebnisvariable im Bereich von 0 bis 5 vorherzusagen). Bevor ich das Modell ausführe, verwende ich die SelectKBest
Methode scikit-learn
, um den Funktionsumfang von 250 auf 25 zu reduzieren . Ohne eine anfängliche Merkmalsauswahl ergeben sowohl Lasso als auch Ridge niedrigere Genauigkeitswerte [was möglicherweise auf die geringe Stichprobengröße von 600 zurückzuführen ist]. Beachten Sie auch, dass einige Funktionen korreliert sind.
Nach dem Ausführen des Modells stelle ich fest, dass die Vorhersagegenauigkeit bei Lasso und Ridge nahezu gleich ist. Wenn ich jedoch die ersten 10 Merkmale überprüfe, nachdem ich sie nach dem absoluten Wert der Koeffizienten geordnet habe, sehe ich, dass es höchstens% 50 Überlappung gibt.
Das heißt, da jeder Methode eine unterschiedliche Bedeutung von Merkmalen zugewiesen wurde, kann ich je nach gewähltem Modell eine völlig andere Interpretation haben.
Normalerweise repräsentieren die Funktionen einige Aspekte des Benutzerverhaltens auf einer Website. Daher möchte ich die Ergebnisse erläutern, indem ich die Merkmale (Benutzerverhalten) mit einer stärkeren Vorhersagefähigkeit gegenüber schwächeren Merkmalen (Benutzerverhalten) hervorhole. Ich weiß jedoch noch nicht, wie ich vorankommen soll. Wie soll ich mit der Interpretation des Modells umgehen? Sollte zum Beispiel beides kombiniert und das überlappende hervorgehoben werden, oder sollte ich mich für Lasso entscheiden, da es mehr Interpretierbarkeit bietet?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Antworten:
Die Ridge-Regression ermutigt alle Koeffizienten, klein zu werden. Lasso ermutigt viele / die meisten [**] Koeffizienten, Null zu werden, und einige, die nicht Null sind. Beide verringern die Genauigkeit des Trainingssatzes, verbessern jedoch die Vorhersage in gewisser Weise:
Sie können verschiedene Koeffizienten auswählen, wenn Ihre Daten stark korreliert sind. Sie haben also möglicherweise 5 Funktionen, die korreliert sind:
[*] für eine Definition der Bedeutung 'wählen': Weist einen Koeffizienten ungleich Null zu, der immer noch ein wenig von Hand bewegt wird, da die Gratregressionskoeffizienten dazu neigen, alle ungleich Null zu sein, aber z. B. könnten einige wie 1e-8 sein und andere könnten zB 0,01 sein
quelle