Tabelle 18.1 in den Elementen des statistischen Lernens fasst die Leistung mehrerer Klassifikatoren in einem 14-Klassen-Datensatz zusammen. Ich vergleiche einen neuen Algorithmus mit dem Lasso und dem elastischen Netz für solche Klassifizierungsprobleme mit mehreren Klassen.
Unter Verwendung von glmnet
Version 1.5.3 (R 2.13.0) kann ich Punkt 7 (das mit -penalisierte Multinom) in der Tabelle nicht reproduzieren , in der die Anzahl der verwendeten Gene mit 269 angegeben ist und der Testfehler 13 beträgt von 54. Die verwendeten Daten sind dieser 14-Krebs-Microarray-Datensatz . Was auch immer ich versucht habe, ich bekomme ein Modell mit der besten Leistung in der Nachbarschaft von 170-180 Genen mit einem Testfehler von 16 von 54.
Beachten Sie, dass am Anfang von Abschnitt 18.3, auf Seite 654, eine Vorverarbeitung der Daten beschrieben ist.
Ich habe die Autoren kontaktiert - bisher ohne Antwort - und frage, ob jemand bestätigen kann, dass ein Problem bei der Reproduktion der Tabelle vorliegt, oder eine Lösung für die Reproduktion der Tabelle liefern kann.
Antworten:
Haben Sie das R-Paket des Buches überprüft ? es enthält alle Datensätze, Funktionen und die meisten dort verwendeten Skripte ...
quelle