Wiedergabe von Tabelle 18.1 aus „Elemente des statistischen Lernens“

13

Tabelle 18.1 in den Elementen des statistischen Lernens fasst die Leistung mehrerer Klassifikatoren in einem 14-Klassen-Datensatz zusammen. Ich vergleiche einen neuen Algorithmus mit dem Lasso und dem elastischen Netz für solche Klassifizierungsprobleme mit mehreren Klassen.

Unter Verwendung von glmnetVersion 1.5.3 (R 2.13.0) kann ich Punkt 7 (das mit -penalisierte Multinom) in der Tabelle nicht reproduzieren , in der die Anzahl der verwendeten Gene mit 269 angegeben ist und der Testfehler 13 beträgt von 54. Die verwendeten Daten sind dieser 14-Krebs-Microarray-Datensatz . Was auch immer ich versucht habe, ich bekomme ein Modell mit der besten Leistung in der Nachbarschaft von 170-180 Genen mit einem Testfehler von 16 von 54.L1

Beachten Sie, dass am Anfang von Abschnitt 18.3, auf Seite 654, eine Vorverarbeitung der Daten beschrieben ist.

Ich habe die Autoren kontaktiert - bisher ohne Antwort - und frage, ob jemand bestätigen kann, dass ein Problem bei der Reproduktion der Tabelle vorliegt, oder eine Lösung für die Reproduktion der Tabelle liefern kann.

NRH
quelle
1
glmnet hat in letzter Zeit einige Änderungen erfahren und hatte in der Vergangenheit einige Probleme mit der Numerik. Liegt es möglicherweise daran? Wie lange ist es her, dass Sie die Autoren kontaktiert haben? Ich sehe, dass die aktuelle Version 1.7 ist und erst vor ungefähr einer Woche auf CRAN hochgeladen wurde.
Kardinal
@ cardinal, es sind ungefähr vier Wochen vergangen, seit ich die letzten Experimente mit glmnet durchgeführt habe, aber wir haben auch eine andere Implementierung, die ähnliche Ergebnisse liefert, die nicht mit der Tabelle in ESL übereinstimmen. Der Tisch ist definitiv älter, also denke ich, dass der Tisch nicht korrekt ist, aber es wäre schön, es sicher zu wissen.
NRH
Ich habe diese Abschnitte sehr kurz überflogen, und eine Frage, die sich mir stellte, war, wie die Kreuzvalidierung durchgeführt wurde, um den Schrumpfungsparameter in (18.19) auf Seite 661 (dritter Ausdruck) auszuwählen. Irgendeine Idee? Vielleicht habe ich es verpasst oder es ist anderswo beschrieben? Dies scheint ein wahrscheinlicher Ort zu sein, an dem Ihre Versuche, ihre Analyse neu zu erstellen, empfindlich auf Unterschiede im Ansatz reagieren könnten.
Kardinal
@ cardinal, erstmal danke, dass du dich dafür interessierst. Es ist richtig, dass der Lebenslauf einen Unterschied machen kann, aber die Autoren haben tatsächlich die Teilmengen (Indizes), die für den Lebenslauf auf der Webseite verwendet werden, zusammen mit den Daten. Auf jeden Fall wird CV nur zur Auswahl des optimalen Strafparameters Lambda verwendet. Anschließend wird der gesamte Trainingsdatensatz für das Modell verwendet, das dann anhand der Testdaten bewertet wird. Selbst wenn der CV-Schritt ein anderes Lambda auswählt, befindet sich dieses Lambda auf dem Lösungspfad für die Trainingsdaten, und wir können es nicht finden ...
NRH

Antworten:

2

Haben Sie das R-Paket des Buches überprüft ? es enthält alle Datensätze, Funktionen und die meisten dort verwendeten Skripte ...

user603
quelle
7
netter Versuch. Ja, ich habe das Paket überprüft, aber zu behaupten, dass es alle Daten, Funktionen und die meisten Skripte enthält, ist übertrieben. Es ist nicht vollständig und enthält nicht den fraglichen Datensatz.
NRH