Wie kann eine geringere Lernrate die Leistung eines GBM beeinträchtigen?

8

Ich habe mich immer der Volksweisheit angeschlossen, dass das Verringern der Lernrate in einem GBM (Gradient Boosted Tree Model) die Out-of-Sample-Leistung des Modells nicht beeinträchtigt. Heute bin ich mir nicht so sicher.

Ich passe Modelle (Minimierung der Summe der quadratischen Fehler) an den Boston-Gehäusedatensatz an . Hier ist eine Darstellung des Fehlers nach Anzahl der Bäume in einem Testdatensatz von 20 Prozent

Fehler nach Anzahl der Bäume mit unterschiedlichen Lernraten

Es ist schwer zu sehen, was am Ende los ist. Hier ist eine vergrößerte Version für die Extreme

Vergrößerte Version

Es scheint, dass in diesem Beispiel die Lernrate von am besten ist, wobei die kleineren Lernraten bei Hold-out-Daten schlechter abschneiden.0,01

Wie lässt sich das am besten erklären?

Ist dies ein Artefakt der geringen Größe des Boston-Datensatzes? Ich bin viel besser mit Situationen vertraut, in denen ich Hunderttausende oder Millionen von Datenpunkten habe.

Sollte ich anfangen, die Lernrate mit einer Rastersuche (oder einem anderen Meta-Algorithmus) abzustimmen?

Matthew Drury
quelle

Antworten:

4

Ja, Sie haben Recht, eine niedrigere Lernrate sollte ein besseres Optimum finden als eine höhere Lernrate. Sie sollten die Hyperparameter jedoch mithilfe der Rastersuche optimieren, um die beste Kombination der Lernrate zusammen mit den anderen Hyperparametern zu finden.

Der GBM-Algorithmus verwendet zusätzlich zur Lernrate (Schrumpfung) mehrere Hyperparameter. Dies sind:

  1. Anzahl der Bäume
  2. Interaktionstiefe
  3. Minimale Beobachtung in einem Knoten
  4. Beutelfraktion (Bruchteil zufällig ausgewählter Beobachtungen)

Die Rastersuche muss all dies überprüfen, um den optimalsten Parametersatz zu ermitteln.

Beispielsweise habe ich bei einigen Datensätzen, die ich mit GBM optimiert habe, festgestellt, dass die Genauigkeit stark variiert, wenn jeder Hyperparameter geändert wird. Ich habe GBM für Ihren Beispieldatensatz nicht ausgeführt, verweise jedoch auf eine ähnliche Optimierungsübung für einen anderen Datensatz. In dieser Grafik finden Sie ein Klassifizierungsproblem mit stark unausgeglichenen Klassen.

Einfluss unterschiedlicher Schrumpfung (Lernrate) auf die Kappa-Metrik

Obwohl die Genauigkeit bei niedrigerer Lernrate am höchsten ist, z. B. bei max. Bei einer Baumtiefe von 16 beträgt die Kappa-Metrik 0,425 bei einer Lernrate von 0,2, was besser als 0,415 bei einer Lernrate von 0,35 ist.

Betrachtet man jedoch die Lernrate bei 0,25 gegenüber 0,26, so steigt Kappa bei einer maximalen Baumtiefe von 14, 15 und 16 stark, aber geringfügig an. während es für die Baumtiefe 12 und 13 weiter abnimmt.

Daher würde ich vorschlagen, dass Sie die Rastersuche versuchen sollten.

Wie Sie bereits erwähnt haben, könnte diese Situation auch durch eine kleinere Stichprobengröße des Datensatzes verschärft worden sein.

Sandeep S. Sandhu
quelle
0

Sandeep S. Sandhu hat eine großartige Antwort gegeben. Was Ihren Fall betrifft, denke ich, dass Ihr Modell für diese kleinen Lernraten noch nicht konvergiert hat. Nach meiner Erfahrung benötigen Sie bei einer Lernrate von nur 0,001 für einen Gradienten-Boosting-Baum etwa 100.000 Boost-Stufen (oder Bäume), um das Minimum zu erreichen. Wenn Sie also die Boost-Runden auf das Zehnfache erhöhen, sollten Sie in der Lage sein, zu sehen, dass die kleinere Lernrate besser abschneidet als die große.

Louis Yang
quelle