Hintergrund:
in xgboost der Iteration versucht , einen Baum zu passen f t über alle n Beispiele , die die folgende objektiv minimieren:
wobei sind erste Ordnung und zweite Ordnung Derivate über unsere frühere beste Schätzung y (von Iteration t - 1 ):
und ist unsere Verlustfunktion.
Die Frage (endlich):
Wenn sie und ein bestimmtes Merkmal k in einem bestimmten Split berücksichtigen , verwenden sie die folgende Heuristik, um nur einige Split-Kandidaten zu bewerten: Sie sortieren alle Beispiele nach ihrem x k , gehen über die sortierte Liste und summieren ihre zweite Ableitung h i . Sie betrachten einen geteilten Kandidaten nur dann, wenn sich die Summe um mehr als ϵ ändert . Warum das???
Die Erklärung, die sie geben, entgeht mir:
Sie behaupten, wir könnten die vorherige Gleichung folgendermaßen umschreiben:
und ich folge der Algebra nicht - können Sie zeigen, warum sie gleich ist?
Und dann behaupten sie, dass "dies genau der gewichtete quadratische Verlust mit den Bezeichnungen und Gewichten h i ist " - eine Aussage, der ich zustimme, aber ich verstehe nicht, wie sie sich auf den von ihnen verwendeten Split-Candidate-Algorithmus bezieht. ..
Danke und Entschuldigung, wenn dies für dieses Forum zu lang ist.
Fügen Sie einfach den algebraischen Teil zu @Winks hinzu. Antwort:
Das Vorzeichen der zweiten Gleichung sollte umgekehrt sein, wie in:
Dank geht an Yaron und Avi von meinem Team, die mir das erklärt haben.
quelle
quelle