Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch .
Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem Blatt.
Ich frage mich: Wie definiert dies Komplexität? , die Anzahl der Endknoten, erscheint mir natürlich. Aber die Summe der Endergebnisse im Quadrat?
Vielleicht ist Überanpassung gemeint. Bedeutet das, dass sehr große Punktzahlen zu viel Vertrauen geben? Wird es gewählt, um einen schwachen Lernenden zu bekommen? Was ist eine natürliche Erklärung für diese Wahl der Komplexitätsfunktion?