Was sind die Gemeinsamkeiten und Unterschiede zwischen diesen 3 Methoden: Absacken, Erhöhen, Stapeln? Welches ist das beste? Und warum? Kannst du mir für jeden ein Beispiel
Eine Familie von Algorithmen, die schwach prädiktive Modelle zu einem stark prädiktiven Modell kombinieren. Der gebräuchlichste Ansatz wird als Gradientenverstärkung bezeichnet, und die am häufigsten verwendeten schwachen Modelle sind Klassifizierungs- / Regressionsbäume.
Was sind die Gemeinsamkeiten und Unterschiede zwischen diesen 3 Methoden: Absacken, Erhöhen, Stapeln? Welches ist das beste? Und warum? Kannst du mir für jeden ein Beispiel
Die von Friedman vorgeschlagene Gradientenbaumverstärkung verwendet Entscheidungsbäume als Basislerner. Ich frage mich, ob wir den Basisentscheidungsbaum so komplex wie möglich (ausgewachsen) oder einfacher gestalten sollen. Gibt es eine Erklärung für die Wahl? Random Forest ist eine weitere...
Ich habe klassenunausgeglichene Daten und möchte die Hyperparameter der verstärkten Locke mit xgboost optimieren. Fragen Gibt es für xgboost ein Äquivalent zu gridsearchcv oder randomsearchcv? Wenn nicht, was ist der empfohlene Ansatz, um die Parameter von xgboost zu optimieren?...
Kurzdefinition von Boosten : Können schwache Lernende einen einzigen starken Lernenden hervorbringen? Ein schwacher Lernender wird definiert als ein Klassifikator, der nur geringfügig mit der wahren Klassifikation korreliert (er kann Beispiele besser kennzeichnen als zufälliges Erraten)....
Ich versuche die Unterschiede zwischen GBM und Adaboost zu verstehen. Folgendes habe ich bisher verstanden: Es gibt beide Boosting-Algorithmen, die aus den Fehlern des Vorgängermodells lernen und schließlich eine gewichtete Summe der Modelle bilden. GBM und Adaboost sind sich bis auf ihre...
Beim Erlernen von Gradient Boosting sind mir keine Einschränkungen in Bezug auf die Eigenschaften eines "schwachen Klassifikators" bekannt, mit dem die Methode ein Modell erstellt und zusammensetzt. Ich konnte mir jedoch keine Anwendung eines GB vorstellen, bei der lineare Regression verwendet...
Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln. Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere...
Ich suche nach einer Erklärung, wie die relative variable Wichtigkeit in gradientenverstärkten Bäumen berechnet wird, die nicht allzu allgemein / simpel ist wie: Die Kennzahlen basieren auf der Häufigkeit, mit der eine Variable zum Teilen ausgewählt wurde, gewichtet durch die quadratische...
Es gibt verschiedene Implementierungen der GBDT-Modellfamilie, wie z. GBM XGBoost LightGBM Catboost. Was sind die mathematischen Unterschiede zwischen diesen verschiedenen Implementierungen? Catboost scheint die anderen Implementierungen zu übertreffen, selbst wenn nur die Standardparameter...
Was sind einige nützliche Richtlinien zum Testen von Parametern (z. B. Interaktionstiefe, Kind, Abtastrate usw.) mit GBM? Nehmen wir an, ich habe 70-100 Features, eine Bevölkerung von 200.000 und ich beabsichtige, die Interaktionstiefe von 3 und 4 zu testen. Natürlich muss ich einige Tests...
Ich hatte eine Frage zum Interaktionstiefenparameter in gbm in R. Dies mag eine Noob-Frage sein, für die ich mich entschuldige, aber wie zeigt der Parameter, von dem ich glaube, dass er die Anzahl der Endknoten in einem Baum angibt, im Grunde genommen X-way an Interaktion zwischen den Prädiktoren?...
Siehe auch eine ähnliche Frage zu stats.SE . Bei Boosting- Algorithmen wie AdaBoost und LPBoost ist bekannt, dass die zu kombinierenden "schwachen" Lernenden nur bessere Leistungen erbringen müssen als der Zufall, um nützlich zu sein. Die verwendeten Klassifizierer können schwach sein (dh eine...
Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function,...
Was ist der einfachste Weg, Boosten zu verstehen? Warum werden sehr schwache Klassifikatoren nicht auf "unendlich" angehoben
Ich habe einige eng verwandte Fragen zu schwachen Lernenden im Ensemble-Lernen (z. B. Boosten). Das hört sich vielleicht dumm an, aber was sind die Vorteile von schwachen Lernenden gegenüber starken Lernenden? (zB warum nicht mit "starken" Lernmethoden aufladen?) Gibt es eine Art "optimale"...
Vor kurzem habe ich mich mit dem Erlernen von Boosting-Algorithmen wie Adaboost und Gradienten-Boost befasst, und ich kenne die Tatsache, dass der am häufigsten verwendete schwache Lernende Bäume sind. Ich möchte wirklich wissen, ob es in letzter Zeit einige erfolgreiche Beispiele (ich meine einige...
Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren...
Ich las den Bericht über die Siegerlösung eines Kaggle-Wettbewerbs ( Malware Classification ). Der Bericht ist in diesem Forumsbeitrag zu finden . Das Problem war ein Klassifizierungsproblem (neun Klassen, die Metrik war der logarithmische Verlust) mit 10000 Elementen in der Zugmenge, 10000...
Ich habe verschiedene (scheinbar) widersprüchliche Aussagen darüber gelesen, ob AdaBoost (oder andere Boosting-Techniken) im Vergleich zu anderen Lernmethoden weniger oder anfälliger für Überanpassungen sind. Gibt es gute Gründe, den einen oder anderen zu glauben? Wenn es darauf ankommt, wovon...
Ich versuche zu verstehen, wie XGBoost funktioniert. Ich verstehe bereits, wie gradientenverstärkte Bäume auf Python Sklearn funktionieren. Was mir nicht klar ist, ist, ob XGBoost auf die gleiche Weise funktioniert, aber schneller, oder ob es grundlegende Unterschiede zwischen ihm und der...