Als «xgboost» getaggte Fragen

40

GBM gegen XGBOOST? Hauptunterschiede?

Ich versuche, die Hauptunterschiede zwischen GBM und XGBOOST zu verstehen. Ich habe versucht, es zu googeln, konnte aber keine guten Antworten finden, die die Unterschiede zwischen den beiden Algorithmen erklären und erklären, warum xgboost fast immer eine bessere Leistung als GBM erbringt. Was...

37

Wie ist die Ausgabe von XGBoost zu interpretieren?

Ich habe ein xgboost-Modell ausgeführt. Ich weiß nicht genau, wie ich die Ausgabe von interpretieren soll xgb.importance. Was ist die Bedeutung von Gain, Cover und Frequency und wie interpretieren wir sie? Was bedeuten Split, RealCover und RealCover%? Ich habe einige zusätzliche Parameter hier Gibt...

machine-learning xgboost

29

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

27

Hypertuning von XGBoost-Parametern

XGBoost hat hervorragende Arbeit geleistet, wenn es um den Umgang mit kategorialen und kontinuierlichen abhängigen Variablen geht. Aber wie wähle ich die optimierten Parameter für ein XGBoost-Problem aus? So habe ich die Parameter für ein aktuelles Kaggle-Problem angewendet: param <- list(...

r python xgboost

25

Warum brauchen wir XGBoost und Random Forest?

Bei einigen Konzepten war mir nicht klar: XGBoost wandelt schwache Lernende in starke Lernende um. Was ist der Vorteil davon? Kombinieren Sie viele schwache Lernende, anstatt nur einen einzigen Baum zu verwenden? Random Forest verwendet verschiedene Stichproben aus einem Baum, um einen Baum zu...

machine-learning data-mining random-forest decision-trees xgboost

25

LightGBM vs XGBoost

Ich versuche zu verstehen, was besser ist (genauer, insbesondere bei Klassifizierungsproblemen) Ich habe nach Artikeln gesucht, die LightGBM und XGBoost vergleichen, aber nur zwei gefunden: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - es...

xgboost

23

Behandelt XGBoost Multikollinearität selbstständig?

Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B...

feature-selection correlation xgboost gbm

22

xgboost: Letzten Stichproben mehr Bedeutung beimessen

Gibt es eine Möglichkeit, neueren Punkten bei der Datenanalyse mit xgboost mehr Bedeutung zu verleihen?

xgboost weighted-data

17

Unsymmetrische Multiklassendaten mit XGBoost

Ich habe 3 Klassen mit dieser Verteilung: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Und ich benutze xgboostfür die Klassifizierung. Ich weiß, dass es einen Parameter namens gibt scale_pos_weight. Aber wie wird es bei "Multiclass" -Fällen gehandhabt und wie kann ich es richtig...

classification xgboost multiclass-classification unbalanced-classes

15

XGBoost-Ausgänge tendieren zu den Extremen

Ich verwende derzeit XGBoost zur Risikoprognose. Es scheint in der Abteilung für binäre Klassifizierung gute Arbeit zu leisten, aber die Wahrscheinlichkeitsausgaben sind weit davon entfernt, dh eine Änderung des Werts eines Merkmals in einer Beobachtung um einen sehr kleinen Betrag kann die...

machine-learning classification xgboost probability probability-calibration

13

Wie passen paarweise eingestufte Modelle in xgBoost?

Soweit ich weiß, müssen drei Dinge im Datensatz enthalten sein, um das Erlernen von Ranglistenmodellen zu trainieren: Label oder Relevanz Gruppen- oder Abfrage-ID Merkmalsvektor Beispielsweise verwendet das Microsoft Learning to Rank-Dataset dieses Format (Bezeichnung, Gruppen-ID und Funktionen). 1...

search ranking xgboost gbm

13

XGBRegressor vs. xgboost.train großer Geschwindigkeitsunterschied?

Wenn ich mein Modell mit dem folgenden Code trainiere: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns]...

machine-learning python decision-trees xgboost efficiency

13

Entscheidungsbäume: blattweise (am besten zuerst) und ebene Baumdurchquerung

Fehler 1: Die Beschreibung von LightGBM bezüglich der Art und Weise, wie der Baum erweitert wird, verwirrt mich . Sie stellen fest: Die meisten Lernalgorithmen für Entscheidungsbäume vergrößern den Baum stufenweise (in der Tiefe), wie in der folgenden Abbildung dargestellt: Fragen 1 : Welche...

decision-trees xgboost

12

Benötigen Sie Hilfe beim Verständnis des ungefähren Split-Points-Vorschlags von xgboost

Hintergrund: in xgboost der Iteration versucht , einen Baum zu passen f t über alle n Beispiele , die die folgende objektiv minimieren:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] wobei sind erste Ordnung und zweite Ordnung...

xgboost gbm

12

Pandas Dataframe zu DMatrix

Ich versuche xgboost in scikit learn auszuführen. Und ich benutze Pandas nur, um Daten in den Datenrahmen zu laden. Wie soll ich pandas df mit xgboost verwenden? Ich bin verwirrt von der DMatrix-Routine, die zum Ausführen von xgboost algo erforderlich

scikit-learn pandas xgboost

12

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung...

scikit-learn feature-selection random-forest xgboost categorical-data

11

Was ist der Unterschied zwischen xgboost binary: logistic und reg: logistic?

Was ist der Unterschied in R in xgboost zwischen binär: logistisch und reg: logistisch? Ist es nur in Bewertungsmetrik? Wenn ja, wie verhält sich RMSE zur binären Klassifizierung zur Fehlerrate? Ist die Beziehung zwischen den Metriken mehr oder weniger monoton, sollte sich die Ausgabe der...

r logistic-regression xgboost

11

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

10

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem...

machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation