Als «random-forest» getaggte Fragen

64

Zeichenfolgen als Merkmale im Entscheidungsbaum / zufälligen Wald

Ich mache einige Probleme bei der Anwendung von Decision Tree / Random Forest. Ich versuche, ein Problem zu lösen, bei dem sowohl Zahlen als auch Zeichenfolgen (z. B. der Name des Landes) als Merkmale verwendet werden. Jetzt nimmt die Bibliothek, scikit-learn, nur Zahlen als Parameter, aber ich...

41

ValueError: Eingabe enthält NaN, unendlich oder einen für dtype zu großen Wert ('float32')

Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler:...

python random-forest pandas

29

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

28

Understanding predict_proba von MultiOutputClassifier

Ich folge diesem Beispiel auf der Website von scikit-learn, um eine Multi-Output-Klassifizierung mit einem Random Forest-Modell durchzuführen. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier...

scikit-learn random-forest multilabel-classification

28

Wann soll Random Forest über SVM und umgekehrt verwendet werden?

Wenn würde man verwenden , Random Forestüber , SVMund umgekehrt? Ich verstehe das cross-validationund der Modellvergleich ist ein wichtiger Aspekt bei der Auswahl eines Modells, aber hier möchte ich mehr über Faustregeln und Heuristiken der beiden Methoden erfahren. Kann jemand bitte die...

machine-learning classification random-forest svm

25

Warum brauchen wir XGBoost und Random Forest?

Bei einigen Konzepten war mir nicht klar: XGBoost wandelt schwache Lernende in starke Lernende um. Was ist der Vorteil davon? Kombinieren Sie viele schwache Lernende, anstatt nur einen einzigen Baum zu verwenden? Random Forest verwendet verschiedene Stichproben aus einem Baum, um einen Baum zu...

machine-learning data-mining random-forest decision-trees xgboost

24

Überanpassung von Random Forest?

Ich habe über zufällige Wälder gelesen, aber ich kann keine endgültige Antwort auf das Problem der Überanpassung finden. Laut dem Originalpapier von Breiman sollten sie nicht überanpassen, wenn die Anzahl der Bäume im Wald erhöht wird, aber es scheint, dass es keinen Konsens darüber gibt. Dies...

machine-learning random-forest

23

Erfordert die Modellierung mit Random Forests eine Kreuzvalidierung?

Soweit ich gesehen habe, gehen die Meinungen darüber auseinander. Best Practice würde sicherlich die Verwendung von Kreuzvalidierung vorschreiben (insbesondere wenn RFs mit anderen Algorithmen auf demselben Datensatz verglichen werden). Andererseits besagt die ursprüngliche Quelle, dass die...

random-forest cross-validation

16

Wie kann die Genauigkeit von Klassifikatoren erhöht werden?

Ich benutze das OpenCV-Beispiel letter_recog.cpp, um mit zufälligen Bäumen und anderen Klassifikatoren zu experimentieren. In diesem Beispiel sind sechs Klassifikatoren implementiert - Random Tree, Boosting, MLP, kNN, naive Bayes und SVM. Es wird ein UCI-Brieferkennungsdatensatz mit 20000 Instanzen...

machine-learning classification svm accuracy random-forest

16

Wählen Sie einen binären Klassifizierungsalgorithmus

Ich habe ein Problem mit der binären Klassifizierung: Ca. 1000 Proben im Trainingsset 10 Attribute, einschließlich binär, numerisch und kategorisch Welcher Algorithmus ist die beste Wahl für diese Art von Problem? Standardmäßig beginne ich mit SVM (vorläufig werden die nominalen Attributwerte in...

classification binary svm random-forest logistic-regression

16

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

14

RandomForestClassifier OOB-Bewertungsmethode

Wird die zufällige Gesamtstrukturimplementierung in scikit-learn unter Verwendung der mittleren Genauigkeit als Bewertungsmethode zum Schätzen des Generalisierungsfehlers mit Out-of-Bag-Stichproben verwendet? Dies wird in der Dokumentation nicht erwähnt, aber die score () -Methode gibt die mittlere...

random-forest scikit-learn

14

Ist eine geschichtete Stichprobe erforderlich (zufällige Gesamtstruktur, Python)?

Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht....

machine-learning python random-forest sampling training

13

Die Wichtigkeit von Features beim Lernen mit dem Scikit Random Forest zeigt eine sehr hohe Standardabweichung

Ich verwende den Random Forest Classifier von scikit-learn und möchte die Wichtigkeit von Features wie in diesem Beispiel darstellen . Mein Ergebnis ist jedoch völlig anders, in dem Sinne, dass die Standardabweichung der Merkmalsbedeutung fast immer größer ist als die Merkmalsbedeutung selbst...

python random-forest

13

Zufällige Onlinewälder durch Hinzufügen weiterer einzelner Entscheidungsbäume

Ein Random Forest (RF) wird von einem Ensemble von Decision Trees (DT) erstellt. Durch die Verwendung von Bagging wird jeder DT in einer anderen Datenuntermenge trainiert. Gibt es also eine Möglichkeit, eine zufällige Online-Gesamtstruktur zu implementieren, indem neue Daten mit mehr...

random-forest online-learning

13

Wie viele Features sollen mit Random Forests getestet werden?

Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es: Für ein Klassifizierungsproblem mit Merkmalen gilt in der Regel ⌊ √ppp -Funktionen werden in jeder Aufteilung verwendet.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Ich verstehe, dass dies eine ziemlich gut fundierte...

statistics random-forest optimization evaluation sampling

12

Feature-Auswahl mithilfe von Feature-Wichtigkeiten in zufälligen Gesamtstrukturen mit Scikit-Learn

Ich habe die Feature-Wichtigkeiten in zufälligen Wäldern mit Scikit-Learn aufgezeichnet . Wie kann ich die Plotinformationen zum Entfernen von Features verwenden, um die Vorhersage mithilfe zufälliger Gesamtstrukturen zu verbessern? Dh wie kann man anhand der Plotinformationen erkennen, ob ein...

feature-selection random-forest scikit-learn

12

Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung...

scikit-learn feature-selection random-forest xgboost categorical-data

12

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

11

Unausgeglichene Klassen - Wie kann man falsch negative Ergebnisse minimieren?

Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ). Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative...

classification random-forest decision-trees unbalanced-classes