Als «scikit-learn» getaggte Fragen

16

Was ist der Grund für die Protokolltransformation weniger kontinuierlicher Variablen?

Ich habe ein Klassifizierungsproblem gemacht und den Code und die Tutorials vieler Leute gelesen. Eine Sache, die mir aufgefallen ist, ist, dass viele Leute nehmen np.logoder logvon stetigen Variablen wie loan_amountoder applicant_incomeusw. Ich möchte nur den Grund dahinter verstehen. Hilft es,...

16

Wo im Workflow sollten wir mit fehlenden Daten umgehen?

Ich erstelle einen Workflow zum Erstellen von Modellen für maschinelles Lernen (in meinem Fall mit Python pandasund sklearnPaketen) aus Daten, die aus einer sehr großen Datenbank (hier Vertica über SQL und pyodbc) abgerufen wurden , und ein wichtiger Schritt in diesem Prozess besteht darin,...

machine-learning python pandas scikit-learn

16

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

Satzähnlichkeitsvorhersage

Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a new mailbox"...

python nlp scikit-learn similarity text

15

Wie kann ich die Korrelation zwischen Features und Zielvariable überprüfen?

Ich versuche, ein RegressionModell zu erstellen , und suche nach einer Möglichkeit, um zu überprüfen, ob eine Korrelation zwischen Features und Zielvariablen besteht. Dies ist meine Probe dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0...

machine-learning scikit-learn regression linear-regression

14

Wie funktioniert SelectKBest?

Ich schaue mir dieses Tutorial an: https://www.dataquest.io/mission/75/improving-your-submission In Abschnitt 8, in dem die besten Funktionen gefunden werden, wird der folgende Code angezeigt. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass",...

python scikit-learn

14

RandomForestClassifier OOB-Bewertungsmethode

Wird die zufällige Gesamtstrukturimplementierung in scikit-learn unter Verwendung der mittleren Genauigkeit als Bewertungsmethode zum Schätzen des Generalisierungsfehlers mit Out-of-Bag-Stichproben verwendet? Dies wird in der Dokumentation nicht erwähnt, aber die score () -Methode gibt die mittlere...

random-forest scikit-learn

12

Massenkonvertierung kategorialer Spalten in Pandas (keine One-Hot-Codierung)

Ich habe einen Pandas-Datenrahmen mit Tonnen von kategorialen Spalten, die ich im Entscheidungsbaum mit Scikit-Learn verwenden möchte. Ich muss sie in numerische Werte konvertieren (nicht einen heißen Vektor). Ich kann es mit LabelEncoder von scikit-learn machen. Das Problem ist, dass es zu viele...

scikit-learn pandas categorical-data labels

12

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Wann wird Standard Scaler verwendet und wann Normalizer?

Ich verstehe, was Standard Scalar macht und was Normalizer macht, gemäß der Scikit-Dokumentation: Normalizer , Standard Scaler . Ich weiß, wann Standard Scaler angewendet wird. Aber in welchem Szenario wird Normalizer angewendet? Gibt es Szenarien, in denen eines dem anderen vorgezogen...

python scikit-learn data-cleaning normalization

12

Pandas Dataframe zu DMatrix

Ich versuche xgboost in scikit learn auszuführen. Und ich benutze Pandas nur, um Daten in den Datenrahmen zu laden. Wie soll ich pandas df mit xgboost verwenden? Ich bin verwirrt von der DMatrix-Routine, die zum Ausführen von xgboost algo erforderlich

scikit-learn pandas xgboost

12

Verwendet scikit-learn standardmäßig die Regularisierung?

Ich habe gerade eine logistische Kurve an einige gefälschte Daten angepasst. Ich habe die Daten im Wesentlichen zu einer Schrittfunktion gemacht. data = -------------++++++++++++++ Aber wenn ich mir die angepasste Kurve anschaue, ist die Steigung sehr klein. Die Funktion, die die Kostenfunktion...

logistic-regression scikit-learn

12

Was ist der Unterschied zwischen cross_validate und cross_val_score?

Ich verstehe cross_validate und wie es funktioniert, aber jetzt bin ich verwirrt darüber, was cross_val_score tatsächlich tut. Kann mir jemand ein Beispiel

machine-learning scikit-learn

12

Feature-Auswahl mithilfe von Feature-Wichtigkeiten in zufälligen Gesamtstrukturen mit Scikit-Learn

Ich habe die Feature-Wichtigkeiten in zufälligen Wäldern mit Scikit-Learn aufgezeichnet . Wie kann ich die Plotinformationen zum Entfernen von Features verwenden, um die Vorhersage mithilfe zufälliger Gesamtstrukturen zu verbessern? Dh wie kann man anhand der Plotinformationen erkennen, ob ein...

feature-selection random-forest scikit-learn

12

Effiziente Dimensionsreduzierung für große Datenmengen

Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden...

python scikit-learn dimensionality-reduction

12

Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung...

scikit-learn feature-selection random-forest xgboost categorical-data

11

scikit-learn n_jobs-Parameter zur CPU-Auslastung und zum Arbeitsspeicher

In den meisten Schätzern für Scikit-Learn gibt es n_jobsin fit/ predictMethoden einen Parameter zum Erstellen paralleler Jobs mit joblib. Ich habe festgestellt, dass durch das Festlegen von -1nur 1 Python-Prozess die Kerne maximal genutzt werden und die CPU-Auslastung 2500% übersteigt. Dies...

python scikit-learn

11

Wie verwende ich Scikit-Learn Label Propagation für Daten mit Diagrammstruktur?

Im Rahmen meiner Forschung bin ich daran interessiert, die Etikettenausbreitung in einem Diagramm durchzuführen. Diese beiden Methoden interessieren mich besonders: Xiaojin Zhu und Zoubin Ghahramani. Lernen aus beschrifteten und unbeschrifteten Daten mit Etikettenausbreitung. Technischer Bericht...

scikit-learn graphs

11

Was ist der Unterschied zwischen einem Hashing-Vektorisierer und einem tfidf-Vektorisierer?

Ich konvertiere für jedes Dokument einen Korpus von Textdokumenten in Wortvektoren. Ich habe dies mit einem TfidfVectorizer und einem HashingVectorizer versucht Ich verstehe, dass a HashingVectorizerdie IDFPunktzahlen nicht wie a TfidfVectorizerberücksichtigt. Der Grund, warum ich immer noch mit a...

nlp scikit-learn text-mining tfidf

11

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision