Als «scikit-learn» getaggte Fragen

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

15
Satzähnlichkeitsvorhersage

Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a new mailbox"...

14
Wie funktioniert SelectKBest?

Ich schaue mir dieses Tutorial an: https://www.dataquest.io/mission/75/improving-your-submission In Abschnitt 8, in dem die besten Funktionen gefunden werden, wird der folgende Code angezeigt. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass",...

14
RandomForestClassifier OOB-Bewertungsmethode

Wird die zufällige Gesamtstrukturimplementierung in scikit-learn unter Verwendung der mittleren Genauigkeit als Bewertungsmethode zum Schätzen des Generalisierungsfehlers mit Out-of-Bag-Stichproben verwendet? Dies wird in der Dokumentation nicht erwähnt, aber die score () -Methode gibt die mittlere...

12
Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

12
Pandas Dataframe zu DMatrix

Ich versuche xgboost in scikit learn auszuführen. Und ich benutze Pandas nur, um Daten in den Datenrahmen zu laden. Wie soll ich pandas df mit xgboost verwenden? Ich bin verwirrt von der DMatrix-Routine, die zum Ausführen von xgboost algo erforderlich

12
Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung...

11
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...