Als «data-mining» getaggte Fragen

Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

25
Gini-Koeffizient gegen Gini-Verunreinigung - Entscheidungsbäume

Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der...

24
Bedeutung latenter Merkmale?

Ich lerne etwas über Matrixfaktorisierung für Empfehlungssysteme und sehe, dass der Begriff latent featureszu häufig vorkommt, verstehe aber nicht, was er bedeutet. Ich weiß, was ein Feature ist, aber ich verstehe die Idee latenter Features nicht. Könnten Sie es bitte erklären? Oder zeigst du mir...

22
Ist Data Science dasselbe wie Data Mining?

Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining...

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...