Data Science

25
LightGBM vs XGBoost

Ich versuche zu verstehen, was besser ist (genauer, insbesondere bei Klassifizierungsproblemen) Ich habe nach Artikeln gesucht, die LightGBM und XGBoost vergleichen, aber nur zwei gefunden: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - es...

25
Gini-Koeffizient gegen Gini-Verunreinigung - Entscheidungsbäume

Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der...

24
Überanpassung von Random Forest?

Ich habe über zufällige Wälder gelesen, aber ich kann keine endgültige Antwort auf das Problem der Überanpassung finden. Laut dem Originalpapier von Breiman sollten sie nicht überanpassen, wenn die Anzahl der Bäume im Wald erhöht wird, aber es scheint, dass es keinen Konsens darüber gibt. Dies...

24
Irgendeine Online-R-Konsole?

Ich suche eine Online-Konsole für die Sprache R. Wie ich den Code schreibe und den Server ausführen soll und mir die Ausgabe liefern soll. Ähnlich wie auf der Website

24
Bedeutung latenter Merkmale?

Ich lerne etwas über Matrixfaktorisierung für Empfehlungssysteme und sehe, dass der Begriff latent featureszu häufig vorkommt, verstehe aber nicht, was er bedeutet. Ich weiß, was ein Feature ist, aber ich verstehe die Idee latenter Features nicht. Könnten Sie es bitte erklären? Oder zeigst du mir...

24
VM-Image für Data Science-Projekte

Da für datenwissenschaftliche Aufgaben zahlreiche Tools zur Verfügung stehen und es umständlich ist, alles zu installieren und ein perfektes System aufzubauen. Gibt es ein Linux / Mac OS-Image mit Python, R und anderen Open-Source-Data-Science-Tools, das für die Benutzer sofort verfügbar ist? Ein...

23
Wie verwende ich die Ausgabe von GridSearch?

Momentan arbeite ich mit Python und Scikit, lerne für Klassifizierungszwecke und lese etwas über GridSearch. Ich dachte, dies wäre eine großartige Möglichkeit, meine Schätzparameter zu optimieren, um die besten Ergebnisse zu erzielen. Meine Methodik ist folgende: Teilen Sie meine Daten in Training...