Als «clustering» getaggte Fragen

Clusteranalyse oder Clustering ist die Aufgabe, eine Gruppe von Objekten so zu gruppieren, dass Objekte in derselben Gruppe (als Cluster bezeichnet) einander (in gewissem Sinne) ähnlicher sind als Objekte in anderen Gruppen (Cluster). . Es ist eine Hauptaufgabe des explorativen Data Mining und eine gängige Technik zur statistischen Datenanalyse, die in vielen Bereichen eingesetzt wird, einschließlich maschinellem Lernen, Mustererkennung, Bildanalyse, Informationsabruf usw.

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

17
Clustering basierend auf Ähnlichkeitswerten

Es sei angenommen , dass wir eine Reihe von Elementen haben E und eine Ähnlichkeit ( nicht Abstand ) Funktion sim (ei, ej) zwischen zwei Elementen ei, ej ∈ E . Wie können wir die Elemente von E mit sim (effizient) clustern ? k - bedeutet zum Beispiel, dass ein gegebenes k erforderlich ist, für das...

17
Algorithmen für das Textclustering

Ich habe ein Problem damit, eine große Menge von Sätzen nach ihrer Bedeutung in Gruppen zusammenzufassen. Dies ähnelt einem Problem, wenn Sie viele Sätze haben und diese nach ihrer Bedeutung gruppieren möchten. Welche Algorithmen werden dazu vorgeschlagen? Ich kenne die Anzahl der Cluster im Voraus...

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

15
K-Means vs. Online K-Means

K-means ist ein bekannter Algorithmus zum Clustering, aber es gibt auch eine Online-Variante eines solchen Algorithmus (online K-means). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt

15
Gruppieren eindeutiger Besucher nach Useragent, IP, Sitzungs-ID

Wenn Sie die Zugriffsdaten für die Website im Formular session_id, ip, user_agentund optional den Zeitstempel gemäß den folgenden Bedingungen angegeben haben, wie würden Sie die Sitzungen am besten zu eindeutigen Besuchern zusammenfassen? session_id: ist ein Ausweis, der jedem neuen Besucher...

14
Schneller Algorithmus für 10 ^ 10 Punkte?

Ich versuche k-means Clustering auf einer Menge von 10-dimensionalen Punkten durchzuführen. Der Haken: Es gibt 10 ^ 10 Punkte . Ich suche nur die Mitte und Größe der größten Cluster (sagen wir 10 bis 100 Cluster); Es ist mir egal, in welchem ​​Cluster jeder Punkt endet. Die Verwendung von k-means...

12
MinHashing vs SimHashing

Angenommen, ich habe fünf Gruppen, die ich gruppieren möchte. Ich verstehe, dass die hier beschriebene SimHashing-Technik: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ergeben könnte drei Cluster ( {A}, {B,C,D}und {E}), zum Beispiel, wenn seine Ergebnisse sind: A...