Als «clustering» getaggte Fragen

365

Wie man die Nachteile von K-means versteht

K-means ist eine weit verbreitete Methode in der Clusteranalyse. Nach meinem Verständnis erfordert diese Methode KEINE Annahmen, dh, Sie geben mir einen Datensatz und eine vorgegebene Anzahl von Clustern, k, und ich wende nur diesen Algorithmus an, der die Summe der Fehlerquadrate (SSE) im Quadrat...

239

Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?

Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz...

machine-learning clustering distance-functions metric high-dimensional

110

Erkennen eines bestimmten Gesichts in einer Datenbank mit Gesichtsbildern

Ich arbeite an einem kleinen Projekt, das die Gesichter von Twitter-Nutzern über ihre Profilbilder einbezieht. Ein Problem, auf das ich gestoßen bin, ist, dass ein kleiner, aber bedeutender Prozentsatz der Twitter-Benutzer ein Bild von Justin Bieber als Profilbild verwendet, nachdem ich alle Bilder...

machine-learning clustering image-processing

78

Wie können Sie feststellen, ob die Daten so „geclustert“ sind, dass Clustering-Algorithmen aussagekräftige Ergebnisse liefern?

Woher wissen Sie, ob Ihre (hochdimensionalen) Daten genügend Clustering aufweisen, sodass Ergebnisse von kmeans oder anderen Clustering-Algorithmen tatsächlich von Bedeutung sind? Wie stark sollte die Varianz innerhalb eines Clusters reduziert werden, damit die tatsächlichen Cluster-Ergebnisse...

clustering k-means

78

Clustering auf der Ausgabe von t-SNE

Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar...

clustering interpretation k-means tsne

77

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

73

Auswählen einer Clustering-Methode

Wenn Sie die Clusteranalyse für einen Datensatz verwenden, um ähnliche Fälle zu gruppieren, müssen Sie aus einer Vielzahl von Clustermethoden und Entfernungsmaßen auswählen. Manchmal kann eine Wahl die andere beeinflussen, aber es gibt viele mögliche Kombinationen von Methoden. Hat jemand...

clustering distance-functions methodology

72

Euklidischer Abstand ist normalerweise nicht gut für spärliche Daten?

Ich habe irgendwo gesehen, dass klassische Entfernungen (wie die euklidische Entfernung) schwach diskriminierend werden, wenn wir mehrdimensionale und spärliche Daten haben. Warum? Haben Sie ein Beispiel für zwei spärliche Datenvektoren, bei denen die euklidische Distanz nicht gut funktioniert? In...

machine-learning clustering data-mining sparse euclidean

62

Warum verwendet der k-means Clustering-Algorithmus nur die euklidische Distanzmetrik?

Gibt es einen bestimmten Zweck in Bezug auf Effizienz oder Funktionalität, warum der k-means-Algorithmus zum Beispiel keine Cosinus- (Dis-) Ähnlichkeit als Distanzmetrik verwendet, sondern nur die euklidische Norm verwenden kann? Wird die K-means-Methode im Allgemeinen eingehalten und korrekt sein,...

clustering k-means distance-functions euclidean

61

Welche Beziehung besteht zwischen k-means Clustering und PCA?

Es ist gängige Praxis, PCA (Principal Component Analysis) vor einem Clustering-Algorithmus (z. B. k-means) anzuwenden. Es wird angenommen, dass es die Clustering-Ergebnisse in der Praxis verbessert (Rauschunterdrückung). Ich bin jedoch an einer vergleichenden und eingehenden Untersuchung der...

clustering pca k-means

61

Wo kann man ein Dendrogramm schneiden?

Hierarchisches Clustering kann durch ein Dendrogramm dargestellt werden. Wenn Sie ein Dendrogramm auf einer bestimmten Ebene ausschneiden, erhalten Sie eine Reihe von Clustern. Wenn Sie auf einer anderen Ebene schneiden, erhalten Sie eine andere Gruppe von Clustern. Wie würden Sie auswählen, wo das...

clustering dendrogram

54

Wie bestimme ich die richtige Anzahl von Clustern?

Wir finden die Cluster-Zentren und weisen k verschiedenen Cluster-Klassen Punkte zu. Dies ist ein sehr bekannter Algorithmus, der fast in jedem maschinellen Lernpaket im Netz zu finden ist. Aber der fehlende und wichtigste Teil meiner Meinung nach ist die Wahl eines korrekten k. Was ist der beste...

clustering k-means

52

Wie kann ein künstliches neuronales Netzwerk ANN für unbeaufsichtigtes Clustering verwendet werden?

Ich verstehe, wie artificial neural network (ANN)man mit Backpropogation überwacht trainieren kann, um die Anpassung zu verbessern, indem man den Fehler in den Vorhersagen verringert. Ich habe gehört, dass ein ANN für unbeaufsichtigtes Lernen verwendet werden kann, aber wie kann dies ohne...

clustering neural-networks unsupervised-learning self-organizing-maps

52

Clustering mit einer Distanzmatrix

Ich habe eine (symmetrische) Matrix M, die den Abstand zwischen jedem Knotenpaar darstellt. Zum Beispiel, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60...

clustering

52

Was ist der Unterschied zwischen Multiclass und Multilabel Problem

Was ist der Unterschied zwischen einem Problem mit mehreren Klassen und einem Problem mit mehreren

classification clustering terminology multi-class multilabel

50

Clustering mit K-Means und EM: Wie hängen sie zusammen?

Ich habe Algorithmen zum Clustering von Daten (unbeaufsichtigtes Lernen) untersucht: EM und k-means. Ich lese ständig Folgendes: k-means ist eine Variante von EM mit der Annahme, dass Cluster sphärisch sind. Kann jemand den obigen Satz erklären? Ich verstehe nicht, was sphärisch bedeutet und wie...

machine-learning clustering data-mining k-means expectation-maximization

48

Leistungsmetriken zur Bewertung unbeaufsichtigten Lernens

Gibt es in Bezug auf unbeaufsichtigtes Lernen (wie Clustering) Metriken zur Bewertung der

machine-learning clustering data-mining unsupervised-learning

47

Ist es möglich, Zeitreihencluster basierend auf der Kurvenform zu erstellen?

Ich habe Verkaufsdaten für eine Reihe von Filialen und möchte sie anhand der Form ihrer Kurven im Zeitverlauf kategorisieren. Die Daten sehen ungefähr so aus (sind aber offensichtlich nicht zufällig und enthalten einige fehlende Daten): n.quarters <- 100 n.stores <- 20 if...

r time-series clustering

46

Interpretation des log transformierten Prädiktors und / oder der Antwort

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als...

regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

44

Ist es wichtig, Daten vor dem Clustering zu skalieren?

Ich habe dieses Tutorial gefunden , das vorschlägt, dass Sie die Skalierungsfunktion für Features vor dem Clustering ausführen sollten (ich glaube, dass sie Daten in Z-Scores konvertiert). Ich frage mich, ob das notwendig ist. Ich frage hauptsächlich, weil es einen schönen Ellbogenpunkt gibt, wenn...

clustering k-means