Als «clustering» getaggte Fragen

44

Ist es wichtig, Daten vor dem Clustering zu skalieren?

Ich habe dieses Tutorial gefunden , das vorschlägt, dass Sie die Skalierungsfunktion für Features vor dem Clustering ausführen sollten (ich glaube, dass sie Daten in Z-Scores konvertiert). Ich frage mich, ob das notwendig ist. Ich frage hauptsächlich, weil es einen schönen Ellbogenpunkt gibt, wenn...

clustering k-means

42

Wie erkenne ich eine Community in einem gewichteten sozialen Netzwerk / Diagramm?

Ich frage mich, ob jemand vorschlagen könnte, was gute Ausgangspunkte für die Community-Erkennung / Diagrammaufteilung / -Clusterung in einem Diagramm mit gewichteten , ungerichteten Kanten sind. Das fragliche Diagramm hat ungefähr 3 Millionen Kanten und jede Kante drückt den Ähnlichkeitsgrad...

clustering data-visualization networks partitioning modularity

40

Dynamisches Time Warping Clustering

Was wäre der Ansatz, um mithilfe von Dynamic Time Warping (DTW) ein Clustering von Zeitreihen durchzuführen? Ich habe über DTW gelesen, um Ähnlichkeiten zwischen zwei Zeitreihen zu finden, während sie zeitlich verschoben werden könnten. Kann ich diese Methode als Ähnlichkeitsmaß für...

time-series clustering

38

Zeitreihe 'Clustering' in R

Ich habe eine Reihe von Zeitreihendaten. Jede Serie deckt den gleichen Zeitraum ab, obwohl die tatsächlichen Daten in jeder Zeitreihe möglicherweise nicht alle genau aufeinander abgestimmt sind. Das heißt, wenn die Zeitreihe in eine 2D-Matrix eingelesen würde, würde dies ungefähr so aussehen:...

r time-series clustering cointegration

35

Wie wähle ich eine Clustering-Methode aus? Wie validiere ich eine Cluster-Lösung (um die Wahl der Methode zu rechtfertigen)?

Eines der größten Probleme bei der Clusteranalyse ist, dass wir möglicherweise unterschiedliche Schlussfolgerungen ziehen müssen, wenn wir auf unterschiedlichen verwendeten Clustering-Methoden (einschließlich unterschiedlicher Verknüpfungsmethoden bei hierarchischem Clustering) basieren. Ich möchte...

clustering validation model-evaluation hierarchical-clustering

34

Wie interpretiere ich den Mittelwert der Silhouette?

Ich versuche, Silhouette Plot zu verwenden, um die Anzahl der Cluster in meinem Datensatz zu bestimmen. Angesichts des Datensatzes Train habe ich den folgenden Matlab-Code verwendet Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =

data-visualization clustering matlab

34

Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?

Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Hierarchisches Clustering mit gemischten Datentypen - Welche Entfernung / Ähnlichkeit ist zu verwenden?

In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist

clustering similarities distance-functions mixed-type-data

34

Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?

In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet,...

classification clustering pca dimensionality-reduction tsne

33

Clustering eines Datensatzes mit diskreten und kontinuierlichen Variablen

Ich habe einen Datensatz X mit 10 Dimensionen, von denen 4 diskrete Werte sind. Tatsächlich sind diese 4 diskreten Variablen ordinal, dh ein höherer Wert impliziert eine höhere / bessere Semantik. 2 dieser diskreten Variablen sind in dem Sinne kategorisch, dass für jede dieser Variablen der...

clustering k-means discrete-data continuous-data gaussian-mixture

33

(Warum) Ist Kohonen-SOM in Ungnade gefallen?

Soweit ich das beurteilen kann, hatten SOMs im Kohonen-Stil um 2005 einen Höhepunkt und sahen in letzter Zeit nicht so viel Gefallen. Ich habe keine Veröffentlichung gefunden, die besagt, dass SOMs durch eine andere Methode subsumiert wurden oder mit etwas anderem gleichwertig sind (jedenfalls in...

clustering self-organizing-maps

32

Auswahl der richtigen Verknüpfungsmethode für hierarchisches Clustering

Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und...

clustering distance unsupervised-learning hierarchical-clustering

32

Wie würde PCA bei einer k-means Clustering-Analyse helfen?

Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele...

clustering pca k-means dimensionality-reduction

32

Welche Stop-Kriterien für agglomeratives hierarchisches Clustering werden in der Praxis verwendet?

Ich habe umfangreiche Literatur gefunden, die alle möglichen Kriterien vorschlägt (z . B. Glenn et al. 1985 (pdf) und Jung et al. 2002 (pdf)). Die meisten davon sind jedoch nicht so einfach zu implementieren (zumindest aus meiner Sicht). Ich verwende scipy.cluster.hierarchy , um eine...

clustering

31

Bündelung einer langen Liste von Zeichenfolgen (Wörtern) in Ähnlichkeitsgruppen

Ich habe das folgende Problem zur Hand: Ich habe eine sehr lange Liste von Wörtern, möglicherweise Namen, Nachnamen usw. Ich muss diese Wortliste so gruppieren, dass ähnliche Wörter, zum Beispiel Wörter mit ähnlichem Bearbeitungsabstand (Levenshtein), in der Liste angezeigt werden gleichen Cluster....

clustering k-means pattern-recognition

30

Latent Class Analysis vs. Cluster Analysis - Unterschiede in den Schlussfolgerungen?

Was sind die Unterschiede in den Schlussfolgerungen, die aus einer Latent Class Analysis (LCA) gegenüber einer Cluster-Analyse gezogen werden können? Ist es richtig, dass eine Ökobilanz eine zugrunde liegende latente Variable annimmt, die zu den Klassen führt, während die Clusteranalyse eine...

clustering latent-variable latent-class

29

Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit =

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Vergleich hierarchischer Cluster-Dendrogramme, die mit unterschiedlichen Entfernungen und Methoden erhalten wurden

[Der ursprüngliche Titel "Ähnlichkeitsmessung für hierarchische Clusterbäume" wurde später von @ttnphns geändert, um das Thema besser widerzuspiegeln.] Ich führe eine Reihe von hierarchischen Clusteranalysen für einen Datenrahmen von Patientenakten durch (z. B. ähnlich wie...

r clustering distance-functions similarities dendrogram

28

Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen

Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen...

clustering data-mining algorithms k-means