Als «clustering» getaggte Fragen

16

Annahmen der Clusteranalyse

Entschuldigung für die rudimentäre Frage, ich bin neu in dieser Form der Analyse und habe ein sehr begrenztes Verständnis der Prinzipien bis jetzt. Ich habe mich nur gefragt, ob viele der parametrischen Annahmen für multivariate / univariate Tests für die Clusteranalyse zutreffen. Viele der...

clustering assumptions

16

Warum gibt k-means nicht das globale Minimum an?

Ich habe gelesen, dass der k-means-Algorithmus nur zu einem lokalen Minimum und nicht zu einem globalen Minimum konvergiert. Warum ist das? Ich kann mir logischerweise vorstellen, wie sich die Initialisierung auf das endgültige Clustering auswirken könnte, und es besteht die Möglichkeit eines...

clustering k-means convergence gradient-descent minimum

16

Wann kombinieren wir Dimensionsreduktion mit Clustering?

Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis)...

clustering pca dimensionality-reduction text-mining svd

16

Clustering von 1D-Daten

Ich habe einen Datensatz, ich möchte Cluster auf diesen Daten basierend auf nur einer Variablen erstellen (es fehlen keine Werte). Ich möchte 3 Cluster basierend auf dieser einen Variablen erstellen. Welcher Clustering-Algorithmus soll verwendet werden, k-means, EM, DBSCAN usw.? Meine Hauptfrage...

clustering

16

Welchen Algorithmus implementiert ward.D in hclust (), wenn es nicht das Kriterium von Ward ist?

Die von der Option "ward.D" verwendete (entspricht der einzigen Ward-Option "ward" in R-Versionen <= 3.0.3) implementiert das Ward-Clustering-Kriterium (1963) nicht, wohingegen die Option "ward.D2" dieses Kriterium implementiert ( Murtagh und Legendre 2014). (

r clustering ward

15

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket:

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?

Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein...

hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

15

Clustering: Soll ich die Jensen-Shannon-Divergenz oder deren Quadrat verwenden?

Ich bündele Wahrscheinlichkeitsverteilungen mit dem Affinitätsausbreitungsalgorithmus und plane, Jensen-Shannon-Divergenz als Distanzmetrik zu verwenden. Ist es richtig, JSD selbst als Distanz zu verwenden oder JSD im Quadrat? Warum? Welche Unterschiede würden sich aus der Wahl des einen oder...

machine-learning clustering entropy distance-functions

15

Ist es in Ordnung, Manhattan-Distanz mit der Cluster-Verknüpfung von Ward in hierarchischen Clustern zu verwenden?

Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...], die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert: eine Distanzmatrix D Der Name der Methode, die zur...

clustering distance-functions ward

15

Wie zeichnet man die Datenausgabe des Clusters?

Ich habe versucht, eine Reihe von Daten (eine Reihe von Markierungen) zu gruppieren und habe 2 Cluster erhalten. Ich möchte es grafisch darstellen. Etwas verwirrt über die Darstellung, da ich die (x, y) Koordinaten nicht habe. Suchen Sie auch nach der MATLAB / Python-Funktion, um dies zu tun....

clustering data-visualization python

15

Anpassen des Mischungsmodells für das Clustering

Ich habe zwei Variablen - X und Y und ich muss den Cluster maximal (und optimal) = 5 machen. Der ideale Plot von Variablen sieht folgendermaßen aus: Ich würde gerne 5 Cluster daraus machen. Etwas wie das: Daher denke ich, dass dies ein Mischungsmodell mit 5 Clustern ist. Jeder Cluster hat...

r clustering gaussian-mixture

15

Text Mining: Wie gruppiert man Texte (zB Nachrichtenartikel) mit künstlicher Intelligenz?

Ich habe einige neuronale Netze (MLP (vollständig verbunden), Elman (wiederkehrend)) für verschiedene Aufgaben aufgebaut, z. B. zum Spielen von Pong, zum Klassifizieren handgeschriebener Ziffern und anderer Dinge ... Zusätzlich habe ich versucht, einige erste Faltungs-Neuronale Netze aufzubauen,...

clustering neural-networks feature-selection text-mining self-organizing-maps

15

Wie berechne ich die Reinheit?

Wie berechnen wir in der Clusteranalyse die Reinheit? Wie lautet die Gleichung? Ich suche keinen Code, um das für mich zu tun. Sei ωkωk\omega_k der Cluster k und cjcjc_j die Klasse j. Ist Reinheit also praktisch genau? Es sieht so aus, als würde die Menge der wirklich klassifizierten Klassen pro...

clustering

15

Was ist eine gute Methode für das Kurztext-Clustering?

Ich arbeite an einem Text-Clustering-Problem. Die Daten enthalten mehrere Sätze. Gibt es einen guten Algorithmus, der bei kurzen Texten eine hohe Genauigkeit erzielt? Können Sie gute Referenzen vorlegen? Algorithmen wie KMeans und Spectral Clustering funktionieren für dieses Problem nicht gut....

machine-learning clustering text-mining

15

Zeitreihen- und Anomalieerkennung

Ich möchte einen Algorithmus zum Erkennen einer Anomalie in Zeitreihen einrichten und plane, dafür Clustering zu verwenden. Warum sollte ich eine Distanzmatrix für das Clustering verwenden und nicht die rohen Zeitreihendaten ?, Zum Erkennen der Anomalie verwende ich Dichtebasiertes Clustering,...

time-series clustering trend

15

Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab

Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

14

Gibt es nicht entfernungsbasierte Clustering-Algorithmen?

Es scheint, dass für K-means und andere verwandte Algorithmen das Clustering auf der Berechnung des Abstands zwischen Punkten basiert. Gibt es eine, die ohne

machine-learning clustering data-mining k-means

14

Dirichlet-Prozesse für Clustering: Wie gehe ich mit Etiketten um?

F: Was ist die Standardmethode zum Clustering von Daten mithilfe eines Dirichlet-Prozesses? Bei Verwendung von Gibbs treten während der Probenahme Cluster auf und verschwinden. Außerdem haben wir ein Identifizierungsproblem, da die posteriore Verteilung für Cluster-Relabelings nicht relevant ist....

bayesian clustering mcmc dirichlet-process identifiability

14

k-bedeutet Implementierung mit benutzerdefinierter Distanzmatrix in der Eingabe

Kann mich jemand auf eine k-means-Implementierung hinweisen (besser in matlab), die die Distanzmatrix als Eingabe verwenden kann? Die Standard-Matlab-Implementierung benötigt die Beobachtungsmatrix als Eingabe und es ist nicht möglich, das Ähnlichkeitsmaß benutzerdefiniert zu ändern....

clustering matlab k-means

14

k-bedeutet vs k-Median?

Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche

clustering k-means