Als «k-means» getaggte Fragen

13

Was machst du, wenn es keinen Ellbogenpunkt für kmeans Clustering gibt?

Ich habe gelernt, dass Sie bei der Auswahl einer Reihe von Clustern nach einem Ellbogenpunkt für verschiedene Werte von K suchen sollten. Ich habe die Werte von withinss für Werte von k von 1 bis 10 geplottet, sehe aber kein klares Ellbogen. Was machst du in so einem Fall?

clustering k-means

13

Initialisierung von K-Means-Zentren durch zufällige Unterproben des Datensatzes?

Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den...

clustering k-means unsupervised-learning

12

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Woher weiß ich, dass mein k-means Clustering-Algorithmus unter dem Fluch der Dimensionalität leidet?

Ich glaube, dass der Titel dieser Frage alles sagt.

clustering k-means high-dimensional

12

Interpretation des Ergebnisses der k-Mittel-Clusterbildung in R.

Ich habe die kmeansAnweisung von R verwendet, um den k-means-Algorithmus für Andersons Iris-Datensatz durchzuführen. Ich habe eine Frage zu einigen Parametern, die ich erhalten habe. Die Ergebnisse sind: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000...

r machine-learning clustering interpretation k-means

12

Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?

Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz...

distributions clustering feature-selection kolmogorov-smirnov k-means

12

k-bedeutet || aka Scalable K-Means ++

Bahman Bahmani et al. Einführung von k-means ||, einer schnelleren Version von k-means ++. Dieser Algorithmus stammt von Seite 4 ihrer Veröffentlichung Bahmani, B., Moseley, B., Vattani, A., Kumar, R. und Vassilvitskii, S. (2012). Skalierbares k-means ++. Verfahren der VLDB-Stiftung , 5 (7),...

clustering k-means

11

Welchen Algorithmus sollte ich verwenden, um einen großen binären Datensatz in wenige Kategorien zu gruppieren?

Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe nicht verarbeiten....

clustering dataset k-means binary-data

11

Gibt es Fälle, in denen es in k-means kein optimales k gibt?

Das ist mir seit mindestens ein paar Stunden in den Sinn gekommen. Ich habe versucht, ein optimales k für die Ausgabe des k-means-Algorithmus (mit einer Kosinus-Ähnlichkeitsmetrik ) zu finden, also habe ich die Verzerrung als Funktion der Anzahl der Cluster aufgetragen. Mein Datensatz ist eine...

machine-learning clustering k-means

11

Clustering von sehr verzerrten Zähldaten: Gibt es Vorschläge (Transformation usw.)?

Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr...

clustering data-transformation k-means count-data compositional-data

11

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

10

Clustering als Dimensionsreduktion

Ich lese ein Buch "Maschinelles Lernen mit Funken" von Nick Pentreath und auf Seite 224-225 diskutiert der Autor über die Verwendung von K-Mitteln als Form der Dimensionsreduktion. Ich habe diese Art der Dimensionsreduktion noch nie gesehen. Hat sie einen Namen oder / und ist sie für bestimmte...

clustering k-means dimensionality-reduction

10

Ein Beispiel, bei dem sich die Ausgabe des k-Medoid-Algorithmus von der Ausgabe des k-Mittelwert-Algorithmus unterscheidet

Ich verstehe den Unterschied zwischen k medoid und k means. Aber können Sie mir ein Beispiel mit einem kleinen Datensatz geben, bei dem sich die k-Medoid-Ausgabe von der k-Mittelwert-Ausgabe

k-means k-medoids

10

Unterschied zwischen PCA und spektraler Clusterbildung für einen kleinen Satz von Booleschen Merkmalen

Ich habe einen Datensatz von 50 Proben. Jede Stichprobe besteht aus 11 (möglicherweise korrelierten) Booleschen Merkmalen. Ich möchte einige Beispiele für die Visualisierung dieser Beispiele in einem 2D-Diagramm geben und untersuchen, ob sich unter den 50 Beispielen Cluster / Gruppierungen...

clustering data-visualization pca k-means spectral-analysis

10

Optimale Anzahl von Komponenten in einer Gaußschen Mischung

Eine "Vorstellung" von der optimalen Anzahl von Clustern in k-means zu bekommen, ist also gut dokumentiert. Ich habe einen Artikel darüber in Gaußschen Gemischen gefunden, bin mir aber nicht sicher, ob ich davon überzeugt bin, verstehe ihn nicht sehr gut. Gibt es eine ... sanftere Möglichkeit, dies...

classification k-means mixture unsupervised-learning

10

k-bedeutet vs k-bedeutet ++

Soweit ich weiß, wählt k-means die Anfangszentren zufällig aus. Da sie auf purem Glück basieren, können sie wirklich schlecht ausgewählt werden. Der K-means ++ Algorithmus versucht, dieses Problem zu lösen, indem er die Anfangszentren gleichmäßig verteilt. Garantieren die beiden Algorithmen die...

k-means

10

Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

K-Mittelwerte für Kosinusähnlichkeiten vs. euklidischen Abstand (LSA)

Ich verwende die latente semantische Analyse, um einen Korpus von Dokumenten im Raum niedrigerer Dimensionen darzustellen. Ich möchte diese Dokumente mit k-means in zwei Gruppen zusammenfassen. Vor einigen Jahren habe ich dies mit Pythons Gensim gemacht und meinen eigenen k-means-Algorithmus...

k-means svd lsa cosine-distance cosine-similarity

10

Zuweisen von Klassenbezeichnungen zu k-means-Clustern

Ich habe eine sehr grundlegende Frage zum Clustering. Wie interpretiere ich die Klassen der Datenpunkte, die ich geclustert habe (nachdem ich jedem Cluster aussagekräftige Klassenbezeichnungen zugewiesen habe), nachdem ich k Cluster mit ihren Schwerpunkten gefunden habe? Ich spreche nicht von der...

k-means

10

K-bedeutet: Wie viele Iterationen in praktischen Situationen?

Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine...

clustering data-mining k-means convergence large-data