Als «clustering» getaggte Fragen

10

Müssen wir einen Trainingssatz und einen Testsatz für das Clustering festlegen?

Wenn wir Klassifizierungen und Regressionen durchführen, legen wir normalerweise Test- und Trainingssätze fest, um Modelle zu erstellen und zu verbessern. Müssen wir beim Clustering jedoch auch Test- und Trainingssätze festlegen?

machine-learning clustering unsupervised-learning

10

Methoden zur Initialisierung der K-Mittel-Clusterbildung

Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means...

clustering k-means

10

Wie werden longitudinale Variablen gruppiert?

Ich habe eine Reihe von Variablen, die Längsschnittdaten von Tag 0 bis Tag 7 enthalten. Ich suche nach einem geeigneten Clustering-Ansatz, mit dem diese Längsschnittvariablen (keine Fälle) in verschiedene Gruppen gruppiert werden können. Ich habe versucht, diesen Datensatz zeitlich getrennt zu...

clustering

10

Clustering-Verteilungen

Ich habe mehrere Verteilungen (10 Verteilungen in der Abbildung unten). Tatsächlich handelt es sich um Histogramme: Auf der x-Achse gibt es 70 Werte, die die Größe einiger Partikel in einer Lösung darstellen, und für jeden Wert von x ist der entsprechende Wert von y der Anteil der Partikel, deren...

clustering

10

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Clustering als Mittel zur Aufteilung von Daten für die logistische Regression

Ich versuche, den Erfolg oder Misserfolg von Schülern anhand einiger Funktionen mit einem logistischen Regressionsmodell vorherzusagen. Um die Leistung des Modells zu verbessern, habe ich bereits darüber nachgedacht, die Schüler anhand offensichtlicher Unterschiede in verschiedene Gruppen...

clustering data-mining logistic

10

Erkennen von Clustern „ähnlicher“ Quellcodes

Angenommen, ich habe 400 Studenten (das ist an einer großen Universität), die ein Informatikprojekt durchführen müssen und die alleine arbeiten müssen (keine Gruppe von Studenten). Ein Beispiel für ein Projekt könnte sein, "einen schnellen Fourier-Transformations-Algorithmus in fortran zu...

hypothesis-testing clustering

10

Zur kophenetischen Korrelation für das Dendrogramm-Clustering

Betrachten Sie den Kontext eines Dendrogramm-Clusters. Nennen wir ursprüngliche Unterschiede die Abstände zwischen den Individuen. Nach der Erstellung des Dendrogramms definieren wir die kophenetische Unähnlichkeit zwischen zwei Individuen als den Abstand zwischen den Clustern, zu denen diese...

clustering classification

10

Bewertung von Clustern von Markov-Ketten erster Ordnung

Ich habe meinen Datensatz mit mehreren tausend Markov-Ketten erster Ordnung in etwa 10 Cluster zusammengefasst. Gibt es eine empfohlene Methode, wie ich diese Cluster bewerten und herausfinden kann, was die Elemente in den Clustern gemeinsam haben und wie sie sich von anderen Clustern...

data-visualization clustering markov-process

10

Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

Bedeuten geringe Silhouettenbreiten, dass den Daten nur eine geringe Struktur zugrunde liegt?

Ich bin neu in der Sequenzanalyse und habe mich gefragt, wie Sie reagieren, wenn die durchschnittlichen Silhouettenbreiten (ASW) aus Clusteranalysen von auf Optimal Matching basierenden Unähnlichkeitsmatrizen niedrig sind (ca. 25). Wäre es angebracht zu folgern, dass es wenig zugrunde liegende...

clustering traminer

10

Wie gruppiere ich automatisch eine U-Matrix?

Nach dem Training einer selbstorganisierenden Karte kann man die U-Matrix berechnen . Es gibt einige Tools , um es manuell zu visualisieren und Cluster zu identifizieren, aber ich frage mich, ob es einen Algorithmus gibt, der diesen Prozess automatisch ausführt (dh keinen Menschen, der die Figur...

clustering image-processing self-organizing-maps

10

Mit welchen statistischen Methoden kann ich beliebte oder häufig verwendete Kombinationen kategorialer Variablen finden?

Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in...

hypothesis-testing clustering combinatorics association-measure association-rules

10

Finden einer bekannten Anzahl von Kreismittelpunkten, die die Anzahl von Punkten innerhalb eines festen Abstands maximieren

Ich habe einen Satz von 2D-Daten, in denen ich die Zentren einer bestimmten Anzahl von Kreismittelpunkten ( ) finden möchte , die die Gesamtzahl der Punkte innerhalb eines bestimmten Abstands ( ) maximieren .NNNRRR Ich habe zB 10.000 Datenpunkte und möchte die Zentren von Kreisen finden, die so...

r clustering distance

10

So erhalten Sie das Konfidenzintervall für die Änderung des Populations-R-Quadrats

Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte...

regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

10

PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden

Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste,...

bayesian clustering python pymc nonparametric-bayes

10

Was bedeutet total ss und zwischen ss beim k-means Clustering?

Ich bin sehr neu in der Clusteranalyse. Ich benutze R für k-means Clustering und frage mich, was diese Dinge sind. Und was ist besser, wenn ihr Verhältnis kleiner oder größer

clustering

10

Wie soll ich die GAP-Statistik interpretieren?

Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte. Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige...

clustering

10

K-bedeutet: Wie viele Iterationen in praktischen Situationen?

Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine...

clustering data-mining k-means convergence large-data

10

Ansatz und Beispiel für das Clustering von Graphen in „R“

Ich möchte Knoten in einem Diagramm mithilfe von Diagrammclustern in 'r' gruppieren / zusammenführen. Hier ist eine erstaunlich spielerische Variante meines Problems. Es gibt zwei "Cluster" Es gibt eine "Brücke", die die Cluster verbindet Hier ist ein Kandidatennetzwerk: Wenn ich mir die...

r clustering data-visualization numerics