Als «clustering» getaggte Fragen

10
Methoden zur Initialisierung der K-Mittel-Clusterbildung

Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means...

10
Wie werden longitudinale Variablen gruppiert?

Ich habe eine Reihe von Variablen, die Längsschnittdaten von Tag 0 bis Tag 7 enthalten. Ich suche nach einem geeigneten Clustering-Ansatz, mit dem diese Längsschnittvariablen (keine Fälle) in verschiedene Gruppen gruppiert werden können. Ich habe versucht, diesen Datensatz zeitlich getrennt zu...

10
Clustering-Verteilungen

Ich habe mehrere Verteilungen (10 Verteilungen in der Abbildung unten). Tatsächlich handelt es sich um Histogramme: Auf der x-Achse gibt es 70 Werte, die die Größe einiger Partikel in einer Lösung darstellen, und für jeden Wert von x ist der entsprechende Wert von y der Anteil der Partikel, deren...

10
R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene...

10
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...

10
Mit welchen statistischen Methoden kann ich beliebte oder häufig verwendete Kombinationen kategorialer Variablen finden?

Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in...

10
So erhalten Sie das Konfidenzintervall für die Änderung des Populations-R-Quadrats

Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte...

10
PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden

Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste,...

10
Wie soll ich die GAP-Statistik interpretieren?

Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte. Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige...