Wenn wir Klassifizierungen und Regressionen durchführen, legen wir normalerweise Test- und Trainingssätze fest, um Modelle zu erstellen und zu verbessern. Müssen wir beim Clustering jedoch auch Test- und Trainingssätze festlegen?
Wenn wir Klassifizierungen und Regressionen durchführen, legen wir normalerweise Test- und Trainingssätze fest, um Modelle zu erstellen und zu verbessern. Müssen wir beim Clustering jedoch auch Test- und Trainingssätze festlegen?
Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means...
Ich habe eine Reihe von Variablen, die Längsschnittdaten von Tag 0 bis Tag 7 enthalten. Ich suche nach einem geeigneten Clustering-Ansatz, mit dem diese Längsschnittvariablen (keine Fälle) in verschiedene Gruppen gruppiert werden können. Ich habe versucht, diesen Datensatz zeitlich getrennt zu...
Ich habe mehrere Verteilungen (10 Verteilungen in der Abbildung unten). Tatsächlich handelt es sich um Histogramme: Auf der x-Achse gibt es 70 Werte, die die Größe einiger Partikel in einer Lösung darstellen, und für jeden Wert von x ist der entsprechende Wert von y der Anteil der Partikel, deren...
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene...
Ich versuche, den Erfolg oder Misserfolg von Schülern anhand einiger Funktionen mit einem logistischen Regressionsmodell vorherzusagen. Um die Leistung des Modells zu verbessern, habe ich bereits darüber nachgedacht, die Schüler anhand offensichtlicher Unterschiede in verschiedene Gruppen...
Angenommen, ich habe 400 Studenten (das ist an einer großen Universität), die ein Informatikprojekt durchführen müssen und die alleine arbeiten müssen (keine Gruppe von Studenten). Ein Beispiel für ein Projekt könnte sein, "einen schnellen Fourier-Transformations-Algorithmus in fortran zu...
Betrachten Sie den Kontext eines Dendrogramm-Clusters. Nennen wir ursprüngliche Unterschiede die Abstände zwischen den Individuen. Nach der Erstellung des Dendrogramms definieren wir die kophenetische Unähnlichkeit zwischen zwei Individuen als den Abstand zwischen den Clustern, zu denen diese...
Ich habe meinen Datensatz mit mehreren tausend Markov-Ketten erster Ordnung in etwa 10 Cluster zusammengefasst. Gibt es eine empfohlene Methode, wie ich diese Cluster bewerten und herausfinden kann, was die Elemente in den Clustern gemeinsam haben und wie sie sich von anderen Clustern...
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...
Ich bin neu in der Sequenzanalyse und habe mich gefragt, wie Sie reagieren, wenn die durchschnittlichen Silhouettenbreiten (ASW) aus Clusteranalysen von auf Optimal Matching basierenden Unähnlichkeitsmatrizen niedrig sind (ca. 25). Wäre es angebracht zu folgern, dass es wenig zugrunde liegende...
Nach dem Training einer selbstorganisierenden Karte kann man die U-Matrix berechnen . Es gibt einige Tools , um es manuell zu visualisieren und Cluster zu identifizieren, aber ich frage mich, ob es einen Algorithmus gibt, der diesen Prozess automatisch ausführt (dh keinen Menschen, der die Figur...
Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in...
Ich habe einen Satz von 2D-Daten, in denen ich die Zentren einer bestimmten Anzahl von Kreismittelpunkten ( ) finden möchte , die die Gesamtzahl der Punkte innerhalb eines bestimmten Abstands ( ) maximieren .NNNRRR Ich habe zB 10.000 Datenpunkte und möchte die Zentren von Kreisen finden, die so...
Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte...
Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste,...
Ich bin sehr neu in der Clusteranalyse. Ich benutze R für k-means Clustering und frage mich, was diese Dinge sind. Und was ist besser, wenn ihr Verhältnis kleiner oder größer
Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte. Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige...
Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine...
Ich möchte Knoten in einem Diagramm mithilfe von Diagrammclustern in 'r' gruppieren / zusammenführen. Hier ist eine erstaunlich spielerische Variante meines Problems. Es gibt zwei "Cluster" Es gibt eine "Brücke", die die Cluster verbindet Hier ist ein Kandidatennetzwerk: Wenn ich mir die...