Ich habe eine Reihe von Variablen, die Längsschnittdaten von Tag 0 bis Tag 7 enthalten. Ich suche nach einem geeigneten Clustering-Ansatz, mit dem diese Längsschnittvariablen (keine Fälle) in verschiedene Gruppen gruppiert werden können. Ich habe versucht, diesen Datensatz zeitlich getrennt zu analysieren, aber das Ergebnis war ziemlich schwer zu erklären.
Ich habe die Verfügbarkeit eines SAS-Verfahrens untersucht, PROC SIMILARITY
da es auf seiner Website ein Beispiel gibt . Ich denke jedoch, dass dies kein richtiger Weg ist. Einige frühere Studien verwendeten zu jedem Zeitpunkt eine explorative Faktoranalyse, aber dies ist auch in meiner Studie aufgrund unangemessener Ergebnisse keine Option.
Hoffentlich können hier einige Ideen bereitgestellt werden, und ein kompiliertes Programm wie SAS oder R kann zur Verarbeitung verfügbar sein. Jeder Vorschlag wird geschätzt !!
Hier ein kurzes Beispiel (Entschuldigung für die inkonsistente Position zwischen Daten und Variablennamen):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
quelle
Antworten:
Im R-
Hmisc
Paket finden Sie die Hilfedatei für diecurveRep
Funktion, die für "repräsentative Kurven" steht.curveRep
Cluster auf Kurvenformen, Orten und Mustern fehlender Zeitpunkte.quelle
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Ich bin nicht sicher, ob es das ist, wonach Sie suchen, aber das Paket
kml
in R verwendet k-means, um Sequenzen wiederholter Messungen zu gruppieren. Hier ist ein Link auf die Paket - Seite und auf das Papier (leider ist es gated). Es funktioniert nur gut, wenn Sie einen relativ kleinen Datensatz haben (einige hundert Sequenzen).Hier ist eine nicht geschlossene Version des Papiers (ohne Referenzprobleme): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
quelle
Sie haben also p Variablen, die jeweils t- mal an denselben n Individuen gemessen werden . Eine Möglichkeit besteht darin, t pXp (Dis-) Ähnlichkeitsmatrizen zu berechnen und die multidimentionale Skalierung nach dem INDSCAL-Modell anzuwenden. Sie erhalten zwei niedrigdimensionale Karten (z. B. mit zwei Dimensionen). Die erste Karte zeigt die Koordinaten von p Variablen im Raum der Dimensionen und spiegelt Gruppierungen zwischen ihnen wider, falls vorhanden. Die zweite Karte zeigt Gewichte (dh Wichtigkeit oder Bedeutung) der Dimensionen in jeder Matrix von t .
quelle