Jede Beobachtung in meinen Daten wurde mit einer Differenz von 0,1 Sekunden gesammelt. Ich nenne es keine Zeitreihe, weil es keinen Datums- und Zeitstempel hat. In den Beispielen für Clustering-Algorithmen (die ich online gefunden habe) und PCA haben die Probendaten 1 Beobachtung pro Fall und sind nicht zeitgesteuert. Aber meine Daten haben Hunderte von Beobachtungen alle 0,1 Sekunden pro Fahrzeug gesammelt und es gibt viele Fahrzeuge.
Hinweis: Ich habe diese Frage auch zu Quora gestellt.
algorithms
umair durrani
quelle
quelle
Antworten:
Was Sie haben, ist eine zeitliche Abfolge von Ereignissen. Zögern Sie also nicht, sie Zeitreihen zu nennen!
Clustering in Zeitreihen hat zwei verschiedene Bedeutungen:
Ich nehme an, Sie meinen den zweiten und hier ist mein Vorschlag:
Sie haben viele Fahrzeuge und viele Beobachtungen pro Fahrzeug, dh Sie haben viele Fahrzeuge. Sie haben also mehrere Matrizen (jedes Fahrzeug ist eine Matrix) und jede Matrix enthält N Zeilen (Anzahl der Beobachtungen) und T Spalten (Zeitpunkte). Ein Vorschlag könnte darin bestehen, PCA auf jede Matrix anzuwenden, um die Dimensionalität zu verringern und Daten im PC-Raum zu beobachten und festzustellen, ob zwischen verschiedenen Beobachtungen innerhalb einer Matrix (eines Fahrzeugs) sinnvolle Beziehungen bestehen . Dann können Sie jede Beobachtung für alle Fahrzeuge aufeinander setzen und eine Matrix erstellen und PCA darauf anwenden, um die Beziehungen einer einzelnen Beobachtung zwischen verschiedenen Fahrzeugen zu sehen.
Wenn Sie keine negativen Werte haben, wird die Matrixfaktorisierung zur Dimensionsreduzierung von Matrixformulardaten dringend empfohlen.
Ein weiterer Vorschlag könnte darin bestehen, alle Matrizen übereinander zu legen und einen N x M x T- Tensor zu erstellen, wobei N die Anzahl der Fahrzeuge, M die Anzahl der Beobachtungen und T die zeitliche Abfolge ist und die Tensor-Zerlegung angewendet wird , um Beziehungen global zu sehen.
Ein sehr guter Ansatz für das Zeitreihen-Clustering wird in diesem Dokument gezeigt, in dem die Implementierung unkompliziert ist.
Ich hoffe es hat geholfen!
Viel Glück :)
BEARBEITEN
Wie Sie bereits erwähnt haben, meinen Sie Zeitreihensegmentierung. Ich füge dies der Antwort hinzu.
Die Zeitreihensegmentierung ist das einzige Clustering-Problem, das eine Grundwahrheit für die Bewertung hat. Tatsächlich betrachten Sie die Erzeugungsverteilung hinter den Zeitreihen und analysieren ich empfehlen , diese , diese , diese , diese , diese und diese , wo Ihr Problem umfassend untersucht. Speziell die letzte und die Doktorarbeit.
Viel Glück!
quelle