Ich habe eine Frage zur Clusteranalyse. Es gibt 3000 Unternehmen, die nach ihrem Stromverbrauch über 5 Jahre gruppiert werden müssen. Jedes Unternehmen hat Werte für jede Stunde während 5 Jahren. Ich würde gerne herausfinden, ob einige Unternehmen über den Zeitraum die gleiche Nutzungsstärke aufweisen. Die Ergebnisse sollten für die tägliche Vorhersage des Stromverbrauchs verwendet werden. Wenn Sie Ideen zum Clustering von Zeitreihen in SPSS haben, teilen Sie diese bitte mit mir.
time-series
clustering
spss
user89686
quelle
quelle
Antworten:
A) Nehmen Sie sich viel Zeit für die Vorverarbeitung der Daten. Die Vorverarbeitung macht 90% Ihrer Arbeit aus.
B) Wählen Sie ein geeignetes Ähnlichkeitsmaß für die Zeitreihe. Beispielsweise kann hier der Schwellenüberquerungsabstand eine gute Wahl sein. Sie werden wahrscheinlich keine dynamische Zeitverzerrungsentfernung wünschen, es sei denn, Sie haben unterschiedliche Zeitzonen. Das Überschreiten der Schwelle kann geeigneter sein, um zeitliche Muster zu erkennen, ohne auf die tatsächliche Größe zu achten (die wahrscheinlich von Unternehmen zu Unternehmen sehr unterschiedlich sein wird).
C) Clustern Sie die resultierende Dissimlaritätsmatrix mit Methoden wie hierarchischem Clustering oder DBSCAN, die mit beliebigen Distanzfunktionen arbeiten können.
quelle
Möglicherweise möchten Sie die stündlichen Zeitreihen mit täglicher, wöchentlicher und jährlicher Periodizität prognostizierenfür eine Diskussion der stündlichen Daten mit täglichen Daten und Feiertagen / Regressoren. Sie haben 5 Jahre Daten, während die andere Diskussion 883 Tageswerte umfasste. Was ich vorschlagen würde, ist, dass Sie eine stündliche Vorhersage erstellen könnten, die Regressoren wie den Wochentag einbezieht. Woche des Jahres und Feiertage unter Verwendung der täglichen Gesamtsummen als zusätzlicher Prädiktor. Auf diese Weise hätten Sie 24 Modelle für jedes der 3.000 Unternehmen. Nun möchten Sie stundenweise die 3.000 Modelle unter Verwendung einer gemeinsamen ARIMAX-Struktur schätzen, die das Reaktionsmuster um jeden der Regressoren, den Wochentag und die Änderungen am Wochentag, berücksichtigt Parameter und wöchentliche Indikatoren bei der Isolierung von Ausreißern. Dann könnten Sie die Parameter global unter Verwendung aller 3000 Unternehmen abschätzen. Führen Sie einen Chow-Test durch http://en.wikipedia.org/wiki/Chow_testFür die Konstanz der Parameter und bei Zurückweisung gruppieren sich die Unternehmen zu homogenen Gruppen. Ich habe dies als eindimensionale Clusteranalyse bezeichnet. Da SPSS nur über sehr eingeschränkte Funktionen in Zeitreihen verfügt, sollten Sie nach Software suchen.
quelle