Alternative Entfernungsmetriken für zwei Zeitreihen

8

Ich habe Zeitreihendaten von verschiedenen Häusern. Angenommen, es handelt sich um Stromverbrauchsdaten. Jetzt möchte ich die Häuser nach einem ähnlichen Stromverbrauchsmuster gruppieren. Zu den verschiedenen Entfernungsmetriken, die ich mir vorstellen kann, um die Ähnlichkeit zu messen, gehören:

  • Euklidische Entfernung
  • DTW- Entfernung
  • Frechet Entfernung

Mit euklidischer Distanz fand ich einen Ausreißer in einer der Serien, der zu einem großen Unterschied führt. Daher möchte ich in meinem Fall keine euklidische Distanz verwenden.

Mit der DTW-Entfernung habe ich festgestellt, dass versucht wird, die ähnlichen Muster / Formen zuerst in bestimmten zwei Reihen abzubilden und dann die Ähnlichkeit zwischen zwei Reihen zu berechnen. Ich möchte dies nicht verwenden, da ich das Verbrauchsmuster nicht zu einem bestimmten Zeitpunkt in einen anderen verschieben möchte, um die beiden Eingabeserien abzugleichen.

Handgezeichnete Grafiken zur Unterstützung der obigen Punkte sind:

Verwendung der euklidischen Distanz Geben Sie hier die Bildbeschreibung ein

DTW-Abstand verwenden Geben Sie hier die Bildbeschreibung ein

Jetzt ist meine Frage:

  1. Welche andere Entfernungsmetrik ist für meinen Fall außer DTW oder Euklidisch am besten geeignet?
  2. Können Sie mich auf einen Hinweis verweisen, der die Frechet-Entfernung klarer erklärt? Ich habe einige Papiere gefunden, aber ich konnte das Konzept nicht klar verstehen. Berücksichtigt es nur die entsprechenden Punkte zweier Serien oder vergleicht es wie DTW einen Punkt einer Serie mit mehr als einem Punkt einer anderen Serie?

UPDATE: Wenn wir zwei Serien vergleichen, sehen wir zwei Perspektiven:

  1. Wir betrachten nur die Größe von zwei Reihen (dh Spitzenwert, niedrigste Werte usw.). Wenn daher die beiden Reihen innerhalb der gleichen Spitzenwerte liegen, betrachten wir zwei Reihen als gleich, andernfalls können Reihen als unterschiedlich angesehen werden.
  2. Wir betrachten nur die Form von zwei Reihen (dh versuchen Sie, Kämme und Täler zu vergleichen). Wir berücksichtigen nicht, wie weit oder nahe die beiden Reihen in Bezug auf die Größe sind. Dies bedeutet im Wesentlichen, dass ich zwar nicht die Häuser gruppiere, die die gleiche Menge an Nettostrom verbrauchen, sondern Häuser in einem Cluster bekomme, die einem ähnlichen Muster (Zunahme / Abnahme) des Stromverbrauchs folgen.

Ich möchte eine Ähnlichkeitsmetrik in Bezug auf Perspektive Nummer 2. Ich habe beide Perspektiven in der folgenden Abbildung zusammengefasst. Geben Sie hier die Bildbeschreibung ein

Haroon Rashid
quelle

Antworten:

1

Beantwortung von Frage 1:

Ihr Kritiker der DTW wird durch die Einführung globaler Einschränkungen für den Warping-Pfad erfüllt. Dies schränkt sowohl den Rechenaufwand effektiv ein (da nicht zulässige Verzerrungspfade nicht berechnet werden müssen) als auch verhindert pathologische Verzerrungen.

Daher lautet die Antwort: DTW mit globalen Einschränkungen

Es gibt verschiedene Varianten solcher Einschränkungen, wie das Sakoe-Chiba-Band und das Itakura-Parallelogramm, wie Sie im folgenden Bild sehen können. Das Bild stammt aus einer Präsentation, die online in einer Präsentation von Chotirat Ratanamahatana und Eamonn Keogh verfügbar ist .

Beschreibung hier eingeben

Ein weiteres möglicherweise relevantes Zeitreihen-Entfernungsmaß ist:

LCSS - Longest Common Subsequence - wurde ursprünglich zur Analyse der String-Ähnlichkeit entwickelt, kann aber auch für numerische Zeitreihen verwendet werden.

Nikolas Rieble
quelle
0

Für die meisten Benutzer dieser „Ausreißer“ ist ein bemerkenswerter Unterschied und soll einen messbaren Unterschied ergeben.

Im Vergleich zu einer völlig anderen Serie sollte dies jedoch nur einen geringen Beitrag leisten, es sei denn, Sie haben Ihre Daten nicht gut vorverarbeitet .

Wir können Ihnen keine besseren Empfehlungen geben, da Sie nicht sagen können, was Sie wollen. Wir haben Ihre Daten nicht und kennen Ihr Problem nicht. Um herauszufinden, wie dies gelöst werden kann, müssen Sie Ihre Anforderungen formalisieren , dh was sollte ähnlich sein, was sollte anders sein und was sollte ähnlicher als das andere sein. Es reicht nicht aus, sich nur darüber zu beschweren, dass Ihnen die Ergebnisse der Maßnahmen nicht "gefallen" haben. Sie müssen viel genauer sein.

Hat aufgehört - Anony-Mousse
quelle
Ich habe meine Frage mit etwas mehr Details deutlich aktualisiert. Bitte lassen Sie mich wissen, wenn die Frage nicht klar genug ist. Ich habe versucht, genau zu sein. Können Sie mir bitte auch etwas über die Vorverarbeitung von Daten erzählen? Meinten Sie Glätten oder Kurvenanpassung?
Haroon Rashid
Um 2 zu erhalten, müssen Sie möglicherweise Ihre Daten vorverarbeiten, z. B. durch Zentrieren und Standardisieren, bevor Sie z. B. Euklidisch verwenden.
Hat aufgehört - Anony-Mousse
Vielen Dank. und was ist mit der Entfernungsmetrik außer Euklidisch? Ich kann verschiedene Metriken ausprobieren, aber ich weiß nicht, wie ich entscheiden soll, dass die Metrik xbesser ist alsy
Haroon Rashid
1
Sicher kannst du. Entweder indem Sie sich ihre Theorie ansehen und prüfen, ob sie mit Ihrer Theorie in Bezug auf Ihre Daten übereinstimmt. oder wenn Sie Daten durch empirische Auswertung gekennzeichnet haben. Wenn Sie beispielsweise davon ausgehen, dass Ihre Zeitreihen perfekt ausgerichtet sind, brauchen Sie keine Zeitverzerrung! Frechet Entfernung ist für multivariate Serien (denken Sie an das Hund-und-Besitzer-Modell, passt das zu Ihrem Problem?)
Hat aufgehört - Anony-Mousse