Ich habe Zeitreihendaten von verschiedenen Häusern. Angenommen, es handelt sich um Stromverbrauchsdaten. Jetzt möchte ich die Häuser nach einem ähnlichen Stromverbrauchsmuster gruppieren. Zu den verschiedenen Entfernungsmetriken, die ich mir vorstellen kann, um die Ähnlichkeit zu messen, gehören:
Mit euklidischer Distanz fand ich einen Ausreißer in einer der Serien, der zu einem großen Unterschied führt. Daher möchte ich in meinem Fall keine euklidische Distanz verwenden.
Mit der DTW-Entfernung habe ich festgestellt, dass versucht wird, die ähnlichen Muster / Formen zuerst in bestimmten zwei Reihen abzubilden und dann die Ähnlichkeit zwischen zwei Reihen zu berechnen. Ich möchte dies nicht verwenden, da ich das Verbrauchsmuster nicht zu einem bestimmten Zeitpunkt in einen anderen verschieben möchte, um die beiden Eingabeserien abzugleichen.
Handgezeichnete Grafiken zur Unterstützung der obigen Punkte sind:
Verwendung der euklidischen Distanz
Jetzt ist meine Frage:
- Welche andere Entfernungsmetrik ist für meinen Fall außer DTW oder Euklidisch am besten geeignet?
- Können Sie mich auf einen Hinweis verweisen, der die Frechet-Entfernung klarer erklärt? Ich habe einige Papiere gefunden, aber ich konnte das Konzept nicht klar verstehen. Berücksichtigt es nur die entsprechenden Punkte zweier Serien oder vergleicht es wie DTW einen Punkt einer Serie mit mehr als einem Punkt einer anderen Serie?
UPDATE: Wenn wir zwei Serien vergleichen, sehen wir zwei Perspektiven:
- Wir betrachten nur die Größe von zwei Reihen (dh Spitzenwert, niedrigste Werte usw.). Wenn daher die beiden Reihen innerhalb der gleichen Spitzenwerte liegen, betrachten wir zwei Reihen als gleich, andernfalls können Reihen als unterschiedlich angesehen werden.
- Wir betrachten nur die Form von zwei Reihen (dh versuchen Sie, Kämme und Täler zu vergleichen). Wir berücksichtigen nicht, wie weit oder nahe die beiden Reihen in Bezug auf die Größe sind. Dies bedeutet im Wesentlichen, dass ich zwar nicht die Häuser gruppiere, die die gleiche Menge an Nettostrom verbrauchen, sondern Häuser in einem Cluster bekomme, die einem ähnlichen Muster (Zunahme / Abnahme) des Stromverbrauchs folgen.
Ich möchte eine Ähnlichkeitsmetrik in Bezug auf Perspektive Nummer 2. Ich habe beide Perspektiven in der folgenden Abbildung zusammengefasst.
quelle
x
besser ist alsy