Angenommen, man hat eine Zeitreihe, aus der man verschiedene Messungen wie Periode, Maximum, Minimum, Durchschnitt usw. durchführen und daraus eine Modell-Sinuswelle mit denselben Attributen erstellen kann. Gibt es statistische Ansätze, die man quantifizieren könnte? Wie genau stimmen die tatsächlichen Daten mit dem angenommenen Modell überein? Die Anzahl der Datenpunkte in der Reihe würde zwischen 10 und 50 Punkten liegen.
Ein sehr vereinfachter erster Gedanke war, der Richtungsbewegung der Sinuswelle einen Wert zuzuweisen, dh +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1, mache dasselbe mit den tatsächlichen Daten und quantifiziere dann irgendwie den Grad der Ähnlichkeit der Richtungsbewegung.
Bearbeiten: Nachdem ich mir mehr Gedanken darüber gemacht habe, was ich wirklich mit meinen Daten machen möchte, und angesichts der Antworten auf meine ursprüngliche Frage, brauche ich einen Entscheidungsalgorithmus, um zwischen konkurrierenden Annahmen zu wählen: nämlich, dass meine Daten im Grunde linear sind (oder Trending) mit Rauschen, das möglicherweise zyklische Elemente haben könnte; Meine Daten sind im Grunde genommen zyklisch, ohne dass ein richtungsweisender Trend zu nennen wäre. Die Daten sind im Wesentlichen nur Rauschen. oder es wechselt zwischen einem dieser Zustände.
Meine Gedanken sind jetzt, vielleicht irgendeine Form der Bayes'schen Analyse und der euklidischen / LMS-Metrik zu kombinieren. Die Schritte in diesem Ansatz wären
Erstellen Sie die angenommene Sinuswelle aus Datenmessungen
Passen Sie eine LMS-Gerade an die Daten an
Leiten Sie eine euklidische oder LMS-Metrik für Abweichungen von den Originaldaten für jede der oben genannten ab
Erstellen Sie einen Bayesianischen Prior für jeden basierend auf dieser Metrik, dh 60% der kombinierten Abfahrten hängen von der einen, 40% von der anderen ab und bevorzugen daher die 40%.
Schieben Sie ein Fenster um einen Datenpunkt entlang der Daten und wiederholen Sie die obigen Schritte, um neue% -Metriken für diesen leicht geänderten Datensatz zu erhalten. Dies ist der neue Beweis. Führen Sie die Bayes'sche Analyse durch, um einen Posterior zu erstellen und die Wahrscheinlichkeiten zu ändern, die jede Annahme begünstigen
Wiederholen Sie den gesamten Datensatz (3000+ Datenpunkte) mit diesem Schiebefenster (Fensterlänge 10-50 Datenpunkte). Die Hoffnung / Absicht ist es, die vorherrschende / bevorzugte Annahme an jedem Punkt des Datensatzes zu identifizieren und wie sich diese mit der Zeit ändert
Alle Kommentare zu dieser potenziellen Methodik sind willkommen, insbesondere dazu, wie ich den Bayes'schen Analyseteil tatsächlich implementieren könnte.
quelle
Ihr "simplistischer erster Gedanke", nur die Richtungsbewegung qualitativ darzustellen, ähnelt im Geiste Keoghs SAX-Algorithmus zum Vergleichen von Zeitreihen. Ich würde Ihnen empfehlen, einen Blick darauf zu werfen: Eamonn Keogh & Jessica Lin: SAX .
Nach Ihrer Bearbeitung klingt es, als würden Sie das Problem jetzt anders angehen, aber Sie werden vielleicht feststellen, dass SAX ein Teil des Puzzles ist.
quelle
Ich bin zwar etwas zu spät zur Party, aber wenn Sie an etwas Sinusförmiges denken, sind Wavelet-Transformationen ein gutes Werkzeug, das Sie auch in Ihrer Tasche haben sollten. Theoretisch können Sie Wavelet-Transformationen verwenden, um eine Sequenz in verschiedene "Teile" zu zerlegen (z. B. Wellen unterschiedlicher Formen / Frequenzen, Nicht-Wellenkomponenten wie Trends usw.). Eine spezielle Form der Wellentransformation, die pro Tonne verwendet wird, ist die Fouriertransformation, aber in diesem Bereich gibt es viel Arbeit. Ich würde gerne ein aktuelles Paket empfehlen können, aber ich habe seit einiger Zeit keine Signalanalyse durchgeführt. Ich erinnere mich jedoch an einige Matlab-Pakete, die Funktionen in diesem Sinne unterstützen.
Eine andere Richtung, wenn Sie nur versuchen, Trends in zyklischen Daten zu finden, ist der Mann-Kendall-Trend-Test. Es wird häufig zum Erkennen von Änderungen des Wetters oder der Wasserqualität verwendet, die starke saisonale Einflüsse haben. Es hat nicht die Glocken und Pfeifen einiger fortgeschrittener Ansätze, aber da es ein erfahrener statistischer Test ist, ist es ziemlich einfach zu interpretieren und zu berichten.
quelle