Zusammenfassung : Der Versuch, die beste Methode zu finden, fasst die Ähnlichkeit zwischen zwei ausgerichteten Datensätzen mit einem einzigen Wert zusammen.
Details :
Meine Frage lässt sich am besten mit einem Diagramm erklären. Die folgenden Grafiken zeigen zwei verschiedene Datensätze mit den Werten nf
und nr
. Die Punkte entlang der x-Achse stellen dar, wo Messungen vorgenommen wurden, und die Werte auf der y-Achse sind die resultierenden Messwerte.
Für jedes Diagramm möchte ich eine einzelne Zahl, um die Ähnlichkeit nf
und die nr
Werte an jedem Messpunkt zusammenzufassen. In diesem Beispiel ist es visuell offensichtlich, dass die Ergebnisse in den ersten Diagrammen weniger ähnlich sind als die im zweiten Diagramm. Aber ich habe viele andere Daten, bei denen der Unterschied weniger offensichtlich ist. Daher wäre es hilfreich, diese quantitativ bewerten zu können.
Ich dachte, es könnte Standardtechniken geben, die normalerweise verwendet werden. Die Suche nach statistischer Ähnlichkeit hat zu vielen unterschiedlichen Ergebnissen geführt, aber ich bin mir nicht sicher, was ich am besten auswählen soll oder ob sich die Dinge, die ich bereit habe, auf mein Problem anwenden lassen. Daher dachte ich, diese Frage könnte es wert sein, hier gestellt zu werden, falls es eine einfache Antwort gibt.
quelle
Antworten:
Fläche zwischen 2 Kurven kann den Unterschied ergeben. Daher ist die Summe (nr-nf) (Summe aller Differenzen) eine Annäherung an die Fläche zwischen zwei Kurven. Wenn Sie es relativ machen möchten, können Sie sum (nr-nf) / sum (nf) verwenden. Diese geben Ihnen einen einzelnen Wert, der die Ähnlichkeit zwischen 2 Kurven für jedes Diagramm angibt.
Bearbeiten: Die obige Methode zur Summierung von Differenzen ist auch dann nützlich, wenn es sich um getrennte Punkte oder Beobachtungen und nicht um verbundene Linien oder Kurven handelt. In diesem Fall kann der Mittelwert der Differenzen jedoch auch ein Indikator sein und ist möglicherweise besser, da er den berücksichtigt Anzahl der Beobachtungen.
quelle
Sie müssen mehr definieren, was Sie unter Ähnlichkeit verstehen. Ist die Größe wichtig? Oder nur formen?
Wenn es nur auf die Form ankommt, sollten Sie beide Zeitreihen mit ihrem Maximalwert normalisieren (also beide von 0 bis 1).
Wenn Sie nach einer linearen Korrelation suchen, funktioniert eine einfache Pearson-Korrelation - die im Wesentlichen die Kovarianz misst.
Es gibt zum Beispiel andere Techniken, die eine Linie oder ein Polynom an die Zeitreihe anpassen (im Wesentlichen glätten) und dann die glatten Polynome vergleichen.
Wenn Sie nach periodischer Ähnlichkeit suchen (dh die Zeitreihe hat eine bestimmte sinusförmige Komponente oder Saisonalität), ziehen Sie in Betracht, zuerst eine Zeitreihenzerlegung in den Trend und die Jahreszeitenkomponenten zu verwenden. Oder verwenden Sie FFT, um die Daten im Frequenzbereich zu vergleichen.
Das ist alles, was ich weiß, ohne genauer zu definieren, was "ähnlich" sein soll. Ich hoffe es hilft.
quelle
Sie können (nr-nf) für jeden Messpunkt verwenden. Je kleiner die Zahl (absoluter Wert), desto ähnlicher ist der Wert. Nicht gerade der wissenschaftlichste Ansatz, bitte vergib mir, ich habe keine wirkliche formale Ausbildung in diesem Bereich. Wenn Sie nur nach einer numerischen Darstellung des Visuellen suchen, sollte dies der Fall sein.
quelle