Ich baue oft ein Modell (Klassifizierung oder Regression) auf, in dem ich einige Prädiktorvariablen habe, bei denen es sich um Sequenzen handelt, und ich habe versucht, technische Empfehlungen zu finden, um sie bestmöglich zusammenzufassen und als Prädiktoren in das Modell aufzunehmen.
Angenommen, es wird ein Modell erstellt, um vorherzusagen, ob ein Kunde das Unternehmen in den nächsten 90 Tagen verlassen wird (jederzeit zwischen t und t + 90; also ein binäres Ergebnis). Einer der verfügbaren Prädiktoren ist die Höhe des finanziellen Saldos des Kunden für die Zeiträume t_0 bis t-1. Möglicherweise handelt es sich hierbei um monatliche Beobachtungen für die letzten 12 Monate (dh 12 Messungen).
Ich suche nach Möglichkeiten, Features aus dieser Serie zu konstruieren. Ich verwende Beschreibungen der einzelnen Kundenserien, wie z. B. Mittelwert, Hoch, Niedrig, Standardentwicklung, und passe eine OLS-Regression an, um den Trend zu ermitteln. Sind ihre anderen Methoden zur Berechnung von Merkmalen? Andere Maßstäbe für Veränderung oder Volatilität?
HINZUFÜGEN:
Wie in einer Antwort unten erwähnt, habe ich auch in Betracht gezogen (aber vergessen, hier hinzuzufügen), Dynamic Time Warping (DTW) und dann hierarchisches Clustering in der resultierenden Distanzmatrix zu verwenden - eine bestimmte Anzahl von Clustern zu erstellen und dann die Cluster-Mitgliedschaft als Feature zu verwenden. Die Bewertung von Testdaten müsste wahrscheinlich einem Prozess folgen, bei dem die DTW für neue Fälle und die Cluster-Zentroide durchgeführt wurde - wobei die neuen Datenreihen mit ihren nächsten Zentroiden abgeglichen wurden ...
Die Merkmalsextraktion ist immer eine Herausforderung und das weniger angesprochene Thema in der Literatur, da sie weitgehend anwendungsabhängig ist.
Einige Ideen, die Sie ausprobieren können:
quelle
Auf den ersten Blick müssen Sie Features aus Ihrer Zeitreihe (x - 12) - x extrahieren. Ein möglicher Ansatz besteht darin, zusammenfassende Metriken zu berechnen: Durchschnitt, Streuung usw. Dabei verlieren Sie jedoch alle zeitreihenbezogenen Informationen. Daten, die aus der Kurvenform extrahiert wurden, können jedoch sehr nützlich sein. Ich empfehle Ihnen, diesen Artikel zu lesen, in dem Autoren Algorithmen für das Clustering von Zeitreihen vorschlagen. Hoffe, es wird nützlich sein. Zusätzlich zu einem solchen Clustering können Sie Ihrer Funktionsliste zusammenfassende Statistiken hinzufügen.
quelle