Algorithmen für maschinelles Lernen für Paneldaten

11

In dieser Frage - Gibt es eine Methode zum Erstellen von Entscheidungsbäumen, die strukturierte / hierarchische / mehrstufige Prädiktoren berücksichtigt? - Sie erwähnen eine Paneldatenmethode für Bäume.

Gibt es spezielle Paneldatenmethoden zur Unterstützung von Vektormaschinen und neuronalen Netzen? Wenn ja, können Sie einige Artikel zu den Algorithmen und (falls verfügbar) R-Paketen zitieren, die diese implementieren?

Carlos Cinelli
quelle
1
Ich habe mich gefragt, was Sie dafür verwendet haben? Ich versuche ein ähnliches Problem zu lösen.
Benutzer0

Antworten:

1

LSTM (Long Short Term Memory) könnte für Sie relevant sein. Dieser Modelltyp kann mehrere Features zu mehreren Zeitpunkten verarbeiten, die zu Paneldaten passen sollten. Hier ist eine sehr schöne Erklärung zum Konzept von LSTM, und hier ist ein Paket, das eine R-Version von LSTM implementiert.

Hübsche Reden
quelle
0

Wenn Sie Paneldaten haben, gibt es verschiedene Aufgaben, die Sie zu lösen versuchen können, z. B. Zeitreihenklassifizierung / -regression oder Panelprognose. Und für jede Aufgabe gibt es zahlreiche Lösungsansätze.

Wenn Sie Methoden zum maschinellen Lernen verwenden möchten, um Panel-Prognosen zu lösen, gibt es eine Reihe von Ansätzen:

In Bezug auf Ihre Eingabedaten (X) können Sie Einheiten (z. B. Länder, Einzelpersonen usw.) als ID-Stichproben behandeln

  • Bin die Zeitreihe und behandle jeden Bin als separate Spalte, wobei jede zeitliche Reihenfolge ignoriert wird, mit gleichen Bins für alle Einheiten. Die Bin-Größe könnte natürlich einfach die beobachtete Zeitreihenmessung sein, oder du könntest dann ein Upsampling durchführen und zu größeren Bins aggregieren Verwenden Sie Standardalgorithmen für maschinelles Lernen für tabellarische Daten.
  • oder extrahieren Sie Features aus den Zeitreihen für jede Einheit und verwenden Sie jedes extrahierte Feature als separate Spalten, wiederum kombiniert mit standardmäßigen tabellarischen Algorithmen.
  • oder verwenden Sie spezielle Zeitreihen-Regressions- / Klassifizierungsalgorithmen, je nachdem, ob Sie kontinuierliche oder kategoriale Zeitreihendaten beobachten. Dazu gehören Support-Vektor-Maschinen mit speziellen Kerneln, die Zeitreihen mit Zeitreihen vergleichen.

In Bezug auf Ihre Ausgabedaten (y) können Sie mehrere Zeitpunkte für die Zukunft vorhersagen

  • Passen Sie einen Schätzer für jeden vorausschauenden Schritt an, den Sie prognostizieren möchten, und verwenden Sie dabei immer dieselben Eingabedaten.
  • oder passen Sie einen einzelnen Schätzer für den ersten Schritt an und rollen Sie bei der Vorhersage die Eingabedaten rechtzeitig, wobei Sie die Vorhersagen des ersten Schritts verwenden, um sie an die beobachteten Eingabedaten anzuhängen und Vorhersagen für den zweiten Schritt usw. zu treffen.

Alle oben genannten Ansätze reduzieren das Panel-Prognoseproblem im Wesentlichen auf ein Zeitreihen-Regressions- oder ein tabellarisches Regressionsproblem. Sobald Ihre Daten im Zeitreihen- oder tabellarischen Regressionsformat vorliegen, können Sie auch beliebige zeitinvariante Funktionen für Benutzer anhängen.

Natürlich gibt es auch andere Möglichkeiten, um das Panel-Prognoseproblem zu lösen, beispielsweise die Verwendung klassischer Prognosemethoden wie ARIMA, die an Panel-Daten angepasst sind, oder Deep-Learning-Methoden, mit denen Sie direkt Sequenz-zu-Sequenz-Vorhersagen treffen können.

mloning
quelle