Liste der Feature-Engineering-Techniken

Antworten:

10

Es gibt keine eindeutige Quelle für das Feature-Engineering. Dies hängt häufig von dem Problem ab, das Sie lösen möchten. Einige sagen, es sei eher eine Kunst als eine Wissenschaft.

Aber ich würde einige der Highscoring-Kaggle-Kernel / Gewinnlösungen durchgehen, falls verfügbar. Gehen Sie einfach zu kaggle und stöbern Sie durch die Wettbewerbe. Es gibt dort eine Menge sehr nützliches Material.

Auch das Journal of Machine Learning Research hat viele Artikel über Feature Engineering. Suchen Sie einfach auf ihrer Website http://www.jmlr.org/ .

Die folgenden Links sind nützlich und zu lang, um sie zu paraphrasieren:

  • Einige Informationen zu einigen Best Practices des Feature-Engineerings finden Sie unter Quora unter diesem Link
  • Bei der Beherrschung des maschinellen Lernens gibt es diese Seite über Feature-Engineering.
Phiver
quelle
3

Fehlende Datenimputation:

  1. Komplette Fallanalyse

  2. Mittelwert / Median / Modus-Imputation

  3. Zufällige Stichprobenimputation

  4. Ersetzung durch beliebigen Wert

  5. Fehlwertanzeige

  6. Multivariate Imputation

Kategoriale Codierung:

  1. Eine heiße Codierung

  2. Zähl- und Frequenzcodierung

  3. Zielcodierung / Mittlere Codierung

  4. Ordinale Codierung

  5. Beweiskraft

  6. Seltene Etikettencodierung

  7. BaseN, Feature-Hashing und andere

Variable Transformation:

  1. Logarithmus

  2. Gegenseitig

  3. Quadratwurzel

  4. Exponentiell

  5. Yeo-Johnson

  6. Box-Cox

Diskretisierung:

  1. Gleichfrequenzdiskretisierung

  2. Diskretisierung gleicher Länge

  3. Diskretisierung mit Bäumen

  4. Diskretisierung mit ChiMerge

Ausreißerentfernung:

  1. Ausreißer entfernen

  2. Ausreißer als NaN behandeln

  3. Verschließen, Windsorisierung

Feature-Skalierung:

  1. Standardisierung

  2. MinMax-Skalierung

  3. Mittlere Skalierung

  4. Maximale absolute Skalierung

  5. Einheitsnorm-Skalierung

Datum und Uhrzeit Engineering:

  1. Extrahieren von Tagen, Monaten, Jahren, Quartalen und verstrichener Zeit

Feature-Erstellung:

  1. Summe, Subtraktion, Mittelwert, Min, Max, Produkt, Quotient der Gruppe von Merkmalen

Aggregieren von Transaktionsdaten:

  1. Wie oben, jedoch im Zeitfenster mit derselben Funktion

Features aus Text extrahieren:

  1. Tasche voller Wörter

  2. tfidf

  3. n-Gramm

  4. word2vec

  5. Themenextraktion

Und schließlich Features aus Bildern extrahieren.

Ein guter Artikel, der die meisten der oben genannten Techniken beschreibt: Feature Engineering bietet einen umfassenden Überblick

Eine gute Liste von Ressourcen, um mehr über Feature Engineering zu erfahren : Beste Ressourcen, um mehr über Feature Engineering zu erfahren

Python-Tools für das Feature-Engineering finden Sie in diesem Thread

HAFTUNGSAUSSCHLUSS: Ich habe die 2 Artikel geschrieben und bin auch der Schöpfer eines der empfohlenen Kurse, um mehr über Feature Engineering zu erfahren.

Sohle G.
quelle