Tutorials für das Feature Engineering

19

Wie jeder weiß, ist Feature Engineering für das maschinelle Lernen extrem wichtig, aber ich habe nur wenige Materialien gefunden, die mit diesem Bereich zusammenhängen. Ich habe an mehreren Wettbewerben in Kaggle teilgenommen und glaube, dass gute Eigenschaften in manchen Fällen sogar wichtiger sind als ein guter Klassifikator. Kennt jemand Tutorials zum Feature-Engineering oder ist das reine Erfahrung?

FindBoat
quelle
1
Meinen Sie die Vorverarbeitung von Features (Normalisierung und andere Transformationen) oder die Feature-Auswahl?
MattBagg
2
@ mb3041023 Nein, der Schritt vor beiden, in dem Sie einige Rohdaten wie Texte, Bilder oder Serien in verwendbare Attribute konvertieren.
8
Nach meiner Erfahrung besteht ein großer Teil des Problems des maschinellen Lernens darin, buchstäblich das richtige zu lösende / zu optimierende Problem (dh Funktionen, Funktionsdarstellung, Auswahl usw.) festzulegen. Ich würde gerne ein Buch sehen, das ausschließlich der empirischen Merkmalsauswahl und -vorverarbeitung gewidmet ist und viele Illustrationen aus dem wirklichen Leben enthält (wie z. B. kaggle). Wenn jemand von einem weiß, pls. Post. Es gibt mehrere Bücher, die sich mit Datenbereinigung / Datenimputation befassen, aber es wird dringend ein praktischer Text zur Funktionsauswahl benötigt.
Pat
2
Werfen
2
@jasonb, wie wäre es mit Autor, Größe, Preis und einem Link, etwa so: Guyon ed., Feature Extraction: Grundlagen und Anwendungen 2006, 778p, 306 USD
denis

Antworten:

7

Ich würde Erfahrung sagen - Grundideen sind:

  • zu passen, wie Klassifikatoren funktionieren; Einem Baum ein Geometrieproblem, einem kNN eine übergroße Dimension und einem SVM Intervalldaten zuzuweisen, ist keine gute Idee
  • Entferne so viele Nichtlinearitäten wie möglich. zu erwarten, dass ein Klassifikator eine Fourier-Analyse im Inneren durchführt, ist ziemlich naiv (auch wenn es dort eine Menge Komplexität verschwenden wird)
  • Erstellen Sie generische Features für alle Objekte, damit einige Samples in der Kette sie nicht ausschalten
  • Überprüfen Sie frühere Arbeiten. Oft werden Transformationen, die zur Visualisierung oder zum Testen ähnlicher Datentypen verwendet werden, bereits abgestimmt, um interessante Aspekte aufzudecken
  • Vermeiden Sie instabile, optimierende Transformationen wie PCA, die zu einer Überanpassung führen können
  • viel experimentieren

quelle
Wie definieren Sie "Intervalldaten"? Ich habe bei Google gesucht und viele verschiedene Definitionen gefunden.
Macht
Können Sie den PCA-Punkt näher erläutern?
Daniel Velkov
x|x-nächste Primzahl|<0,3
@DanielVelkov Wenn Sie PCA auf verrauschten Daten booten, sind die Komponenten häufig instabil. Dies fördert die Idee, eine globale PCA für den gesamten verfügbaren Satz bereitzustellen, was Informationen verliert und ein direkter Weg ist, die Bewertung zu verderben.
@mbq was ist, wenn PCA nur auf dem Trainingsset ausgeführt wird, wie es sein soll?
Daniel Velkov
1

Es gibt ein Buch von O'Reilly mit dem Titel " Feature Engineering for Machine Learning " von Zheng et al.

Ich habe das Buch gelesen und es behandelt verschiedene Arten von Daten (z. B. kategorial, Text ...) und beschreibt verschiedene Aspekte des Feature-Engineerings, die damit verbunden sind. Dies beinhaltet Dinge wie Normalisierung von Daten, Merkmalsauswahl, tf-idf im Text.

NumSim
quelle