Feature-Generierung - Hierbei werden unstrukturierte Rohdaten verwendet und Features (dh Variablen) für die potenzielle Verwendung in Ihrer statistischen Analyse definiert. Im Fall von Text Mining können Sie beispielsweise mit einem Rohprotokoll von Tausenden von Textnachrichten (z. B. SMS, E-Mail, Nachrichten aus sozialen Netzwerken usw.) beginnen und Features generieren, indem Sie niederwertige Wörter (z. B. Stoppwörter) mit einer bestimmten Größe entfernen Wortblöcke (dh n-Gramm) oder Anwenden anderer Regeln.
Merkmalsextraktion - Nach dem Generieren von Merkmalen ist es häufig erforderlich, Transformationen der ursprünglichen Merkmale zu testen und eine Teilmenge dieses Pools potenzieller ursprünglicher und abgeleiteter Merkmale zur Verwendung in Ihrem Modell auszuwählen (dh Merkmalsextraktion und -auswahl). Das Testen abgeleiteter Werte ist ein häufiger Schritt, da die Daten wichtige Informationen enthalten können, die ein nicht lineares Muster oder eine Beziehung zu Ihrem Ergebnis aufweisen. Daher ist die Bedeutung des Datenelements möglicherweise nur im transformierten Zustand (z. B. Ableitungen höherer Ordnung) ersichtlich. Die Verwendung zu vieler Features kann zu einer Multiplikation der Kolinearität oder anderen verwirrenden statistischen Modellen führen, während das Extrahieren der Mindestanzahl von Features für den Zweck Ihrer Analyse dem Prinzip der Sparsamkeit folgt.
Die Verbesserung des Funktionsbereichs auf diese Weise ist häufig ein notwendiger Schritt bei der Klassifizierung von Bildern oder anderen Datenobjekten, da der unformatierte Funktionsbereich in der Regel mit einer überwältigenden Menge unstrukturierter und irrelevanter Daten gefüllt ist, die das enthalten, was im Paradigma häufig als "Rauschen" bezeichnet wird eines "Signals" und "Rauschens" (was bedeutet, dass einige Daten einen Vorhersagewert haben und andere Daten nicht). Indem Sie den Funktionsbereich erweitern, können Sie die wichtigen Daten, die einen prädiktiven oder anderen Wert in Ihrer Analyse haben (z. B. das "Signal"), besser identifizieren und gleichzeitig störende Informationen (z. B. "Rauschen") entfernen.