Dies kann eine dumme Frage sein. Ich bin ein frischgebackener Hochschulabsolvent, der im Bereich der prädiktiven Modellierung arbeitet und feststellt, dass die Durchführung von Feature-Engineering einen hohen Stellenwert hat. In den meisten meiner akademischen Ausbildungen in Statistik wurde Feature Engineering und dergleichen (abgesehen von Argumenten gegen das Diskretisieren / Binning von Prädiktoren) zum Zweck der Erstellung von Inferenzmodellen jedoch fast nicht erwähnt. Ich habe mich gefragt, warum Feature Engineering bei der prädiktiven Modellierung eine größere Rolle spielt als bei der Entwicklung von Modellen für statistische Inferenz. Also ... welche Rolle spielt Feature Engineering bei der statistischen Inferenz? (im Gegensatz zur Rolle des Feature Engineering bei der prädiktiven Modellierung)
Basierend auf dem letzten Kommentar:
Mit statistischer Inferenz meine ich jede Analyse, bei der das Hauptziel darin besteht, die Beziehung zwischen einem Prädiktor und einer Antwortvariablen zu bewerten.
Mit Vorhersagemodellierung meine ich jede Analyse, bei der das Hauptziel darin besteht, Y zu schätzen oder zukünftige Werte vorherzusagen. (beinhaltet alle ML-Techniken)
quelle
Antworten:
Ich werde versuchen, den Grund für das Feature-Engineering im Allgemeinen zu veranschaulichen, beispielsweise möchte ich Bilder analysieren.
Beim Entwerfen von Features müssen wir berücksichtigen, dass diese eine Darstellung der Originaldaten / -bilder sind. Wenn ich nun weiß, welche Art von Informationen für die zu erledigende Aufgabe wichtig sind, benötige ich die Funktionen, um dies widerzuspiegeln.
Wenn ich beispielsweise den Inhalt eines Bildes wissen möchte und als Feature die Anzahl der Pixel im Bild auswähle, funktioniert dies offensichtlich nicht. Wenn ich nun die durchschnittliche Intensität der Pixel über Patches hinweg verwende, kann ich zwischen einem blauen und einem weißen Bild unterscheiden. Aber vielleicht möchte ich wissen, ob ein Objekt im Bild vorhanden ist und diese Funktion nutzlos ist. Ich kann also die Intensitätsgradienten zwischen den Pixeln berücksichtigen und ihre Variationen betrachten (aber dann kann ich nicht sagen, ob mein Bild eher blau oder weiß ist!).
Es gibt keine ideale Funktion, nur Funktionen, die für eine bestimmte Aufgabe entwickelt wurden, und diese Aufgabe ist nur der Person bekannt, die das gesamte Framework entwirft: Sie! Aus diesem Grund ist Feature Engineering wichtig. Die Forschung zum Thema Feature-Design ist jedoch umfangreich und für die meisten Aufgaben, mit denen Sie arbeiten, hat bereits jemand Features entworfen, die nachweislich hervorragend funktionieren, und Sie können sie einfach so verwenden, wie sie sind (oder sie bei Bedarf ein wenig verdrehen).
Die effizientesten Funktionen basieren auf Theorien aus verschiedenen mathematischen Bereichen und ihr Anwendungsbereich ist irgendwie eng. Im Gegensatz dazu haben Klassifikatoren oft ein breites Anwendungsspektrum, und deshalb denke ich, dass der Schwerpunkt oft auf ihnen liegt, während sie im akademischen Bereich studieren.
quelle
Wie in diesem Wiki-Artikel klargestellt wird ( https://en.wikipedia.org/wiki/Feature_engineering ), ist das Feature-Engineering ein wichtiger Schritt beim maschinellen Lernen, bei dem eine Reihe von Features oder Attributen generiert und kultiviert werden, die sich möglicherweise empirisch erweisen (nicht) notwendigerweise theoretisch) nützlich bei der Vorhersage oder Klassifizierung eines Ziels. Andrew Ng (und andere) verfügen über fundiertes Fachwissen in der Entwicklung einer Reihe von Merkmalen, aber angesichts der Vielzahl von Transformationen, die auf Daten angewendet werden können, um die Modellanpassung zu verbessern, der enormen Anzahl von Merkmalen, die üblicherweise analysiert werden, und der " Aufgrund der Black-Box-Natur vieler der verwendeten Algorithmen scheint Domänenwissen kaum Priorität zu haben.
Für mich ist es immer nützlich, darauf hinzuweisen, dass Inferenz vs. Vorhersage und Klassifizierung als separate Bereiche betrachtet werden können, wobei ersterer zur Statistik gehört und letzterer im Mittelpunkt des maschinellen Lernens steht. Offensichtlich gibt es in dieser Terminologie viele Überschneidungen, und diese Felder schließen sich keineswegs gegenseitig aus. Im Großen und Ganzen beinhaltet statistische Inferenz Expertenwissen, Domänenwissen, sorgfältige Spezifikation einer Hypothese, eine endliche (kleine) Menge von Attributen oder Merkmalen, gepaart mit einem experimentellen Design, um die Hypothese zu testen - klassische wissenschaftliche Untersuchung mit dem Ziel, Einsicht zu treiben und Verständnis relativ zur Grundwahrheit. Die ML-Vorhersage und -Klassifizierung kann andererseits hypothesengetrieben sein oder nicht, kann beschreibende Einsichten als Ziel haben oder nicht und kann die Grundwahrheit als Benchmark haben oder nicht.
quelle
Feature Engineering macht im Großen und Ganzen mindestens zwei Dinge.
Erstens können Sie Ihre Funktionen so bereinigen, umstrukturieren oder transformieren, dass die nützlichen Informationen verbessert und redundante oder Rauschinformationen minimiert werden. Vielleicht wissen Sie, dass eine Kategorie von Personen / Produkten / Widgets völlig irrelevant ist, und entfernen Sie sie.
Zweitens können Sie neue Funktionen basierend auf Domänenkenntnissen in Ihrem speziellen Bereich erstellen. In diesem Fall fügen Sie tatsächlich neue Informationen hinzu, die zuvor nicht vorhanden waren . In meiner eigenen Arbeit waren es diese technischen Funktionen, die den größten Nutzen bieten.
Dies ist wahrscheinlich schwer zu lehren, aber es ist bedauerlich, dass Ihr Programm diesen sehr wichtigen Schritt übersehen hat.
quelle