Wie wähle ich die relevanten Merkmale der Daten aus?

11

Vor kurzem habe ich an einem Problem gearbeitet, um eine Kostenanalyse meiner Ausgaben für eine bestimmte Ressource durchzuführen. Normalerweise treffe ich einige manuelle Entscheidungen aus der Analyse und plane entsprechend.

Ich habe einen großen Datensatz im Excel-Format und mit Hunderten von Spalten, die die Verwendung der Ressource in verschiedenen Zeitrahmen und Typen definieren (andere verschiedene detaillierte Verwendung). Ich habe auch Informationen über meine letzten 4 Jahre an Daten und die tatsächliche Ressourcennutzung und die entsprechend angefallenen Kosten.

Ich hatte gehofft, einen NN zu schulen, um meine Kosten vorherzusagen und zu planen, noch bevor ich die Kostenanalyse manuell durchführen kann.

Das größte Problem, mit dem ich konfrontiert bin, ist jedoch die Notwendigkeit, die Merkmale für eine solche Analyse zu identifizieren. Ich hatte gehofft, dass es eine Möglichkeit gibt, die Merkmale aus dem Datensatz zu identifizieren.

PS: Ich habe eine Vorstellung von PCA und einigen anderen Techniken zur Reduzierung von Funktionssätzen. Ich sehe mir zunächst die Möglichkeit an, diese zu identifizieren.

Karan Chopra
quelle

Antworten:

1

Da Sie alle Ihre Daten in einer Tabelle haben, ist es relativ einfach, jede Spalte unabhängig zu betrachten und dann zu prüfen, ob die Ausgabevariable (angefallene Kosten) eine Korrelation dazu aufweist.

Wenn die Spalte keine (oder nur eine sehr geringe) Korrelation mit der Ausgabevariablen aufweist, ist dies nicht wichtig. Diejenigen, die den Schnitt machen, werden dann weiter betrachtet.

Dies unterscheidet sich offensichtlich nicht wesentlich von der Funktionsweise eines Entscheidungsbaumalgorithmus (z. B. ID3).

Amrinder Arora
quelle
0

Es gibt keine feste Regel für die Feature-Auswahl. Sie müssen das Dataset manuell untersuchen und verschiedene Techniken für das Feature-Engineering ausprobieren. Und es gibt keine Regel, dass Sie dafür neuronale Netze anwenden sollten. Das Trainieren neuronaler Netze ist zeitaufwändig. Stattdessen können Sie mit entscheidungsbaumbasierten Methoden (zufälligen Gesamtstrukturen) experimentieren, da Ihre Daten ohnehin tabellarisch aufgebaut sind.

riemann77
quelle
Vielen Dank für die Eingabe, 1. Ich stimme zu, dass NN nicht der beste Weg ist, um die Hypothese zu testen, aber ich denke, mit NN können wir größere Beziehungen zwischen Merkmalen erzielen, um bessere Ergebnisse zu erzielen (in den meisten Fällen). 2. Das Problem, mit dem ich konfrontiert war, war die Auswahl der Features, die tatsächlich das Muster für mein Problem definieren würden, sowie die Definition der Feature-Gewichte.
Karan Chopra
0

Das ist eine großartige Frage und wahrscheinlich eine der schwierigsten Aufgaben bei ML.

Sie haben einige Möglichkeiten:

  1. Sie können Gewichtungsalgorithmen (z. B. Chi-Quadrat) verwenden, um zu verstehen, welche Funktionen am meisten zu Ihrer Ausgabe beitragen
  2. Sie können andere ML-Algorithmen verwenden, um zu klassifizieren, ob ein Feature zu Ihren Vorhersagen beiträgt oder nicht
  3. Sie können andere ML-Algorithmen (außer NN) verwenden, die Ihnen von Natur aus Feature-Gewichtungen liefern (z. B. Random Forest).

hoffentlich hilft das

Ragy Ibrahim
quelle
0

Es ist ratsam, nicht nur die Korrelation des Ressourceneinsatzes mit den Kosten zu berücksichtigen, sondern auch die Rendite der Kosten des Ressourceneinsatzes. Die typische Herausforderung besteht darin, dass diese Renditen fast immer kumuliert oder verzögert sind. Ein Fall der Akkumulation liegt vor, wenn die Ressource die kontinuierliche Optimierung oder Verbesserung eines Prozesses ist, dessen Fehlen die Generierung von Einnahmen verlangsamt. Ein Fall von Verzögerung liegt vor, wenn für Forschungsressourcen für einen bestimmten Zeitraum Kosten ohne Auswirkungen auf die Einnahmen anfallen. Die Umsatzgenerierung, die beginnt, wenn die Forschung produktive Ergebnisse liefert, kann jedoch ein wesentlicher Faktor über den Gesamtkosten der gelieferten Ergebnisse sein.

Der Grund, warum Kostendaten an sich zu einem schlecht angepassten Netzwerklernen führen können, liegt darin, dass ein Netzwerk, das darauf trainiert ist, beispielsweise die Marketingkosten zu senken, diese auf Null setzt. Dies würde normalerweise zu einem rückläufigen Umsatzvorsprung führen, bis das Geschäft zusammenbricht. Ohne die Rückgabe der Rückgaben in die Trainingsinformationen kann kein nützliches Lernen stattfinden.

Ein grundlegendes MLP (Multi-Layer-Perzeptron) lernt die zeitlichen Eigenschaften der Daten, die Akkumulations- und Verzögerungsaspekte nicht. Sie benötigen ein zustandsbehaftetes Netzwerk. Der durchweg erfolgreichste Netzwerktyp für diese Art des Lernens zum jetzigen Zeitpunkt ist der LSTM-Netzwerktyp (Long Short Term Memory) oder eine seiner abgeleiteten Varianten. Umsatz- und Saldodaten müssen in Verbindung mit Aufwandsdaten verwendet werden, um das Netzwerk zu trainieren, um Geschäftsergebnisse für eine bestimmte Abfolge vorgeschlagener Ressourceneinsätze vorherzusagen (vollständig detaillierter Haushaltsplan).

Die Verlustfunktion muss die Sortierfrist mit den mittel- und langfristigen finanziellen Zielen in Einklang bringen. Negativ verfügbares Bargeld sollte zu einer deutlichen Erhöhung der Verlustfunktion führen, damit eine solche Vermeidung grundlegender Reputationsrisiken und Kreditkosten erlernt wird.

Welche Spalten in Ihren Daten stark mit der Kapitalrendite korrelieren, ist im Voraus schwer zu bestimmen. Sie können Spalten, die einem der folgenden Kriterien entsprechen, sofort ausschließen.

  • Immer leer
  • Andere Konstanten, die für jede Zeile den gleichen Wert haben
  • Diejenigen, die immer aus anderen Spalten abgeleitet werden können

Die Daten können auf andere Weise reduziert werden

  • Vollständige Beschreibung von Daten durch einfache Charakterisierung von Trends
  • Verwenden von Indizes, um lange Zeichenfolgen mit 100% iger Genauigkeit anzugeben, indem jeder Zeichenfolge eine Nummer zugewiesen wird
  • Kompression
  • Andernfalls wird die Redundanz in den Daten reduziert

RBMs (eingeschränkte Boltzmann-Maschinen) können Merkmale aus den Daten extrahieren und PCAs können die Spalten mit niedrigem Informationsgehalt beleuchten, aber die Bedeutung der Spalten hinsichtlich ihrer Korrelation mit dem Umsatz wird mit diesen Geräten in ihrer Grundform nicht identifiziert.

Douglas Daseeco
quelle