Vor kurzem habe ich an einem Problem gearbeitet, um eine Kostenanalyse meiner Ausgaben für eine bestimmte Ressource durchzuführen. Normalerweise treffe ich einige manuelle Entscheidungen aus der Analyse und plane entsprechend.
Ich habe einen großen Datensatz im Excel-Format und mit Hunderten von Spalten, die die Verwendung der Ressource in verschiedenen Zeitrahmen und Typen definieren (andere verschiedene detaillierte Verwendung). Ich habe auch Informationen über meine letzten 4 Jahre an Daten und die tatsächliche Ressourcennutzung und die entsprechend angefallenen Kosten.
Ich hatte gehofft, einen NN zu schulen, um meine Kosten vorherzusagen und zu planen, noch bevor ich die Kostenanalyse manuell durchführen kann.
Das größte Problem, mit dem ich konfrontiert bin, ist jedoch die Notwendigkeit, die Merkmale für eine solche Analyse zu identifizieren. Ich hatte gehofft, dass es eine Möglichkeit gibt, die Merkmale aus dem Datensatz zu identifizieren.
PS: Ich habe eine Vorstellung von PCA und einigen anderen Techniken zur Reduzierung von Funktionssätzen. Ich sehe mir zunächst die Möglichkeit an, diese zu identifizieren.
quelle
Das ist eine großartige Frage und wahrscheinlich eine der schwierigsten Aufgaben bei ML.
Sie haben einige Möglichkeiten:
hoffentlich hilft das
quelle
Es ist ratsam, nicht nur die Korrelation des Ressourceneinsatzes mit den Kosten zu berücksichtigen, sondern auch die Rendite der Kosten des Ressourceneinsatzes. Die typische Herausforderung besteht darin, dass diese Renditen fast immer kumuliert oder verzögert sind. Ein Fall der Akkumulation liegt vor, wenn die Ressource die kontinuierliche Optimierung oder Verbesserung eines Prozesses ist, dessen Fehlen die Generierung von Einnahmen verlangsamt. Ein Fall von Verzögerung liegt vor, wenn für Forschungsressourcen für einen bestimmten Zeitraum Kosten ohne Auswirkungen auf die Einnahmen anfallen. Die Umsatzgenerierung, die beginnt, wenn die Forschung produktive Ergebnisse liefert, kann jedoch ein wesentlicher Faktor über den Gesamtkosten der gelieferten Ergebnisse sein.
Der Grund, warum Kostendaten an sich zu einem schlecht angepassten Netzwerklernen führen können, liegt darin, dass ein Netzwerk, das darauf trainiert ist, beispielsweise die Marketingkosten zu senken, diese auf Null setzt. Dies würde normalerweise zu einem rückläufigen Umsatzvorsprung führen, bis das Geschäft zusammenbricht. Ohne die Rückgabe der Rückgaben in die Trainingsinformationen kann kein nützliches Lernen stattfinden.
Ein grundlegendes MLP (Multi-Layer-Perzeptron) lernt die zeitlichen Eigenschaften der Daten, die Akkumulations- und Verzögerungsaspekte nicht. Sie benötigen ein zustandsbehaftetes Netzwerk. Der durchweg erfolgreichste Netzwerktyp für diese Art des Lernens zum jetzigen Zeitpunkt ist der LSTM-Netzwerktyp (Long Short Term Memory) oder eine seiner abgeleiteten Varianten. Umsatz- und Saldodaten müssen in Verbindung mit Aufwandsdaten verwendet werden, um das Netzwerk zu trainieren, um Geschäftsergebnisse für eine bestimmte Abfolge vorgeschlagener Ressourceneinsätze vorherzusagen (vollständig detaillierter Haushaltsplan).
Die Verlustfunktion muss die Sortierfrist mit den mittel- und langfristigen finanziellen Zielen in Einklang bringen. Negativ verfügbares Bargeld sollte zu einer deutlichen Erhöhung der Verlustfunktion führen, damit eine solche Vermeidung grundlegender Reputationsrisiken und Kreditkosten erlernt wird.
Welche Spalten in Ihren Daten stark mit der Kapitalrendite korrelieren, ist im Voraus schwer zu bestimmen. Sie können Spalten, die einem der folgenden Kriterien entsprechen, sofort ausschließen.
Die Daten können auf andere Weise reduziert werden
RBMs (eingeschränkte Boltzmann-Maschinen) können Merkmale aus den Daten extrahieren und PCAs können die Spalten mit niedrigem Informationsgehalt beleuchten, aber die Bedeutung der Spalten hinsichtlich ihrer Korrelation mit dem Umsatz wird mit diesen Geräten in ihrer Grundform nicht identifiziert.
quelle