In vielen Anwendungen des maschinellen Lernens haben die sogenannten Datenerweiterungsmethoden die Erstellung besserer Modelle ermöglicht. Nehmen Sie zum Beispiel einen Trainingssatz mit Bildern von Katzen und Hunden an. Durch Drehen, Spiegeln, Anpassen des Kontrasts usw. ist es möglich, zusätzliche Bilder aus den Originalbildern zu generieren.
Bei Bildern ist die Datenerweiterung relativ einfach. Angenommen, man hat (zum Beispiel) einen Trainingssatz von Stichproben und einige hundert stetige Variablen, die verschiedene Dinge darstellen. Die Datenerweiterung erscheint nicht mehr so intuitiv. Was könnte in einem solchen Fall getan werden?
Antworten:
Ich verstehe diese Frage so, dass sie sowohl die Konstruktion von Features als auch den Umgang mit der Fülle von Features beinhaltet, die Sie bereits + konstruieren werden, relativ zu Ihren Beobachtungen (
N << P
).Funktionsaufbau
Nach dem Kommentar von @ yasin.yazici gibt es folgende Möglichkeiten, die Daten zu erweitern:
Ich bin mir sicher, dass ich noch viel mehr vermisse.
Merkmalsauswahl / Dimensionsreduzierung
Sie können die Dimensionalität mit Techniken wie PCA reduzieren (obwohl dies möglicherweise nicht der Fall ist, nachdem Sie Ihre Daten mit PCA-Variablen erweitert haben). Alternativ können Sie Algorithmen verwenden, die die Featureauswahl für Sie durchführen, z. B. Lasso, zufällige Gesamtstruktur usw.
quelle
Ich hatte ein ähnliches Problem, als ich unbeschriftete numerische Daten erweitern wollte. Ich habe die Daten folgendermaßen erweitert: (Angenommen, ich habe einen Datensatz mit der Größe 100 * 10.)
quelle