Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung.
Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 = 65%
Wie erwartet führten höhere Geräuschpegel zu einer geringeren Genauigkeit.
Dann entschied ich mich für eine Datenerweiterung mit Rauschen (Modell 2) . Also nahm ich den Datensatz und duplizierte ihn mit denselben Dateien, fügte ihnen jedoch rosa Rauschen (+0 dB SNR) hinzu.
Wie erwartet (von mir) erhöhte sich die Gesamtgenauigkeit (allerdings um 0,5%) und das Netzwerk wurde robuster gegenüber Rauschverfälschungen der Eingänge.
Jedoch! Eine Sache, die ich nicht erwartet hatte, war, dass das Netzwerk jetzt seine Genauigkeit reduziert hat, wenn nur Eingaben ohne Rauschen (Validierungseingaben) vorhergesagt wurden. Irgendwie hat es sich an die sauberen Eingänge angepasst, wodurch die Vorhersagegenauigkeit dieser Audios verringert wurde.
In Zahlen prognostiziert Model2 eine Genauigkeit von 69% für verrauschte Eingaben (nicht unbedingt das gleiche Rauschen, mit dem trainiert wurde) und eine Genauigkeit von 47% für saubere Eingaben.
Gibt es eine Erklärung oder Intuition für dieses Ergebnis?
Ich hatte erwartet, dass das Netzwerk, das jetzt immer vielfältigere Trainingsdaten hat, aussagekräftigere Funktionen lernen würde. Ich denke, es ist schwieriger, sich an die verrauschten Eingänge anzupassen, aber ich verstehe immer noch nicht, warum es hauptsächlich an die sauberen Eingänge angepasst wurde.
--------------------------------------------- BEARBEITEN 1 --------------------------------------------- ---------------
Eine weitere Information, die hilfreich sein kann:
Selbst wenn Model2 an verrauschten Eingängen mit sehr wenig Rauschen ausgewertet wird, ist das Netzwerk weitaus leistungsfähiger als nur an sauberen Eingängen (die den Eingängen mit wenig Rauschen für unsere Ohren sehr ähnlich sind).
Antworten:
Sie passen ein Modell an fehlerfreie Eingabefunktionen an. Dann haben Sie Ihren Daten einen Fehler (Rauschen) hinzugefügt und das Modell erneut angepasst. Sie haben bei verrauschten Eingängen (fehlerhafte Eingänge) eine schlechtere Vorhersage beobachtet als bei rauschfreien Eingängen (fehlerfreie Eingänge). Sie haben erwartet, dass das Modell bei rauschfreien Eingängen genauso gut ist wie das Vorgängermodell und bei verrauschten Eingängen besser.
Sie haben keine weiteren Trainingsdaten hinzugefügt, sondern lediglich dieselben Daten mit Rauschen dupliziert. Intuitiv wird ein Modell, das auf ALLE rauschfreien Eingaben trainiert wurde, genauere Vorhersagen haben, wenn Eingaben auch rauschfrei sind, als ein Modell, das auf ALLE verrauschten Daten trainiert wurde. In ähnlicher Weise ist meine Intuition, dass ein Modell, das mit allen verrauschten Daten trainiert wurde, bei der Vorhersage von verrauschten Eingaben genauer ist als ein Modell, das mit allen rauschfreien Daten trainiert wurde. Wenn Sie eine Mischung aus rauschfreien und verrauschten Daten haben, haben Sie meiner Meinung nach bessere Vorhersagen für verrauschte Daten als ein Modell, das nur mit rauschfreien Daten trainiert wurde, und bessere Vorhersagen für rauschfreie Daten als ein Modell, das nur mit rauschfreien Daten trainiert wurde. Dies scheint mit dem übereinzustimmen, was Sie beobachtet haben.
BEARBEITEN:
Grundsätzlich tritt eine Überanpassung auf, wenn wir Rauschen in den Daten mit Signal verwechseln. Ich verwende den Begriff Lärm im konzeptuellen Sinne von nutzlosen Informationen oder Informationen, die nur für Trainingsdaten spezifisch sind. In diesem Fall passt das Modell gut zu den Trainingsdaten, lässt sich jedoch nicht gut verallgemeinern. Stellen Sie sich vor, wir haben Punkte und das Modell interpoliert alle Punkte. Wenn die Punkte verrauscht sind, ist dieses Verhalten unerwünscht. Mein rudimentäres Wissen über die Datenerweiterung ist, dass sie die Überanpassung reduziert, da das Modell, das wir anpassen, beim Hinzufügen von Rauschen zu Trainingsdaten dazu neigt, den Fehler zwischen diesen nahe gelegenen Punkten auszugleichen, um den Gesamtfehler zu minimieren. Dieses Modell ist im Durchschnitt besser, da es weniger Fehler bei der Vorhersage von verrauschten und rauschfreien Daten aufweist. Es wird besser auf Daten verallgemeinert, die sich geringfügig von den Trainingsdaten unterscheiden können. Jedoch,
quelle