Wie wirkt sich Rauschen auf die Generalisierung aus?

Hilft die Erhöhung des Datenrauschens, die Lernfähigkeit eines Netzwerks zu verbessern? Macht es einen Unterschied oder hängt es vom zu lösenden Problem ab? Wie wirkt es sich auf den Generalisierungsprozess insgesamt