Methoden zur Analyse von Sprachaufnahmen über 10 Stunden?

Ich habe eine Situation, in der ich eine große MP3-Datei habe, die die Ausgabe eines Journalisten-Aufnahmegeräts ist. Dieses Gerät läuft lange, da ich vergesse, Aufnahmetasten zu drücken, wenn ich mit Personen auf der Website spreche, von denen ich Berichte erhalte Zwischenfälle etc ..

Im Grunde genommen habe ich eine 11-stündige MP3-Datei und derzeit analysiere ich sie, um die Aufnahmen zu finden, die ich gemacht habe. Dies dauert einige Stunden 4-5 Stunden.

Gibt es eine Möglichkeit?
1. Um die Sprachaufzeichnungen allein aus dieser Datei zu erhalten.
2. Beseitigen oder verringern Sie die Lautstärke des Verkehrs oder anderer Hintergrundgeräusche wie Maschinengeräusche usw., sodass nur Sprachgeräusche aus der MP3- Datei extrahiert werden.

Ich bin mir nicht sicher, ob dies möglich ist

Vielen Dank

recording voice audio-recording Siva
quelle

Ich fürchte, ich kann Ihnen in Ihrer aktuellen Situation nicht weiterhelfen (obwohl Sie Ihre Interviews möglicherweise schneller finden, wenn Sie sie mit doppelter oder höherer Geschwindigkeit wiedergeben?), Aber vielleicht sollten Sie in Zukunft einen Notizblock bei sich haben und Notieren Sie sich ungefähr, wann Sie mit Leuten sprechen. Notieren Sie sich auch, wann Sie mit der Aufnahme beginnen, und springen Sie dann fast sofort zu jeder Sprachaufnahme.

Kromey

Um von Anfang an klar zu sein: Es ist eine sehr komplizierte Aufgabe, Audioaufnahmen automatisch zu analysieren. Der Versuch, zwischen Sprache und Lärm zu unterscheiden, ist theoretisch möglich, aber ich bezweifle, dass es im Internet eine Ein-Klick-Lösung gibt. Das klingt eher nach Forschungsarbeit.

Außerdem wird Ihre Aufnahme wahrscheinlich keine Passagen mit völliger Stille enthalten. Wäre dies der Fall, könnte man die Datei an den Stellen aufteilen, an denen absolut kein Ton zu hören ist. Dies erfordert auch einige Programmierungen. Ich kann mich an kein Programm erinnern, das dies tut.

Suche nach wichtigen Teilen oder Teilen mit Stimme

Möglicherweise möchten Sie ein (kostenloses, plattformübergreifendes) Programm wie Audacity verwenden, um die Wellenform der MP3-Datei anzuzeigen. Mit der Wellenform können Sie sehen, wo "der größte Teil" der Aktion ist.

Bildbeschreibung hier eingeben

Zum Beispiel sind die von mir markierten bräunlichen Bereiche diejenigen, die eine bestimmte Schwelle überschreiten. Es sind höchstwahrscheinlich diejenigen mit den Sprachdaten, die Sie suchen.

Die anderen (blauen) Teile enthalten möglicherweise keine relevanten Informationen oder Sprache, da sie nicht so laut sind wie die anderen.

Sehen Sie sich auch die Lücken dazwischen an - diese helfen Ihnen, Teile zu identifizieren, in denen wirklich nichts los ist. Sie könnten die Datei dort schneiden und teilen, um verschiedene "Interviews" (oder was auch immer Sie aufzeichnen) zu erhalten.

Rauschunterdrückung

Um Rauschen zu vermeiden, können Sie versuchen, den Equalizer-Effekt zu verwenden und bestimmte Frequenzen herauszufiltern. Sie müssen damit experimentieren, da nicht jedes Aufnahmegerät gleich ist und sich die Geräuschbedingungen ändern.

Allerdings können Sie versuchen, Frequenzen zwischen 500 Hz und 1 kHz (oder sogar bis zu 4 kHz) zu verstärken und Frequenzen unter 500 Hz und über 8 kHz zu senken.

Audacity verfügt auch über bestimmte Rauschunterdrückungsfilter, um statische Aufladungen, Rauschen, Brummen oder andere konstante Hintergrundgeräusche zu entfernen. Experimentiere mit denen.

slhck
quelle

Ich habe bereits die Wellenformmethode von Audacity ausprobiert und es gibt in meinem Fall keine große Unterscheidung zwischen Rauschen und Sprache, nur einen geringfügigen Unterschied. Wenn ich sie entferne, verpasse ich auch versehentlich Sprachaufzeichnungen. Wie auch immer möglich? Filter entfernen sehr leise Sprachaufnahmen zu ..

Siva

Außerdem haben die Aufnahmen sehr leise Stimmen, da ich sie bei Besprechungen verwende, bei denen die Leute leise sprechen können

Siva

@Siva Das ist schlecht. Wenn Sie in Ihren Aufnahmen nicht einmal den Unterschied zwischen Sprache und Rauschen erkennen können, wird dies vermutlich kein Algorithmus automatisch tun können.

Slhck

Ich halte die Frage offen für weitere Eingaben für ein paar Tage .. Wenn nichts, dann werde ich Ihre als Antwort markieren

Siva

@Siva Kein Problem, vielleicht kommt jemand mit ein paar Ideen ..

Slhck

Methoden zur Analyse von Sprachaufnahmen über 10 Stunden?

Antworten:

Suche nach wichtigen Teilen oder Teilen mit Stimme

Rauschunterdrückung