Angenommen, es sind 3 Personen im Raum. Jeder von ihnen hat ein einzigartiges Timbre. Ich möchte Menschen an ihrer Klangfarbe erkennen und wissen, wer spricht.
7
Die Aufgabe, eine lange zusammenhängende Audioaufnahme aufzunehmen und in Teile aufzuteilen, in denen nur ein Sprecher spricht - ohne vorherige Kenntnis der Spracheigenschaften jedes Sprechers - wird als "Sprecher-Diarisierung" bezeichnet. Links zum Forschungscode finden Sie auf der Wikipedia-Seite .
Wenn Sie zuvor Aufnahmen für jede Stimme gemacht haben und lieber eine Klassifizierung durchführen möchten, ist dies ein etwas anderes Problem (Sprechererkennung oder Sprecheridentifikation). Hierfür stehen hier Softwaretools zur Verfügung (beachten Sie, dass Spracherkennungspakete für allgemeine Zwecke wie Sphinx oder HTK flexibel genug sind, um dazu überredet zu werden).