Automatisiertes Lippenlesen: Ableiten, was jemand sagt, basierend auf dem Video, in dem er spricht

7

Einige Menschen können ziemlich gut Lippen lesen: Indem sie jemanden beobachten, der spricht, können sie sagen, was der Sprecher sagt (auch ohne die Rede zu hören).

Wurde daran gearbeitet, Computersoftware zum Lippenlesen zu erstellen? Mit anderen Worten, ist es bei einem Video von jemandem, der spricht, möglich, Software zu erstellen, um daraus zu schließen, was die Person sagt (mit Zugriff nur auf den Videostream, ohne Audio)? Wurden Untersuchungen zu diesem Problem durchgeführt oder sogar Systeme bereitgestellt?

Hintergrund und Motivation: In den USA können bestimmte Gesetze die Aufnahme von Audio ohne Zustimmung verbieten. Es gibt jedoch im Allgemeinen kein Verbot, Videos ohne Zustimmung der aufgezeichneten Personen aufzunehmen. (Aus diesem Grund sehen Sie überall Überwachungskameras und zeichnen nur Video, aber niemals Audio auf.) Ich bin gespannt, ob die Technologie so weit fortgeschritten ist, dass automatisierte Methoden möglicherweise nur anhand von Video erkennen können, was die Leute sagen - oder ob dies in naher Zukunft machbar sein könnte. Abgesehen von den Auswirkungen auf den Datenschutz könnte eine solche Technologie sehr nützlich sein.

DW
quelle

Antworten:

3

In diesem Bereich scheint es einige Arbeiten zu geben. Siehe zum Beispiel dieses Papier und die darin enthaltenen Referenzen. Es gibt auch Demonstrationen von implementierten Systemen auf Youtube, siehe zum Beispiel dieses Video

adrianN
quelle
2

Hier gibt es einige neuere Arbeiten:

LipNet: Lipreading auf Satzebene . Yannis M. Assael, Brendan Shillingford, Shimon Whiteson und Nando de Freitas.

Sie erreichen eine Genauigkeit von 93% bei einem Korpus von 3-Sekunden-Videos mit sprechendem Kopf, verglichen mit einer Genauigkeit von 52% bei erfahrenen menschlichen Lippenlesern. Sie haben ein Video, in dem ihre Ergebnisse vorgeführt werden.

DW
quelle