Suche
  • IoT, Big Data, Künstliche Intelligenz
  • Digitalisierung hinterfragt
Suche Menü

Google kann besser Lippen lesen als Menschen

Forscher der Google Tochterfirma DeepMind haben gemeinsam mit Mitarbeitern der Universität von Oxford einer künstlichen Intelligenz das Lippenlesen antrainiert. Dafür hat die Software über 5.000 Stunden an Videomaterial ausgwertet.
Das neuronale Netzwerk mit dem Namen WLAS (Kurzform für „Watch, Listen, Attend and Spell“) erreichte dabei eine Trefferquote von fast 47 Prozent und ist dem Menschen damit weit überlegen. Ein erfahrener Lippenleser, der Teile des gleichen Videomaterials auswertete, erreichte hingegen nur eine Genauigkeit von rund 12 Prozent. Während der Algorithmus fast jedes zweite Wort richtig erkennt, hat der Mensch nur bei gut jedem achten Erfolg.

Die Universät von Oxford hat mit ihrer Software „LipNet“ in der Vergangenheit bereits ähnliche Versuche unternommen. Diese erreicht zwar eine Genauigkeit von 93 Prozent, kann aber nur zwischen 51 verschiedenen Wörtern unterscheiden. Die KI von DeepMind berherrscht 17.500 Wörter.

Als mögliche Einsatzzwecke dieser Technologie nennen die Entwickler die automatische Annotation von Stummfilmen oder die Assistenz von hörgeschädigten Menschen, die damit Unterhaltungen nachvollziehen könnten. Aber auch die Steuerung von digitalen Assistenten wie Siri oder Alexa soll damit möglich sein.

Ein nahe liegendendes und sehr lukratives Szenario stellt mit Sicherheit die automatisierte Überwachung und Auswertung von Gesprächen dar. Hochauflösende Satelliten und Überwachungskameras, sowie Datenbrillen könnten das dafür erforderliche Bildmaterial liefern.

Weitere Details gibt es in der wissenschaftlichen Veröffentlichung des Forscherteams, diese trägt den Titel Lip Reading Sentences in the Wild.

 

 

Bildquelle: http://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.