Lip-lezen kunstmatige intelligentie kan de doven helpen of spionnen

iStock.com/Jake Olimb

Lip-lezen kunstmatige intelligentie kan de doven helpen of spionnen

Door Matthew HutsonJul. 31, 2018, 15.15 uur

Voor miljoenen mensen die het niet kunnen horen, biedt liplezen een venster op in gesprekken die zonder dit verloren zouden gaan. Maar de oefening is moeilijk en de resultaten zijn vaak onnauwkeurig (zoals je kunt zien in deze Bad Lip Reading-video's). Nu rapporteren onderzoekers een nieuw kunstmatige intelligentie (AI) programma dat professionele liplezers en de beste AI tot nu toe overtrof, met slechts de helft van het foutenpercentage van het vorige beste algoritme. Indien geperfectioneerd en geïntegreerd in slimme apparaten, zou de aanpak lipaflezing in de palm van ieders handen kunnen leggen.

It s een fantastisch stuk werk, zegt Helen Bear, een computerwetenschapper aan de Queen Mary University in Londen die niet bij het project betrokken was.

Computercode schrijven die lippen kan lezen is waanzinnig moeilijk. Dus in de nieuwe studie gingen wetenschappers over op een vorm van AI genaamd machine learning, waarin computers van gegevens leren. Ze voedden hun systeem duizenden uren video's met transcripties en lieten de computer de taak voor zichzelf oplossen.

De onderzoekers begonnen met 140.000 uur aan YouTube-video's van mensen die in verschillende situaties spraken. Vervolgens ontwierpen ze een programma dat enkele seconden clips maakte met de mondbeweging voor elk foneem, of woordgeluid, geannoteerd. Het programma filterde niet-Engelse spraak, niet-sprekende gezichten, video van lage kwaliteit en video die niet recht vooruit werd geschoten. Vervolgens sneden ze de video's rond de mond bij. Dat leverde bijna 4000 uur aan beeldmateriaal op, inclusief meer dan 127.000 Engelse woorden.

Het proces en de resulterende gegevensverzameling even keer groter dan iets in zijn soort zijn belangrijk en waardevol voor iedereen die soortgelijke systemen wil trainen om lippen te lezen, zegt Hassan Akbari, een computer wetenschapper aan de Columbia University die niet betrokken was bij het onderzoek.

Het proces is gedeeltelijk afhankelijk van neurale netwerken, AI-algoritmen die veel eenvoudige, onderling verbonden computerelementen bevatten die informatie leren en verwerken op een manier die vergelijkbaar is met het menselijk brein. Toen het team het programma zonder label voerde, produceerden deze netwerken bijgesneden clips van mondbewegingen. Het volgende programma in het systeem, dat ook neurale netwerken gebruikte, nam die clips en kwam met een lijst van mogelijke fonemen en hun waarschijnlijkheden voor elk videoframe. Een laatste reeks algoritmen nam die reeksen mogelijke fonemen en produceerde reeksen Engelse woorden.

Na de training testten de onderzoekers hun systeem op 37 minuten video die het nog niet eerder had gezien. De AI heeft slechts 41% van de woorden verkeerd geïdentificeerd, melden ze in een artikel dat deze maand op de website arXiv is geplaatst. Dat klinkt misschien niet als veel, maar de beste vorige computermethode, die zich richt op afzonderlijke letters in plaats van fonemen, had een woordfoutpercentage van 77%. In dezelfde studie vergisten professionele liplezers 93% (hoewel ze in het echt context en lichaamstaal hebben om verder te gaan, wat helpt). Het werk werd gedaan door DeepMind, een AI-bedrijf gevestigd in Londen, die weigerde commentaar te geven op de plaat.

Bear vindt het leuk dat het programma begrijpt dat een foneem er anders uit kan zien, afhankelijk van wat er voor en na wordt gezegd. (De mond heeft bijvoorbeeld een andere vorm om de t in boot te zeggen dan die in et. ) Ze vindt het ook leuk dat het systeem verschillende fasen heeft voor het voorspellen van fonemen van lippen en het voorspellen van woorden uit fonemen. Dat betekent dat als u het systeem wilt leren nieuwe woordenschatwoorden te herkennen, u alleen de laatste fase opnieuw moet trainen. Maar de AI heeft zijn zwakke punten, zegt ze. Het vereist duidelijke, ongecompliceerde video en een foutenpercentage van 41% is verre van perfect.

Door het programma in een telefoon te integreren, kunnen slechthorenden een "vertaler" meenemen waar ze ook gaan, zegt Akbarni. Zo'n vertaler kan ook mensen helpen die niet kunnen praten, bijvoorbeeld vanwege beschadigde stembanden. Voor anderen zou het eenvoudig kunnen helpen bij het parsen van cocktailchatter.

Bear ziet andere toepassingen, zoals het analyseren van beveiligingsvideo's, het interpreteren van historische beelden of het horen van een Skype-partner wanneer de audio zakt. De nieuwe AI-aanpak zou zelfs een van 's werelds grootste mysteries kunnen beantwoorden: In de Wereldbekerfinale van 2002 werd de Franse voetballer Zinedine Zidane uitgeworpen omdat hij een tegenstander in de borst dramatisch kopte. Hij werd blijkbaar door prullenbak gepraat. Wat gezegd werd? We zullen het eindelijk weten, maar we kunnen er spijt van hebben dat we het hebben gevraagd.