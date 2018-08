Para millones de personas que no pueden oír, la lectura de labios ofrece una ventana a las conversaciones que se perderían sin ella. Pero la práctica es difícil, y los resultados a menudo son inexactos. (como se puede ver en estos vídeos de Bad Lip Reading).

Ahora, los investigadores están reportando un nuevo programa de inteligencia artificial (IA) que superó a los lectores profesionales de labios y la mejor IA hasta la fecha, con solo la mitad de la tasa de error del mejor algoritmo anterior.

Si se perfecciona e integra en dispositivos inteligentes, el enfoque podría poner la lectura de labios en la palma de las manos de todos, señala el portal de la revista Science.

"Es una obra fantástica", opinó Helen Bear, una científica informática de la Universidad Queen Mary de Londres.

Escribir código de computadora que pueda leer los labios es enloquecedoramente difícil. Entonces, en el nuevo estudio, los científicos recurrieron a una forma de IA llamada aprendizaje automático, en la que las computadoras aprenden de los datos. Alimentaron a su sistema con miles de horas de vídeos junto con transcripciones, y la computadora resolvió la tarea por sí misma.

Los investigadores comenzaron con 140,000 horas de vídeos en YouTube de personas hablando en diversas situaciones. Luego, diseñaron un programa que creaba clips de unos segundos de duración con el movimiento de la boca para cada fonema, o sonido de palabra.

El programa filtró el habla no inglesa, las caras que no hablan, el vídeo de baja calidad y el vídeo que no se grabó directamente. Luego, cortaron los vídeos alrededor de la boca. Eso produjo casi 4,000 horas de metraje, incluidas más de 127,000 palabras en inglés.

El proceso y el conjunto de datos resultante, siete veces más grande que cualquier otro, son "importantes y valiosos" para cualquier persona que quiera entrenar sistemas similares para leer los labios, opinó Hassan Akbari, un científico informático de la Universidad de Columbia.

El proceso se basa en parte en redes neuronales, algoritmos de IA que contienen muchos elementos informáticos simples conectados entre sí que aprenden y procesan información de forma similar al cerebro humano.

Cuando el equipo alimentó el programa con el vídeo sin etiqueta, estas redes produjeron clips recortados de movimientos de la boca. El siguiente programa del sistema, que también usa redes neuronales, tomó esos clips y creó unalista de posibles fonemas y sus probabilidades para cada cuadro de video. Un conjunto final de algoritmos tomó esas secuencias de posibles fonemas y produjo secuencias de palabras en inglés.

Después del entrenamiento, los investigadores probaron su sistema en 37 minutos de vídeo que no había visto antes. La IA identificó erróneamente solo el 41% de las palabras, informan en un documento publicado este mes en el sitio web arXiv. Puede que no parezca mucho, pero el mejor método de computadora anterior, que se enfoca en letras individuales en lugar de fonemas, tiene una tasa de error de palabras del 77%. En el mismo estudio, los lectores profesionales de labios erraron a una tasa del 93% (aunque en la vida real tienen contexto y lenguaje corporal para seguir, lo que ayuda). El trabajo fue realizado por DeepMind, una compañía de IA con sede en Londres, que se negó a comentar sobre el registro.

Integrar el programa en un teléfono permitiría a las personas con problemas de audición llevarles un "traductor" a donde sea que vayan, dice Akbarni. Tal traductor también podría ayudar a las personas que no pueden hablar, por ejemplo, debido a las cuerdas vocales dañadas.

Bear ve otras aplicaciones, como analizar vídeos de seguridad, interpretar filmaciones históricas o escuchar a un compañero de Skype cuando el audio cae. El nuevo enfoque de IA podría incluso responder a uno de los mayores misterios del mundo: en la final de la Copa del Mundo de 2002, el jugador de fútbol francés Zinedine Zidane fue expulsado por golpear dramáticamente a un oponente. Aparentemente fue provocado por charlas de basura. ¿Qué fue lo que le dijeron? Finalmente podemos saber, pero podríamos lamentar que hayamos preguntado.