À Punt y MLLP (Universitat Politècnica de València): ¿el proyecto definitivo de transcripción automatizada?
La transcripción automatizada quizá sea la solución que necesita la industria broadcast para lograr el 100% de accesibilidad a los contenidos audiovisuales. Pero, ¿se puede alcanzar la fiabilidad, latencia mínima y estabilidad necesaria al tiempo que se preserva la indispensable labor de los transcriptores?
Vicente Fuster, responsable del equipo de informática de Em Punt, relata el último gran desarrollo impulsado desde la corporación valenciana: un sistema de transcripción para directos y diferidos desarrollado a través de un convenio con la Universitat Politècnica de València – UPV.
O Ley 7/2010 de 31 de marzo (Ley General de la Comunicación Audiovisual que, por cierto, será renovada en el futuro cercano), exige que la comunicación audiovisual televisiva subtitule al menos el 75% de los programas, aportando adicionalmente dos horas a la semana de interpretación con lengua de signos. Hablamos de todo un desafio. Aunque la accesibilidad de los contenidos en diferido puede abordarse si se dispone el tiempo necesario, la transcripción en directo sigue suponiendo dificuldades para lograr la deseada latencia cero e um margen de error mínimo. Es cierto que actualmente se emplean diferentes recursos humanos o herramientas digitales. Sin embargo, ninguno de los dos mundos es perfecto: los transcriptores podrán ofrecer una captación mucho más fidedigna, si bien se alejan del tiempo real. Por otro lado, los sistemas de automatización reducirán la latencia, pero fallarán estrepitosamente a la hora de captar lenguas regionales, como pueda ser el valenciano, ele gallego ou o euskera.
A equipe de Em Punt, liderado por Vicente Fuster sim Pau Peiró bajo el liderazgo de Higinio Añó Sanz (director del departamento de tecnología), ha logrado el difícil equilibrio entre ambos mundos. Gracias a un convenio con la UPV, y tras profundos desarrollos tanto a nivel de ingeniería como de entrenamiento léxico con la meios de comunicação de la cadena y de la Acadèmia Valenciana de la Llengua (AVL), se ha logrado el que posiblemente sea el sistema más sólido preparado para transcribir una lengua cooficial española. En él, se aúna una IA rápida y eficiente, un sistema de integración en emisiones ligero y funcional, y la imprescindible labor del equipo de transcripción, encargado de corregir el primer resultado del sistema y de realizar rehablados para optimizar el funcionamiento de la herramienta.
Fuster profundiza en las claves de esta solución que también ha contado con una especial implicación por parte de Alfred Costa Folgado, director de la Societat Anónima de Mitjans de Comunciació – SAMC; Empar Marco Estellés, anterior directora de la SAMC; Mar Iglesias, presidenta en funciones de la Corporació Valenciana de Mitjans Audiovisuals – CVMA; Enrique Soriano Hernández, anterior director de la Corporació Valenciana de Mitjans Audiovisuals; y todo el equipo de la Universitat Politècnica de València, liderado por Alfons Juan Ciscar, catedrático de la UPV y director del grupo de investigación MLLP (instituto VRAIN).
El contexto de À Punt… y las televisiones españolas
La iniciativa de transcripción y subtitulación automatizada iniciada por À Punt toma como base la labor de servicio público que tiene la corporación para seguir potenciando la accesibilidad de sus contenidos. El objetivo es claro: acercar cada formato a cada espectador de la Comunidad Valenciana a través de diferentes herramientas de accesibilidad, ya sea audiodescripción, subtitulado o interpretación en lengua de signos.
El desarrollo se enmarca en un contexto global complejo, en el que los grandes agentes mundiales como Google ó Microsoft apenas dedican esfuerzos a crear sistemas capaces de realizar el speech-to-text de idiomas como el valenciano, ele gallego ou o euskera. Del mismo modo, dada su estrategia de servicio global, estos agentes confían en propuestas nuvem ó híbridas; soluciones que ya sea por que la tecnología no está lista o por las amplias distancias con los centros de procesamiento, no alcanzan la inmediatez deseada.
Las necesidades del proyecto estaban sobre la mesa. Era imprescindible una herramienta con unos grandes porcentajes de aciertos em valenciano (adaptándose, de esta forma, a las particularidades léxicas que diferencian al idioma del catalán) y que pudiera integrarse en todo el flujo de trabajo de la cadena valenciana. Todo con el objetivo de lograr subtitular en el menor tiempo posible contenidos audiovisuales de forma asistida por ordenador en tiempo real y basándose en inteligencia artificial. La oportunidad, como relata Fuster, llegó de la mano de un grupo de trabajo de la Universidad Politécnica de Valencia.
Los primeros pasos
Á Punt rastrea permanentemente el contexto tecnológico fijándose en futuras herramientas que pudieran optimizar sus procesos. Sin embargo, como Fuster confiesa, muchas veces la técnica no está preparada. Existen desarrollos (pequeñas iniciativas procedentes del mundo académico o alfas impulsadas por tecnológicas) que abordan ciertas áreas, pero estos no se suelen acercar a los mínimos exigidos por una televisión con el alcance de Á Punt.
A través de varios contactos, Fuster descubrió que desde la Universitat Politécnica de València se estaban impulsando numerosos proyectos de investigación, especialmente en los campos de la inteligência artificial, que podrían ser perfectamente aplicables (previa adaptación) al mundo televisivo. Con el apoyo de la dirección de la cadena, Fuster pudo impulsar un open day en À Punt que sirvió para que diferentes grupos de investigación pudieran exponer sus últimos desarrollos: granjas de servidores de transcodificación, análisis del sentimiento, uso de IA para adelantarse a problemas técnicos… Se pusieron sobre la mesa múltiples líneas de investigación que podrían aportar nuevas dimensiones a la operativa técnica de la televisión. Sin embargo, uno grupo destacó por encima de todos: MLLP, con su labor sobre la transcripción automatizada.
Tras nueve meses de diálogo, trámites y problemas administrativos, À Punt pudo firmar un convenio con la UPV. En él, ambas instituciones se comprometerían a adaptar el sistema de transcripción a la operativa de la televisión, así como seguir redescubriendo, desarrollando y profundizando en la herramienta.
Un desarrollo exitoso en apenas un año
Tras los nueve meses, el convenio estaba listo para ser firmado en febrero de 2020. Sin embargo, la Covid-19 llegó a España. La pandemia retrasó la firma y aplicación de la alianza, desplazando la puesta en marcha de la iniciativa a octubre de 2020. Este acuerdo, firmado para dos años con otros dos años opciones de prórroga, cuenta con una serie de objetivos. Un año después, muchos de ellos ya han sido cumplidos. Entre ellos, la integración y la puesta en marcha del sistema: a finales de octubre el sistema comenzó a operar en todas las emisiones en directo, y desde mediados de noviembre, esta operativa se ha extendido a los programas en diferido.
La adaptación de la solución de la UPV, a pesar del talento de ambos equipos, no ha sido una labor sencilla. Se han automatizado numerosos procesos, se han interconectado todos los sistemas de emisión y producción con el sistema de transcripción automatizada y se ha integrado la herramienta con la API para directos Fingertext de Anglatecnic (proveedor de À Punt). Del mismo modo, el sistema ha sido adaptado a las necesidades de cada programa. Como recuerda Fuster, “no es lo mismo hacer un informativo en el que se utiliza un lenguaje normalizado y se dispone de un guion, que hacer un directo con la complejidad de que quizá puedas estar hablando en valenciano y te respondan en castellano”. El sistema, flexible y en constante evolución, sigue multiplicando su alcance con el paso de las semanas.
Mejorando el día a día de los trabajadores
Una de las claves del proyecto de transcripción automatizada es que este jamás se diseñó pensando en sustituir el equipo de transcriptores de À Punt. Al contrario, tal y como subraya Fuster, el objetivo pasaba por mejorar su rendimiento, haciendo que la persona transcriptora trabajara “con menos presión y logrando un resultado mejor”.
De esta forma, los transcriptores realizan funciones estrechamente relacionadas con la labor que hacían previamente: corrigen la transcripción propuesta por el sistema, adaptan elementos para hacerlos compatible con el sistema de subtitulado, supervisan los procesos de transcripción de los contenidos en diferido o realizan los rehablados: locuciones en directo que replica lo comentado por los protagonistas de varios formatos. El sistema, al estar entrenado para entender las voces de los transcriptores y al hacer estos sus locuciones en un espacio aislado y controlado, es capaz de responder con mayor fidelidad en determinados contrextos.
Fuster remarca que el equipo de transcripción ha expresado su satisfacción por esta metodología. Además, considera que usar el modelo previo no era sostenible para cumplir una de las metas de À Punt: que el 100% de su programación esté subtitulada. “Podríamos alcanzar esta meta si contratáramos a cien transcriptores especializados, pero el dinero que tenemos es el que es y no lo podemos hacer. Lo que tenemos que hacer es aumentar la productividad de los procesos. Es por eso por lo que hemos aplicado este sistema”, remarca el responsable de informática de À Punt.
Acierto y latencia
A día de hoy, los resultados de la propuesta son muy prometedores. La tasa de acierto de transcripción automática en la programación global de À Punt en valenciano llega a un 80% (contra el 55% del acierto de los sistemas de Google), cantidad que se eleva a más de un 90% (contra el 68% de Google) de acierto en los informativos de la cadena.
El equipo de Vicente Fuster y la UPV trabajan para mejorar estos porcentajes, si bien reconocen el mérito de los resultados tras apenas un año trabajando activamente en el proyecto.
En lo que respecta a la latencia del sistema, Fuster destaca que esta se fija en 0,8 segundos, una cifra que se califica como todo un logro. El responsable de informática justifica este hito en la decisión de funcionar on premises vigarista servidores completamente locales. Estos servidores, por cierto, son capaces de atender “sin problema” hasta dos directos a la vez.
Un futuro prometedor
La solución de transcripción automatizada apenas ha dado sus primeros pasos. El convenio firmado entre À Punt y UPV contempla nuevos desarrollos que seguirán dotando de valiosos recursos a la televisión. Entre estos desarrollos, encontramos la aplicación de una nueva inteligência artificial que permitirá realizar un etiquetaje sim catalogación de la meios de comunicação para favorecer el trabajo del área de documentación; y la generación de un árbol de etiquetas basándose en las transcripciones para que el periodista pueda localizar con facilidad la pieza más adecuada para complementar su reportaje o noticia.
Del mismo modo, el equipo de À Punt también está trabajando en la creación de un avatar que permita realizar lengua de signos basándose en el speech-to-text del sistema de transcripción; y en la generación automatizada de subtítulos en valenciano, castellano o inglés basándose en la audio original en uno de estos tres idiomas. Esta última aplicación, pensada para “enriquecer contenidos educativos”, dará sus primeros pasos a lo largo de 2022.
Más allá de estos proyectos a medio plazo, se contempla una nueva mejora que llegará a comienzos del año que viene: la habilitación de sistemas de subtitulación (apoyados en la solución de transcripción automatizada) integrados en la emisión de la señal en directo que Em Punt ofrece a través de su página da Internet sim aplicaciones móviles.
¿El sistema llegará a otras televisiones?
A día de hoy, numerosas televisiones públicas se han puesto en contacto con el equipo de Em Punt para interesarse en la solución de transcripción automatizada. Una vez que descubren su rendimiento, se muestran tan sorprendidos como interesados en conocer más detalles, de cara a valorar su inclusión en sus respectivos flujos de trabajo.
A día de hoy, Fuster no sabe cuál será el futuro de esta herramienta fuera de À Punt. ¿Podrá ser comercializada por la propia televisión? ¿El grupo de trabajo de la universidad podrá difundirla y lograr un rédito económico de ella? El responsable de informática de À Punt respira aliviado al saber que “afortunadamente” esa decisión no corresponde en él. Sin embargo, reconoce que se sentiría “orgulloso” de que el sistema se utilizara en otras televisiones, ya que refrendaría el intenso trabajo realizado tanto por su equipo como por la UPV.
Del mismo modo, Fuster considera que el éxito de esta herramienta arroja un mensaje claro sobre el valor de televisiones autonómicas como Em Punt: “En este contexto, en el que hay sectores que proclaman que invertir en la televisión autonómica es tirar el dinero a la basura, proyectos como este demuestran que nuestros medios de comunicación tienen todo su sentido; gracias a la televisión autonómica, estamos haciendo proyectos que jamás se llevarán a cabo en muchas otras iniciativas privadas”.
Um relatório de Sergio Julián Gómez
Gostou deste artigo?
Assine nosso feed RSS e você não vai perder nada.