La Inteligencia Artificial cobra cada día mayor protagonismo en el sector audiovisual
Telefónica Servicios Audiovisuales y Etiqmedia analizan en un webinar las ventajas que introduce la Inteligencia Artificial en tecnologías del habla, procesamiento de imagen y procesamiento del lenguaje natural en el entorno broadcast e institucional.
Services audiovisuels Telefónica près de Etiqmedia organizó el pasado jueves, 18 de marzo, un webinar en el que se analizaron las posibilidades que abre la Inteligencia Artificial (IA) en el sector audiovisual.
Asier Anitua, Gerente de Desarrollo de Negocio EMEA & LATAM en Telefónica Servicios Audiovisuales, y Antonio León Carpio, CEO de Etiqmedia, fueron los encargados de analizar el papel que juega la inteligencia artificial en ámbitos como tecnologías del habla (reconocimiento de voz, transcripción, ASR, detección de eventos de audio, análisis del lenguaje natural); procesamiento de imagen (deteccción facial, segmentación jeráquica, detección de logos y objetos); y procesamiento del lenguaje natural (análisis de conceptos, categorización, tesauros, perfilado de usuario, summarización).
A juicio de León, “la IA tiene sentido si está dentro de los flujos de trabajo para radio y televisión, consiguiendo reducir tiempo y aportar valores nuevos”. “Un sistema de procesamiento automático de vídeos no es una caja negra en la que podemos meter cualquier cosa y sacar cualquier cosa. Necesitamos segmentar por tipo de contenidos y tratarlos de forma diferentes y decidir qué algoritmos aplicamos. Además, la adaptación para cada cliente es crítica”, subrayó.
“Es muy importante la realimentación del sistema para que tenga un entrenamiento continuo,con nuebas palabras como COVID, ERTE… Esta tecnología tiene muchas limitaciones. Nunca va a haber 100% de acierto pero tenemos que gestiona el error, corrigiéndolo, entrenando al sistema… En mi opinión no se podrían poner en producción algoritmos que estén por debajo del 90% de tasa de acierto”, añadió.
En este webinar se compartieron diversos casos de uso en los que la IA ha facilitado procesos, incrementado productividad y ahorro de costes. Uno caso típico lo encontramos en un broadcaters que reciben cientos de contribuciones de ruedas de prensa diariamente. Con la tecnología de Etiqmedia basada en algoritmos es posible segmentar el vídeo automáticamente separando las intervenciones, transcribir las diferentes voces, crear etiquetas partiendo del tesauro de la radio o televisión o configurar entidades automáticas partiendo de un análisis semántico.
Otro ejemplo de automatisation con Etiqmedia, es un informativo completo. Con el sistema de Etiqmedia es posible segmentar todas las noticias para que el departamento de interactivos pueda publicar todo el informativo o por piezas (el sistema analiza la semántica, realización, presentadores… para obtener estos cortes). El sistema puede integrar el subtítulo de emisión procedente del sistema de noticias de la cadena (garantizando un texto corregido), o reconocerlo automáticamente.
Es de destacar que, según Antonio León, los sistemas de Etiqmedia alcanzan una tasa de éxito por encima del 96% del contenido en transcripción automática de voz, siendo mayor si se trata de contenidos reglados como puede ser una sesión parlamentaria o una rueda de prensa. “Es muy importante que la acústica sea correcta, ya que la reverberación y el ruido de fondo complicarán el reconocimiento”, subrayó.
Otro aspecto analizado en este webinar fue el uso de la IA en el reconocimiento facial, un tema complejo por la protección de datos ya que se guardan datos biométricos.
Etiqmedia cuenta con una base de datos de protagonistas, y además lleva a cabo un reconocimiento interno en el broadcaster. El sistema se retroalimenta para entrenar al sistema localmente dentro de la red propia red del broadcaster. Y es que Etiqmedia trabaja on-premise por lo que todo está dentro de la red del cliente, y ningún contenido sale fuera. Solo en casos puntuales en pequeños broadcasters se implantan sistemas basados en nube.
En cuanto al acierto en reconocimiento facial, León lo estimó en un 93% gracias a un avanzado sistema que analiza hasta ocho versiones de una cara con diferentes ángulos o luces. Esta tasa de acierto está siendo últimamente menor debido a la generalización del uso de la mascarilla y aunque la red neuronal de Etiqmedia se se basa en extrae en las características propia de una cara (distancia entre ojos, nariz y boca), partiendo de 128 características, la mascarilla tapa parte de esos datos faciales entorpeciendo el resultado.
En entornos broadcast, hay que destacar por otro lado que Etiqmedia se integra con cualquier sistema de gestión de media que tenga el cliente, llevándose a cabo la integración de forma muy sencilla.
Ámbito institucional
Otro ámbito en el que la Inteligencia Artificial gana terreno cada día es el institucional. Las soluciones de Etiqmedia operan ya en numerosos congresos nacionales, autonómicos o corporaciones locales. Tanto en plenos presenciales como telemáticos, su tecnología permite sacar un videoacta, subtitulado, o la transcripción interactiva. Además es multilingüe operando en los cuatro idiomas oficiales de España (español, catalán, valenciano, gallego y euskera) desarrollan. Además, desarrolla algoritmos específicos para cada cliente lo que permite, por ejemplo, al Senado transcribir y catalogar sus sesiones con una tasa de acierto de 97,8%.
Antonio León señaló que “la automatización de la transcripción rebaja el tiempo dedicado en cinco veces con respecto a un proceso enteramente manual. De hecho, el subtitulado en directo tiene 5 puntos de acierto menos que el offline. Además, nuestra tecnología es capaz de subtitular en bilingüe tanto en entornos broadcast como institucional con un retardo de unos 3-4 segundos con un 90% de acierto”.
Destacar, por otra parte, que el impacto de la pandemia por COVID-19 ha disparado la educación online. Cada día se están produciendo una cantidad bestial de vídeos y existe la necesidad de hacerlos accesibles para personas sordas o para los alumnos en general para que puedan recuperar una clase, una conferencia o un contenido específico entre todo el repositorio.
Otros servicios que presta Etiqmedia es la automatización de seguimiento de medios con su tecnología Brand Tracking. Permite saber qué hablan sobre nosotros en vídeo, audio, imágenes, ficheros de texto, redes sociales… capturando canales de radio, tv y redes sociales, procesando la información y obteniendo informes sobre las personas, partidos, empresas, lugares… de los que se está hablando.
Mirando al futuro
“En Etiqmedia no pretendemos ser mejores que Gooole o Amazon, que son las grande tecnológicas mundiales, pero sí competimos fuerte en nichos determinados como institucional, informativos, y localizados en mercados como España”, comentó el CEO de la compañía.
Por último, señaló que a corto implantarán en Atrésmédia un sistema que no necesitará el uso de metadatos ya que el sistema será puramente visual. “Se pasarán las imágenes por el sistema y éste almacenará características visuales de esas imágenes y en lugar de buscar el nombre, buscará la imagen. Evitaremos así todo el proceso de etiquetado previo, buscando por imagen”, destacó León.
El siguiente paso, señala será buscar recursos sin tener que etiquetar cada vez que sale un objeto por ejemplo. Así, partiendo de las imágenes ya etiquetadas como un coche, una terraza de un bar o un avión, la Inteligencia Artificial será capaz de buscar todos los planos similares sin necesidad de volver a etiquetados.
A medio plazo, Etiqmedia trabajará en el resumen abstractivo de textos, la mejora del reescalado y codificación de vídeo (mejorar una imagen en lugar de por intercalado de bits, logrando que el sistema comprenda qué imagen es y la reescale), desarrollo de nuevas redes neuronales, la compresión completa de la escena, el speech enhancement o à segmentación de voz y música coincidentes.
Sin duda, todo un mundo apasionante el que la Inteligencia Artificial está abriendo ya hoy y, más aún, en el futuro.
As-tu aimé cet article?
Abonnez-vous à notre flux RSS et vous ne manquerez de rien.