A Inteligência Artificial ganha cada dia mais importância no setor audiovisual
Num webinar, a Telefónica Servicios Audiovisuales e a Etiqmedia analisam as vantagens que a Inteligência Artificial introduz nas tecnologias de fala, processamento de imagens e processamento de linguagem natural no ambiente de transmissão e institucional.
Telefónica Serviços Audiovisuais junto a Etiqmedia organizou na última quinta-feira, 18 de março, um webinar no qual as possibilidades abertas peloInteligência Artificial (IA) no setor audiovisual.
Asier Anitua, Gerente de Desarrollo de Negocio EMEA & LATAM en Telefónica Servicios Audiovisuales, y Antonio León Carpio, CEO da Etiqmedia, ficou encarregado de analisar o papel que a inteligência artificial desempenha em áreas como tecnologias de fala (reconhecimento de fala, transcrição, ASR, detecção de eventos de áudio, análise de linguagem natural); processamento de imagem (detecção de rostos, segmentação hierárquica, detecção de logotipos e objetos); e processamento de linguagem natural (análise de conceito, categorização, tesauros, perfil de usuário, resumo).
Na opinião de León, “a IA faz sentido se estiver dentro dos fluxos de trabalho de rádio e televisão, conseguindo reduzir tempo e fornecer novos valores”. “Um sistema automático de processamento de vídeo não é uma caixa preta na qual podemos colocar e retirar qualquer coisa. Precisamos segmentar por tipo de conteúdo e tratá-los de forma diferente e decidir quais algoritmos aplicaremos. Além disso, a adaptação a cada cliente é fundamental”, frisou.
“O feedback ao sistema é muito importante para que ele tenha treinamento contínuo, com palavras novas como COVID, ERTE… Essa tecnologia tem muitas limitações. Nunca haverá 100% de sucesso mas temos que gerir o erro, corrigi-lo, treinar o sistema... Na minha opinião, algoritmos que estejam abaixo de 90% de sucesso não poderiam ser colocados em produção”, acrescentou.
Neste webinar, vários casos de uso em que a IA facilitou processos, aumentou a produtividade e reduziu custos. Um caso típico é encontrado em uma emissora que recebe centenas de contribuições de conferências de imprensa diariamente. Com a tecnologia Etiqmedia baseada em algoritmos é possível segmentar automaticamente o vídeo separando as intervenções, transcrever as diferentes vozes, criar etiquetas com base no tesauro de rádio ou televisão ou configurar entidades automáticas com base numa análise semântica.
Outro exemplo de automação com Etiqmedia, é um informativo completo. Com o sistema Etiqmedia é possível segmentar todas as notícias para que o departamento interativo possa publicar as notícias inteiras ou em pedaços (o sistema analisa a semântica, a produção, os apresentadores... para obter esses cortes). O sistema pode integrar o subtítulo transmitido do sistema de notícias da rede (garantindo texto corrigido) ou reconhecê-lo automaticamente.
Vale ressaltar que, segundo Antonio León, os sistemas Etiqmedia alcançam um taxa de sucesso acima de 96% do conteúdo em transcrição automática de voz, sendo maior se se tratar de conteúdo regulamentado como uma sessão parlamentar ou uma conferência de imprensa. “É muito importante que a acústica esteja correta, pois a reverberação e o ruído de fundo dificultarão o reconhecimento”, sublinhou.
Outro aspecto analisado neste webinar foi o uso de IA no reconhecimento facial, uma questão complexa devido à proteção de dados, uma vez que são armazenados dados biométricos.
A Etiqmedia possui um banco de dados de protagonistas, e também realiza reconhecimento interno na emissora. O sistema é realimentado para treinar o sistema localmente na própria rede da emissora. E a Etiqmedia trabalha localmente para que tudo fique dentro da rede do cliente e nenhum conteúdo saia de fora. Apenas em casos específicos, em pequenas emissoras, são implementados sistemas baseados em nuvem.
Quanto ao sucesso em reconhecimento facial, León estimou em 93% graças a um sistema avançado que analisa até oito versões de um rosto com diferentes ângulos ou luzes. Esta taxa de sucesso foi recentemente inferior devido ao uso generalizado de máscaras e embora a rede neural da Etiqmedia se baseie na extração das características de um rosto (distância entre olhos, nariz e boca), com base em 128 características, a máscara cobre parte dessas características faciais. dados, prejudicando o resultado.
Em ambientes de transmissão, é importante destacar também que o Etiqmedia integra-se com qualquer sistema de gestão de mídia que o cliente possua, realizando a integração de forma muito simples.
Escopo institucional
Outra área em que a Inteligência Artificial vem ganhando espaço a cada dia é institucional. As soluções Etiqmedia já operam em inúmeros congressos empresariais nacionais, regionais e locais. Tanto em sessões presenciais como telemáticas, a sua tecnologia permite produzir um registo de vídeo, legendado ou uma transcrição interativa. Além disso é Multi línguas operando nas quatro línguas oficiais da Espanha (espanhol, catalão, valenciano, galego e basco). Além disso, desenvolve algoritmos específicos para cada cliente que permitem, por exemplo, ao Senado transcrever e catalogar suas sessões com uma taxa de precisão de 97,8%.
Antonio León destacou que “a automação da transcrição reduz em cinco vezes o tempo gasto em comparação com um processo totalmente manual. Na verdade, a legendagem ao vivo tem 5 pontos de sucesso a menos do que a legendagem offline. Além disso, nossa tecnologia é capaz de legendagem bilíngue em ambientes de transmissão e institucionais com um atraso de cerca de 3 a 4 segundos com 90% de precisão.”
Por outro lado, importa referir que o impacto da pandemia da COVID-19 desencadeou a Educação online. Todos os dias um grande número de vídeos está sendo produzido e há a necessidade de torná-los acessíveis aos surdos ou aos estudantes em geral para que possam recuperar uma aula, uma palestra ou um conteúdo específico de todo o repositório.
Outros serviços que a Etiqmedia oferece é a automação de monitoramento de mídia com sua tecnologia de rastreamento de marca. Permite saber qué hablan sobre nosotros en vídeo, audio, imágenes, ficheros de texto, redes sociales… capturando canales de radio, tv y redes sociales, procesando la información y obteniendo informes sobre las personas, partidos, empresas, lugares… de los que se está falando.
Olhando para o futuro
“Na Etiqmedia não pretendemos ser melhores que Gooole ou Amazon, que são as maiores empresas de tecnologia do mundo, mas competimos fortemente em determinados nichos como institucional, informativo e localizados em mercados como a Espanha”, comentou o CEO da empresa.
Por último, señaló que a corto implantarán en Atresmedia um sistema que não necessitará do uso de metadados, pois o sistema será puramente visual. “As imagens vão passar pelo sistema e ele vai armazenar as características visuais dessas imagens e ao invés de buscar o nome, vai buscar a imagem. Desta forma evitaremos todo o processo de etiquetagem prévia, pesquisa por imagem”, destacou León.
O próximo passo, ressalta, será buscar recursos sem precisar rotular cada vez que um objeto aparecer, por exemplo. Assim, a partir de imagens já rotuladas como carro, esplanada de bar ou avião, a Inteligência Artificial poderá procurar todas as imagens semelhantes sem ter de voltar a etiquetar.
A médio prazo, a Etiqmedia trabalhará no resumo abstrativo de textos, o aprimoramento e codificação de vídeo aprimorados (aprimoramento de uma imagem em vez de intercalação de bits, permitindo ao sistema entender o que é a imagem e redimensioná-la), desenvolvimento de novas redes neurais, a compressão completa da cena, o aprimoramento da fala o para segmentação de voz e música coincidentes.
Sem dúvida, todo um mundo emocionante que a Inteligência Artificial abre hoje e, mais ainda, no futuro.
Gostou deste artigo?
Assine nosso feed RSS e você não vai perder nada.