Visibilizando los Objetivos de Desarrollo Sostenible en RTVE con Inteligencia Artificial
RTVE tiene el compromiso de acercar los Objetivos de Desarrollo Sostenible (ODS), marcados por las Naciones Unidas en su Agenda 2030, a toda la sociedad. Para ello, se realiza un seguimiento pormenorizado del tratamiento de cada uno de los ODS en sus actividades con ayuda de la Inteligencia Artificial.
En 2015 la Asamblea General de las Naciones Unidas adoptó la Agenda 2030 para el Desarrollo Sostenible. Sus 17 Objetivos de Desarrollo Sostenible (ODS), se convirtieron en una demanda universal para la adopción de medidas que pudieran poner fin a la pobreza, proteger el planeta y garantizar que todas las personas crezcan en paz y tengan una vida digna.
Como no podía ser de otra manera, y como servicio público, RTVE adquirió el compromiso de acercar esos ODS a toda la sociedad.
Así, para velar por el cumplimiento de este compromiso, se realiza un seguimiento pormenorizado del tratamiento de cada uno de los ODS en nuestras actividades.
Esta no es una tarea fácil ya que, si bien a veces la atención a los ODS se materializa en forma de campañas concretas o programas monográficos que son visibles y fácilmente identificables, en otras ocasiones no es tan sencillo cuantificar cuándo se habla de ellos, bien porque se trata de información que se ofrece como parte de un programa o por aparecer como una pieza dentro de un informativo.
A menudo surge la necesidad de presentar a organismos nacionales o internacionales los resultados de este seguimiento en forma de informes y análisis de los tiempos dedicados a contenidos relacionados con cada ODS. Históricamente estos reportes se hacían de forma manual consumiendo una gran cantidad de recursos humanos y económicos sin que fuera viable descender al detalle de analizar lo tratado en piezas o noticias.
En este contexto, como parte de las actividades de innovación de RTVE, se decide llevar a cabo una prueba de concepto (PoC) en colaboración con el Grupo de investigación Knowledge Reuse del Departamento de Informática de la Universidad Carlos III para comprobar de qué manera la Inteligencia Artificial, apoyada en redes neuronales y en las técnicas más modernas de Procesamiento de Lenguaje Natural, es capaz de ayudar en la tarea de evaluar lo relativo al cumplimiento del objetivo de servicio público de divulgación de los ODS.
Por todo lo anterior, se puso el foco en los programas informativos ya que, al ser los que vienen marcados por los acontecimientos y la actualidad, contienen cada día gran cantidad de temas diferentes. Además, se fijó como parte de la prueba partir de la emisión de los informativos para el análisis sin recurrir a ayudas extras como guiones, escaletas…
Reaprovechar lo aprendido
Conviene tener en cuenta que, en el ecosistema de la innovación tecnológica, en RTVE se intenta aprovechar los conocimientos adquiridos en cada actividad para enriquecer las siguientes en la medida de lo posible de modo que, al final, todos nuestros proyectos están interrelacionados de una u otra manera.
Esta filosofía resultó especialmente útil en el caso del análisis automático de los ODS, permitiendo que nos apoyáramos en los conocimientos sobre el PLN, el uso de ontologías y la generación de reglas para la comprensión de textos adquiridos en proyectos anteriores. Un ejemplo es Social Media Radar (SMR) que, basándose en el análisis de los comentarios recogidos de las redes sociales, es capaz de detectar cuándo se producen accidentes de tráfico o fenómenos meteorológicos antes de que éstos sean recogidos en cualquier medio de comunicación, generando alertas que se envían a los profesionales de la información ofreciéndoles la posibilidad de adelantarse a otros medios en la elaboración de la noticia. (Proyecto Social Media Radar. Madrid. ISBN: 108283064X).
Otro proyecto interesante para esta PoC fue la segmentación de programas radiofónicos en el que, basándose en la tecnología de la empresa española Etiqmedia y tomando como referencia el audio de un informativo de RNE (a lo largo del proyecto se ha ido cambiando de programa), es capaz de trascribir éste a texto, segmentar el mismo por noticias y clasificarlas posteriormente. Los resultados y los conocimientos aportados están recogidos en el artículo Inteligencia artificial aplicada a programas informativos de radio. Estudio de caso de segmentación automática de noticias en RNE | Profesional de la Información (profesionaldelainformacion.com)
Alcance de la actividad
Al tratarse de un PoC se decidió trabajar únicamente con dos de los 17 ODS, en concreto el ODS 5 sobre “igualdad de género”, que persigue además empoderar a todas las mujeres y niñas, y el 13, que se ocupa del “cambio climático”, y que pretende tomar medidas urgentes para combatir éste y sus efectos.
La motivación de esta selección está en la garantía de que se refieren a temas de los que se habla de forma habitual en nuestros informativos, lo que asegura su tratamiento informativo casi a diario dado que, si las noticias sobre los ODS seleccionados se producen solo de forma esporádica, no se podrían evaluar los resultados con fiabilidad.
Un camino complejo
El sistema desarrollado parte del texto trascrito de los audios de un programa, siendo el paso siguiente el procesamiento de estos textos mediante la aplicación de tecnologías de PLN que son capaces de reconocer las entidades nombradas que pertenecen a una ontología concreta. A partir de este punto, el sistema clasifica el texto en función del ODS a los que pertenece la entidad y calcula el tiempo dedicado a hablar del mismo, generando métricas que sirven también para guardar en un modelo de datos adecuado la información asociada (fecha, hora, programa, texto, ODS…). Se ha puesto especial atención a la validación de los resultados mediante un riguroso control de calidad, proceso que se ha estado llevando a cabo por varios evaluadores a lo largo de todo el proyecto.
El paso final consiste en la visualización de los resultados mediante una herramienta capaz de utilizar filtros para presentar de diferentes formas la información seleccionada por cada usuario.
Y ahora… a probar
En los inicios del proyecto se utilizó el informativo de RNE de cuya transcripción y segmentación automática por noticias disponíamos gracias al proyecto de Innovación anteriormente mencionado. En este caso la segmentación va acompañada de los correspondientes códigos de tiempo, de forma que, cuando se detectaba que se estaba hablando de uno de los ODS a analizar, se asignaba todo el tiempo de la noticia a dicho ODS.
Los primeros resultados no fueron buenos, con aciertos en el entorno del 37%. El motivo principal de estos datos es que las ontologías iniciales, que consistían en vocabularios en bruto importados y traducidos de fuentes de la UE, no resultaban suficientes. Fue necesaria la ampliación de los términos con nombres propios de mujeres célebres, palabras derivadas, asociaciones, organismos, términos compuestos, etc. También lo fue la generación de patrones para la identificación de estructuras sintácticas en el texto para evitar que la aparición de forma aislada de palabras como “lluvia” o “mujer” llevara a clasificar el texto como ODS si no aparecía acompañada de algún término más de la ontología.
A veces hubo que aumentar más todavía la complejidad de estos patrones aplicando también reglas gramaticales como, por ejemplo [sujeto género] + [verbo violencia] + [sujeto de género], atendiendo a los resultados del proceso de validación. También se crearon reglas de transformación para términos que habitualmente la trascripción automática de voz a texto presentaba de forma errónea, por ejemplo “0 16” por “016, o “CO dos” por “CO2”. Obviamente la fiabilidad de la ontología requiere un mantenimiento continúo actualizando nuevos términos y patrones.
Ampliemos la muestra
Una vez alcanzado un porcentaje de aciertos superior al 90% se decidió dar un paso más y ampliar la muestra a los telediarios e informativos territoriales de TVE, aunque, lamentablemente, no disponíamos de las transcripciones de estos programas segmentados por noticias pudiendo contar únicamente con los textos generados para la subtitulación de los mismos.
Este cambio, aparentemente sin gran trascendencia, supuso en realidad un reto importante a la hora de medir tiempos ya que, ahora, cada segmento era un subtítulo y se desconocía su relación en cuanto a pertenencia o no a la misma noticia con los subtítulos adyacentes. También se daba el caso de que, a veces, un subtítulo es una unidad demasiado pequeña para poder hacer un análisis eficaz de su contenido.
Afrontar esta problemática obligó a definir una lógica para la agregación de subtítulos. Se optó por tomar como referencia los puntos finales de las oraciones de forma que los nuevos segmentos fueran frases completas.
El sistema siguió mostrándose eficaz detectando el segmento que hablaba de alguno de los ODS objeto del proyecto, pero no se sabía cuántos de los segmentos anteriores y/o posteriores formaban parte de la misma noticia cuando éstos no contenían suficiente información para que el sistema lo clasificara en alguno de los ODS, lo que impedía calcular el tiempo dedicado a hablar de cada ODS.
Para solventar este inconveniente se decidió aplicar un procedimiento algo complejo, pero con buenos resultados, que consiste en clasificar cada segmento por separado, comprobando después qué ocurre con los fragmentos adyacentes. Si el segmento de arriba y el de abajo son del mismo ODS, aunque el que se analiza no haya sido clasificado como tal, se considera que sí lo es. Se aplica la misma lógica hasta en dos segmentos contiguos. Con esto se ha conseguido que solo se produzca una mala clasificación cuando el segmento no detectado como perteneciente a un ODS es el primero o el último de una noticia.
Los resultados
La pieza clave del sistema es la presentación de los resultados, a la que se dedicaron no pocos esfuerzos en su diseño, dotándole de gran versatilidad para obtener los datos necesarios en cada ocasión. La herramienta permite seleccionar no solo qué datos se quieren visualizar sino también la forma en la que se desea hacerlo, pudiendo escoger entre varios tipos de gráficos, palabras clave, resumen de tiempos y ofreciendo además la posibilidad de aplicar filtros por fechas, programas, ODS…
La experiencia adquirida en este proyecto y los porcentajes de aciertos obtenidos nos hacen ser optimistas en el uso de las nuevas tecnologías para el análisis de contenidos audiovisuales, un impulso para continuar en esta línea avanzando en los próximos meses en la ampliación tanto del número de ODS analizados, intentando descender uno o más niveles hasta llegar a la detección y clasificación por categorías y subcategorías dentro de los ODS, como en el incremento de programas tratados. Aprendizaje fundamental ha sido la constatación de la necesidad de la intervención de expertos en las diferentes materias de las que se ocupan los ODS para una elaboración más precisa de las ontologías en cada caso.
También hemos tomado conciencia de la dificultad que va a suponer la clasificación en algunos casos ya que la línea que divide una categoría de la otra, y a veces un ODS de otro, es muy fina y esto aumenta las probabilidades de cometer errores.
Es importante constatar que el conocimiento generado y los procedimientos utilizados podrán servir para otros tipos de análisis de interés para otras actividades de la empresa. En definitiva, esta experiencia ha representado una mejora global en el análisis de nuestros contenidos permitiendo descender a niveles no viables anteriormente y una particular en cuanto a la utilización de la tecnología IA como herramienta en el cumplimiento de nuestro mandato y vocación de servicio público.
Carmen Pérez Cernuda
Subdirectora Innovación y Estrategia Tecnológica en RTVE
Artículo originalmente publicado en el Observatorio para la innovación de los Informativos en la Sociedad Digital (OI2)
¿Te gustó este artículo?
Suscríbete a nuestro RSS feed y no te perderás nada.