HDR: ¿Todavía estamos en etapa de transición?

José Manuel Menéndez, catedrático de la Universidad Politécnica de Madrid y director de la Cátedra RTVE – UPM, reflexiona sobre las posibilidades actuales del HDR y su futuro.

En el marco de la asociación UHD Spain, el pasado 21 de julio nuestro compañero Vicente Pla tuvo la amabilidad de darnos una clase magistral maravillosa sobre HDR, titulada HDR desde la escena hasta el espectador. El título no podía estar mejor elegido, dada la necesidad de contemplar todos y cada uno de los elementos por los que pasa la señal visual (desde su captura hasta su presentación en la pantalla) para lograr ese efecto wow que tiene el HDR.

La clase de Vicente me hizo recapacitar sobre lo que hay disponible, a nivel tecnológico, en estos momentos, y lo que a mí me gustaría poder disfrutar en casa. Y, la verdad, no termino de ver que ambas cosas converjan. Veamos que tenemos ahora en relación al High Dynamic Range – HDR.

Recordemos que el rango dinámico de una imagen se define como una ratio entre los valores más claros y los más oscuros que presenta esa imagen, y esto es aplicable a imágenes reales o a una escena ofrecida por una pantalla: RD = (L_MAX + L_MIN)/L_MIN, siendo L_MAX el valor de luminosidad (cd/m²o nits) de los picos más brillantes, y L_MIN el valor de los niveles más oscuros. Hay que tener cuidado si L_MIN se aproxima a cero (como empieza a ocurrir con las pantallas OLED), ya que hacen que RD tienda a infinito. En esos casos, conviene usar la simplificación RD = L_MAX.

Entendiendo las unidades logarítmicas

A los ingenieros nos gusta usar unidades logarítmicas, y por eso solemos medir RD en decibelios (dB), calculado como RD_dB = 10 log_10 RD. Para mi sorpresa, resulta que a los operadores de cámara y a los directores de fotografía también les gusta usar unidades logarítmicas (en base 2), y lo llaman f-stops: RD_(f – stops) = log_2 RD. Tiene su explicación sencilla: antiguamente, los objetivos de las cámaras permitían abrir o cerrar el diafragma multiplicando o dividiendo por 2 la superficie por la que entraba luz al sensor, y de ahí los números f 1.4, 2, 2.8, 4, 5.6, 8, etc. Ahora, los diafragmas suelen ser de paso continuo, pero ellos gestionan mejor el control de la luz incidente “a la vieja usanza”. Con esta medida, un incremento de 1 f-stop se corresponde con el doble de luz incidiendo en el sensor.

No olvidemos que toda la tecnología la desarrollamos para que la disfrute la gente. Sabemos que el sistema visual humano – SVH tiene capacidad de ver en un rango de unos 46 f-stops (correspondiente a unos niveles de luminosidad desde 10^-6 a 10⁸ nits), pero NO simultáneamente. Tras el proceso de adaptación (lo típico de subir la persiana por la mañana tras dormir y quedarnos unos segundos cegados mientras la vista se adapta), el ojo puede ver unos 17 f-stops simultáneamente, y esos 17 f-stops se desplazan en el margen de los 46 f-stops anteriores, en función de la luz ambiente.

Herramientas HDR actuales

Con estas premisas de unidades y características del SVH ya aclaradas, veamos lo que tenemos ahora en la cadena de captura, procesado, transporte y visualización de una señal de vídeo:

En captura: Los fabricantes de cámaras intentan optimizar la señal capturada en función de las posibilidades de su sensor, y así proporcionan curvas específicas que optimizan el modo de captura de la luz: LogC, ArriRAW, S-Log3, etc. Con esas curvas se intenta que la cámara perciba la luz y el color de manera similar al ojo (tenemos más sensibilidad en las bajas luces). Aún no hay cámaras en el mercado que ofrezcan los 17 f-stops, pero se empiezan a acercar, y en breve dispondremos de ellas. Con relación al color, las posibilidades son más amplias, y se pueden capturar más colores de los que luego, las pantallas, nos van a poder mostrar. Por tanto, vamos bien de color, y prometedoramente bien en luminosidad.
En postproducción: La luz y los colores capturados por las cámaras pueden tener un rango mayor al que se puede emitir y visualizar según los estándares actuales de TV, por lo que es necesario hacer una postproducción para adaptarlo. Hay varios estándares ya publicados y operativos. Algunos están referenciados a la luz ambiente de la escena, como HLG (Hybrid Log Gamma) y otros toman como referencia las posibles condiciones de visualización, como las curvas PQ (Perceptual Quantizer), y sus derivados (HDR10, HDR10+, Dolby Vision, etc). En todo proceso de adaptación siempre perdemos información, y esa pérdida dependerá de las curvas seleccionadas. Todas tienen ventajas e inconvenientes. Como siempre.
En presentación: Los fabricantes de pantallas tienen serias dificultades para lograr representar los colores según la norma ITU-R BT.2020, que es la utilizada con señal UHD para HDR. Intentan representar los colores de la señal con aproximaciones, mejores o peores según la electrónica que incorporan en los dispositivos. Y en cuanto a los niveles de luminosidad, hay serios problemas para alcanzar picos altos de brillo con eficiencia energética razonable. Es más: aún no está claro qué nivel de pico en luminosidad (en nits) es necesario lograr para conseguir una mejor aceptación en el mercado. Se habla de 100, 500, 1000, 2500 o incluso 10.000 nits en algunas propuestas publicadas (1000 nits equivalen a unos 10 f-stops). El cómo se adapten las señales de vídeo con curvas HLG o basadas en PQ a dicha amplitud de luminosidad es algo que aún no está fijado. Hay varios grupos de trabajo (UHD Alliance, UHDTV Committee de la SMPTE) intentando definir modos de presentación que preserven la labor creativa del director de fotografía y que establezcan cómo se deben presentar los contenidos. Esos modos se denominan Filmmaker modes. Pero el fabricante de pantallas no los suele ofrecer, al menos, de momento, en parte porque implementarlos le supone costes adicionales, y en parte porque los modos que ofrece (con nombres como Vivo, Juegos, Película, etc.) son los que él considera más adecuados para que su pantalla guste más al público.

Qué me gustaría tener

Bien. Lo anterior es lo que tenemos en estos momentos. Pero, a mí, como usuario, ¿qué es lo que me gustaría tener?:

En captura: Me gustaría que hubiera cámaras cuya captura se asemejara lo más posible a la del sistema visual humano, para que la cámara realmente me ofrezca la posibilidad de capturar la realidad tal como es, tanto en niveles de luminosidad como en colorimetría. Pues ya tenemos la respuesta: queremos cámaras de captación que puedan ver esos 17 f-stops del SVH, con diferentes condiciones de luminosidad ambiente.
En postproducción: Dado que hay que hacer una adaptación (que implica una reducción) de la luminosidad y de la colorimetría, me encantaría una postproducción maravillosa, que me ofrezca una versión adaptada de esa realidad a las posibilidades que ofrece el sistema de transporte (o difusión) de señal y la pantalla de mi salón, sin necesidad de ponerme gafas de sol (si son escenas, por ejemplo, de playa) o apagar la luz (como en el último capítulo de Juego de Tronos), que me sean cómodas de ver manteniendo una similitud lo mayor posible con la realidad. Quisiera que esa postproducción maravillosa se señalizara según un filmmaker mode que trate de generar una señal que pueda ver en mi salón.
En presentación: Me gustaría disponer de una tele que se adapte a las condiciones de luz ambiente (si es de día con luz de la ventana, o de noche, con lámparas encendidas porque estoy cenando y quiero ver lo que como), pero que no me deslumbre con picos demasiado intensos, que no requiera gafas de sol, y menos que me dañe la vista. Además, si sólo vemos 17 f-stops, me basta que la pantalla tenga, como máximo, esa capacidad. Pero no quiero necesitar gafas de sol. No tengo claro si esto implica menos de esos 17 f-stops, aunque todo apunta a que si.

Juntando mi carta de deseos, veo que:

1. Quiero cámaras que sean transductores lo más fieles posibles a la realidad. En esto vamos por buen camino.

2. Quiero un sistema capaz de referenciarse a las condiciones de la escena, y también a las condiciones de visualización. Por tanto, quiero un estándar que pueda referenciarse a ambos extremos, no sólo uno, como hay ahora.

3. Quiero una posproducción maravillosa, que me traduzca la realidad a unas condiciones óptimas de visualización.

4. Quiero un análisis sobre la intensidad de iluminación aconsejable por parte de los monitores. ¿100 nits? ¿1000? ¿100.000? Aún no hay pantallas en el mercado, y no tenemos datos estadísticos suficientes ni en población ni en tiempo de monitorización, que nos digan qué valores son convenientes para tener es “ventana al mundo real, que nos permita ver de maravilla sin dañarnos la vista”. Para los que buscan tema de tesis doctoral, creo que aquí hay cancha…

5. Y quiero unos monitores que sean capaces de mostrarme esa realidad postprocesada lo más fielmente posible al filmmaker mode (al margen de otros modos que ya ofrece el fabricante para los que los prefieran o usan la tele con otros dispositivos) para deleitarme con su trabajo minucioso de presentación de su realidad, o de la realidad tal como pretende que la contemplemos para generarnos esa sensación de inmersión en lo que estamos viendo.

Sinceramente, no se si esta “carta a los reyes magos” se hará algún día realidad, pero creo que mi lista de deseos es bastante sensata. Desde el punto de vista tecnológico, mis peticiones no parecen desmedidas y, sinceramente, creo que es cuestión de tiempo que los desarrollos tecnológicos y normativos vayan por esa línea. Por eso, estoy cada vez más convencido de que, en temas de HDR, estamos aún en etapa de transición a una o varias soluciones que contemplen (en mayor o menor medida) mis peticiones.

Eso sí, necesitamos aún profundizar en el conocimiento de varios aspectos:

Desarrollar ese estándar que contemple toda la cadena y se pueda referenciar a ambos extremos,
Cómo hacer esa postproducción maravillosa,
El estudio de la intensidad de pico máxima y media de las pantallas que no sea dañina.

Y la única manera de realizar esa profundización es seguir trabajando y caminando en el despliegue de los sistemas HDR. Entre todos seguro que conseguimos completar esa etapa de transición antes de los esperado.