Laboratorio de Luz. Universitat Politècnica de València
mrangal@upv.es
Artista multimedia que focaliza tanto su investigación doctoral como producción artística en nuevos imaginarios algorítmicos en el contexto automatizado de la visualidad. Sus obras han sido expuestas en diversos espacios e instituciones culturales desde 2019 entre los que destacan Ars Electronica (2023), Medialab-Matadero (2022), KUNSTHALLE (2023) y Etopia: Centro de Arte y Tecnología (2022), entre otros. Desarrolla su investigación doctoral desde 2024 en el grupo Laboratorio de Luz, en la Universitat Politècnica de València.
Recibido: 10-06-2024
Aceptado: 01-09-2024
Citar como: Rangil Gallardo, Miguel. (2024). Future[past]: poéticas artificiales especulativas a través de modelos generativos IA. ANIAV - Revista de Investigación en Artes Visuales, n. 15, p. 83-92, septiembre. 2024. ISSN 2530-9986. Doi: https://doi.org/10.4995/aniav.2024.21877
PALABRAS CLAVE
Visualidades artificiales; inteligencia artificial; arte posdigital; modelos generativos; post-imaginarios algorítmicos; Next-frame Prediction.
RESUMEN
La situación que actualmente atravesamos es continuamente excepcional. Conflictos armados transmitidos vía streaming, extracción de recursos acelerada, regímenes sustituidos por organizaciones terroristas, eventos climáticos extremos con nefastas consecuencias para el planeta. La frecuencia con la que ocurren estos eventos catastróficos se acorta cada vez más. Nos estamos acostumbrando al desastre, a un estado continuo de excepción.
Ante este horizonte crítico, esta comunicación propone una estrategia específica a través del trabajo con modelo visuales algorítmicos: generar poéticas artificiales especulativas que nos lleven a pensar no solo en otros futuros posibles más allá del presente, sino disolver la inalterable, rígida y estoica concepción histórica de los eventos que nos han convertido en lo que somos. Esta comunicación pretende mostrar la relación potencial entre la visualidad artificial, los espacios latentes y la especulación como metodología artística a través de la producción artística audiovisual: Future[past].
Este proyecto nace como un dispositivo de simulación capaz de desmantelar ese rígido pasado, esa Historia con mayúsculas, a través de un sistema de predicción visual de futuros especulativos. Mediante el uso del modelo generativo de video NextFrame Prediction Pix2Pix, Future[past] disuelve el acontecimiento y propone un evento alternativo, a partir del material visual capturado precedente al acontecimiento dado. La I.A, en un ejercicio de predicción algorítmica, imagina múltiples nuevos futuros-pasados, acontecimientos que sólo ocurren en la simulación visual que se nos presenta, pero que se convierten en imágenes que amenazan con devenir realidad.
Esta producción artística se presentó en Ars Electronica Festival 2023 - Who owns the truth? y PAM! 2022 y forma parte de la investigación predoctoral “Contra la visual[ia]dad. Ensayos algoritmos en la era de la inteligencia artificial”.
KEY WORDS
Artificial visualities; artificial intelligence; post-digital art; generative models; algorithmic post-imaginaries; Next-frame Prediction.
ABSTRACT
The situation we are currently going through is continually exceptional. Armed conflicts broadcasted via streaming, accelerated resource extraction, regimes replaced by terrorist organizations, extreme weather events with dire consequences for the planet. The frequency of these catastrophic events is increasingly shortening. We are getting used to disaster, to a continuous state of exception.
In the face of this critical horizon, this communication proposes a specific strategy through working with algorithmic visual models: generating speculative artificial poetics that lead us to think not only of other possible futures beyond the present but to dissolve the unalterable, rigid, and stoic historical conception of the events that have made us what we are. This communication aims to show the potential relationship between artificial visuality, latent spaces, and speculation as an artistic methodology through audiovisual artistic production: Future[past].
This project was born as a simulation device capable of dismantling that rigid past, that History with a capital H, through a system of visual prediction of speculative futures. By using the NextFrame Prediction Pix2Pix generative video model, Future[past] dissolves the event and proposes an alternative event, from the visual material captured preceding the given event. AI, in an exercise of algorithmic prediction, imagines multiple new future-pasts, events that only occur in the visual simulation presented to us, but which become images that threaten to become reality.
This artistic production was presented at the Ars Electronica Festival 2023 - Who owns the truth? and PAM! 2022 and is part of the predoctoral research "Contra la visual[ia]dad. Ensayos algoritmos en la era de la inteligencia artificial".
La maquinaria epistémica (Knorr Cetina, 1999) que llamamos hoy inteligencia artificial (IA) deviene en múltiples formas: desde sistemas predictivos de detención policial, asistentes virtuales que sustituyen a oficinistas, algoritmos de búsqueda en internet, líneas de ensamblaje y producción robotizadas, etc. En una de sus últimas transformaciones, la IA ha permeado en el ámbito de la cultura y la producción visual traduciéndose en diversos modelos, datasets y algoritmos mediante un conglomerado de empresas y compañías que han tomado la delantera en la lucha por el control de los contenidos generativos. Estas herramientas, que podemos englobar bajo la etiqueta de medios sintéticos, son aquellas capaces de generar contenido de forma automatizada a través de técnicas de aprendizaje automático; ya sea texto, imágenes, audio, o vídeo. La reciente democratización a nivel usuario de estas herramientas a través de diversos servicios y plataformas libres o de pago a través de modelos LLM (large language model) como GPT, PaLM o Gemini; modelos generativos de imágenes como DALLE, Runway, StableDiffusion o Midjourney o la reciente Suno AI, enfocada en la generación de música sintética; ha desencadenado un vertiginoso despliegue en la generación de contenido. Un despliegue que, no obstante, sin obviar todo el impacto material que conlleva poner en marcha cualquier herramienta basada en aprendizaje automático, lleva consigo profundas cuestiones en lo que se refiere al proceso creativo. Modelos como StyleGAN y sus posteriores versiones son capaces de generar imágenes nuevas con un estilo artístico específico a partir de un text-prompt en cuestión de segundos. Otros tales como Pix2Pix son capaces de generar imágenes a partir de la configuración de los elementos en una imagen previa mediante el trazo del puntero del ratón. VQGAN+CLIP no solo puede producir imágenes, sino que es capaz de generar vídeos con control direccional de cámara y juegos de zoom. En resumen, empezamos a vislumbrar cómo procesos técnicos como la fotografía, el dibujo o el montaje, que requieren de tiempos extensos y saberes; han sufrido un proceso de traducción a este nuevo lenguaje sintético.
En el texto El Nooscopio de manifiesto. La inteligencia artificial como instrumento de extractivismo del conocimiento los investigadores Matteo Pasquinelli y Vladan Joler apuntan que se debe analizar a este corpus de datasets, algoritmos y modelos que englobamos bajo la categoría I.A como un corpus de “automatismos específicamente configurados para analizar y reproducir el mundo” (Joler, Pasquinelli, 2021). La automatización, característica inherente a todo modelo generativo, es decir, al proceso de creación de un artefacto visual, sonoro o textual, implica la supresión del proceso narrativo-experiencial que conlleva la elaboración de este. La inspiración, el encuentro o la intuición, características propias de un acto de creación se han visto sustituidas por una automatización generativa que plasma en creaciones sintéticas una visión específica de la realidad, fuertemente modelada por la visión corporativistas y extractivistas de sus creadores. Nos encontramos ante un paisaje de la mismidad estética, de una retroalimentación que limita una posibilidad real de contingencia artística. Ante esta automatización de la experiencia creativa, donde los algoritmos generan y median los artefactos culturales que hoy consumimos, consideramos pertinente buscar métodos y herramientas que nos permitan encontrar fisuras en la matriz, planteando otras posibilidades estéticas que escapen de la mismidad generativa.
En nuestra búsqueda, nos topamos con Next-Frame Prediction Pix2pix, un modelo modificado de Pix2pix adaptado para predecir el siguiente fotograma en una secuencia de video a partir de fotogramas anteriores. El enfoque de Next-Frame Prediction Pix2pix se basa en el marco de las redes generativas antagónicas condicionales (CGANs) para la generación de imágenes. El modelo, creado por Jean-Christophe Testud y refinado por Derrick Schultz que encontramos en un repositorio de GitHub1 puede ser entrenado a través de un cuaderno de Google Collab. Para poder predecir el futuro de un video, el proceso aplicado se basa en el entrenamiento del modelo con fotogramas pasados. Una vez entrenado, se selecciona una seed image (imagen semilla) y se inicia un bucle de retroalimentación con el dataset entrenado. Jean-Christophe Testud recomienda en las instrucciones de uso del modelo utilizar “videos simples y predecibles” (Testud, 2018), para que el modelo sea capaz de generar un resultado con una continuidad coherente, o, en la lógica que expone Yuk Hui en Recursividad y contingencia (2022), sea recursivo. Esta recursividad no debe ser entendida como una mera repetición mecánica de los elementos que configuran un sistema, sino tal y como que se caracteriza por el movimiento en bucle de algo que vuelve sobre sí para determinarse a sí mismo.
En este caso en particular Next-Frame Prediction Pix2pix es recursivo en tanto que el modelo vuelve sobre sí mismo para devenir continuo, para determinarse como acontecimiento pasado. Uno de los ejemplos prácticos que expone Testud en el artículo donde presenta Next-Frame Prediction Pix2pix donde podemos apreciar la recursividad es un vídeo tomado en la orilla de un río, donde el agua golpea suavemente las rocas. En este caso tenemos unos parámetros continuos que operan sobre la imagen capturada (Figura 1): un plano estático conformado por las rocas que componen la escena, un movimiento continuo y síncrono en el oleaje, un ritmo prácticamente invariable. El resultado obtenido por el modelo es coherente con la realidad que conocemos: el agua continúa acariciando las rocas y éstas siguen estáticas en la orilla, sin moverse. El modelo funciona correctamente porque partimos de un paisaje normalizado sin ninguna alteración visual notoria. Obtenemos una sensación de continuidad espacio-temporal, un resultado recursivo.
A partir de este ejercicio planteado por Testud, nos planteamos una serie de preguntas: ¿cómo escapar de lo recursivo, de la automatización de la visualidad? ¿Cómo podemos proponer un pasado diferente al acontecido, que escape de lo esperado por el modelo? En su libro Atlas de Inteligencia Artificial. Poder, política y costes planetarios de la inteligencia artificial (2023) la investigadora Kate Crawford aboga por dejar de lado la concepción mitológica de “inteligencia” y “artificial" y empezar a pensar la I.A en primer lugar, a partir de la dimensión material que la componen; y segundo, como un conjunto de sistemas complejos, pero sin autonomía decisional y racional. La I.A es natural al necesitar de un inmenso corpus de infraestructuras, mano de obra, material y recursos para que funcione, y carece de inteligencia propia en tanto que, como afirma Crawford “los sistemas de IA no son autónomos, racionales ni capaces de discernir algo sin un entrenamiento extenso y computacionalmente intensivo, con enormes conjuntos de datos o reglas y recompensas predefinidas” (Crawford, 2023, p.29). En este espacio de predicción computacional, descarnado de todo raciocinio o capacidad de respuesta creativa, donde todas las posibilidades ocurridas cuentan con la potencialidad de ser calculadas dentro de un rango limitado, no hay cabida para lo contingente.
Yuk Hui (2022) define desde el ámbito de la cibernética la posibilidad de cambio en el comportamiento de un sistema recursivo como contingencia: una inclusión de información que desencadena el proceso de individuación en un sistema. Los modelos generativos son específicamente entrenados para el reconocimiento de patrones visuales para posteriormente replicarlos. La inteligencia artificial puede replicar sin fin, pero carece de esta capacidad de contingencia, de la autonomía decisional que provoca un proceso de individuación que reconfigura los datos y otorga una dimensión, lectura o agencia diferente. El proceso de generación sintética de un artefacto ya sea una imagen, un vídeo, texto o sonido no cuenta con la capacidad de ficcionar, especular o imaginar otras configuraciones más allá de su cercado de datos y sus posibilidades definidas, es decir, de su rango recursivo. Porque, como afirman Pasquinelli y Joler “el algoritmo es un instrumento de magnificación de conocimiento, que ayuda a percibir características, patrones y correlaciones a través de vastos espacios de datos inaccesibles al alcance humano” (Pasquinelli, Joler, 2021), pero no es un dispositivo de generación de significado, capaz de generar abstracciones y metáforas a partir de los resultados obtenidos. En lo que nos atañe, la producción de artefactos sintéticos susceptibles de convertirse en objetos artísticos se ve afectada por la misma lógica: los algoritmos trabajan siempre a partir de las mismas visualidades, incapaces de escapar de la mismidad computacional dictada por su propia naturaleza.
Considerando la imposibilidad de la generación de algo nuevo como una característica intrínsecamente esencial de los modelos generativos, cabe preguntarse dónde se encuentra lo contingente, es decir, lo creativo, a la hora de trabajar con los medios sintéticos en la práctica artística. En búsqueda de esta respuesta, anticipando un comportamiento imprevisto y en contra de las directrices de procesar vídeos sencillos tal y como aconseja Testud en el tutorial de Next-Frame Prediction Pix2pix, consideramos alentador utilizar vídeos de acontecimientos históricos, debido a su complejidad visual. Lo contingente, volviendo a Hui, es el accidente, la información, el fallo, el proceso que vuelve un bucle recursivo en un evento particular, en una expresión individual. Por lo que nuestro objetivo fue, desde un acercamiento heurístico y experimental hacia la herramienta con la que trabajamos, provocar accidentes que desencadenen esos procesos de individuación (Hui, 2022). Como primer ejercicio práctico decidimos procesar el vídeo del atentado del 11 de septiembre contra el World Trade Center. En el vídeo, donde podemos ver cómo impacta el primer avión sobre una de las dos torres dando lugar al evento histórico que conocemos, escogimos como seed image el frame donde el avión se encuentra suspendido sobre los cristales de la primera torre, a punto de impactar y cambiar el transcurso de la historia. Al procesar el vídeo, el modelo elimina el avión del futuro alternativo presentado, pero muestra una primera explosión que precede a una batería de explosiones sobre la torre. A cada frame procesado, Next-Frame Prediction Pix2pix funde la imagen en una amalgama visual que contiene infinitas tendencias históricas inscritas en la propia imagen, que nunca llega a adquirir una forma o resolución concreta, manteniéndose en un estado constante de posibilidad formal que no se resume en acto.
El segundo fragmento de vídeo que procesamos es un extracto de vídeo del reciente conflicto israelí-palestino, grabado en 2022, que forma parte de las múltiples agresiones que han desencadenado la última escalada de la guerra. En este fragmento de vídeo podemos apreciar la desproporcionada capacidad de respuesta de Israel frente a los misiles de Hamas. Seleccionamos como seed image el frame donde se aprecia cómo varios misiles de Hamas sobrevuelan áreas pobladas de Israel y en respuesta, la Cúpula de Hierro; el sistema de defensa predictivo que neutraliza la mayoría de los misiles que sobrevuelan el espacio aéreo israelí, se activa disparando misiles interceptores. Al entrenar el modelo Next-Frame Prediction Pix2pix con este fragmento (Figura 2) comienzan a dibujarse en la imagen otros horizontes, desde donde salen disparadas decenas de misiles interceptores, pero ya no proceden de una sola dirección, sino de ambos frentes. A la hora de operar con esta tipología de algoritmos sobre registros del pasado, acontecimientos grabados en nuestra retina histórica, se abre una doble concepción de contingencia. Por un lado, nos encontramos ante la contingencia que rompe la recursividad sintética del modelo en la imagen: la contingencia visual. Por otro lado, la generación de un nuevo pasado visual irrumpe la contingencia histórica quebrando la recursividad inherente del pasado. El pasado que fue no vuelve a darse, sino que se genera un pasado nuevo.
Este hallazgo en el entrenamiento del modelo nos hizo considerar que lo importante no es hacer funcionar un modelo capaz de predecir y generar un video coherente respecto al evento previo, o una secuencia de imágenes que cuenten con una continuidad específica. Donde reside la capacidad de agencia de los medios sintéticos como dispositivos artísticos y donde se despliega nuestra metodología es en el modo de uso de los medios y cómo interpretamos las imágenes. Nuestra posición como artistas a la hora de operar con los medios sintéticos debe ser la de tomar consciencia y acción sobre la capacidad afectiva de sus imágenes y saber jugar con ese espacio de representación, ya que este espacio cada vez se encuentra más connotado por la evolución técnica de los modelos generativos. Cuanto más refinado es un modelo de generación de imágenes menos agencia contamos para desentrañar en su imagen otros significados, otras lecturas latentes en los patrones de la imagen a reconocer por nuestra percepción. Es por ello por lo que no solo es necesario saber mirar a estas imágenes, sino hackear, mediar y forzar, a través de técnicas de refuncionalización2 tecnológica (Hester, 2018) los procesos de individuación de los medios sintéticos. Si los algoritmos, datasets y modelos son máquinas perpetradoras de la mismidad estética debemos buscar otros usos alternativos que escapen esa recursión visual. En esta línea metodológica de refuncionalización de medios sintéticos encontramos, entre muchos proyectos, Xenoimage Dataset3 (2022), que plantea una crítica a la normalización visual de los modelos generativos imperantes en el mercado en aquella época (VQGAN, Runway, Stable Diffusion) a través de una revisión de la visualidad hipersticional desde una perspectiva xenofeminista; o el proyecto de Lenka Hamosova TroublingGAN4 (2023), que toma la imagen del fotoperiodismo como eje principal para crear modelos GAN’S imperfectos que funcionen como dispositivos políticos.
Estas obras, en su fricción directa con las herramientas con las que fueron concebidas abren espacio hacia una metodología especulativa, entendida como una comprensión de las redes neuronales no como engranajes de un proceso mecanicista de producción de imágenes sintéticas sino como herramientas de pura construcción metafórica. Los procesos de indagación, tanteo, ensayo y error de las hipótesis artísticas que manejamos no tienen por qué responder a criterios de verificación científicos o a lógicas tecnológicas, sino tal y como enuncia Hamosova en los textos que recopila la investigación llevada a cabo en TroublingGAN debemos “utilizar redes neuronales generativas para producir conocimiento intuitivo, en lugar de limitarse a generar copias sintéticas (Hamosova, Rusnák, 2023). Inspirados por estos modos de hacer basados en la refuncionalización y la resignificación de imágenes, y contemplando la generación sintética de contenido como un espacio posible de experimentación y hallazgo, desarrollamos Future[past] (Figura 3), el resultado principal de nuestro proceso artístico-experimental con Next-Frame Prediction Pix2pix.
Future[past] fue presentada inicialmente en PAM! 2022 celebrado en la Universitat Politècnica de València y en su versión definitiva en el festival Ars Electronica Festival 2023 - Who Owns The Truth? en la ciudad de Linz, Austria; temáticamente centrado en la crisis de la verdad originada por la incursión de los sistemas artificiales en las sociedades contemporáneas. Nuestra producción consiste en una instalación configurada por un cráter coronado por un extraño dispositivo del que emanan diversos cables conectados a tres pantallas ancladas en los escombros (Figura 4). Estas pantallas albergan diez eventos históricos que fueron registrados en vídeo y supusieron un antes y un después en la concepción lineal de la historia reciente. Los atentados del 11 de septiembre de 2001 contra el World Trade Center, la caída del Muro de Berlín, el conflicto israelí-palestino, la pandemia de la COVID-19; son varios de los acontecimientos reproducidos en el tríptico que componen las pantallas. En una de las tres pantallas cada cierto tiempo se reproduce un ensayo audiovisual, donde se nos presenta un espacio de trabajo en penumbra y, alumbrado por la luz de una lámpara de mesa el dispositivo que yace en el cráter. Mientras que una mano conecta un cable a una ranura, acciona diversos botones y gira una ruleta un texto nos esclarece el funcionamiento del aparato: “Future[past] es un dispositivo especulativo para procesar el pasado y transformar futuros. Mediante un sistema basado en Inteligencia Artificial, nuestro sistema permite desarticular cualquier carga simbólica inserta en el acontecimiento a elegir”. (Miguel Rangil, 2023, 1m35s). En el preciso instante en el que el último botón del dispositivo es accionado, los acontecimientos históricos que conocemos empiezan a disolverse. El avión que impactó ya no impacta, la bomba que explotó ya no explota.
La contingencia visual aflora en cómo el modelo predice y genera nuevos futuros de pasados complejos. El procesado sobre vídeos de eventos históricos neutraliza, dentro la ficción especulativa que presentamos, ese rígido pasado, recursivo, y lo convierte en un abanico de azares o fallos, pero a su vez de tendencias. En palabras de Franco Berardi (2018) “la tendencia es esa posibilidad que puede prevalecer en un determinado momento del proceso vibratorio que da origen al acontecimiento” (Berardi, p.25). Son semillas potenciales de pasados no realizados esperando a ser activados. El pasado deviene, gracias a su condición redentiva, para volver a definirse sobre sí mismo. Como escribió Walter Benjamin en Tesis sobre la Historia y otros fragmentos (2008) “el pasado no deja de remitir a la redención. [...] el pasado tiene derecho de dirigir sus reclamos” (p.19). El pasado funciona como un loop donde la catástrofe siempre está presente en forma de imágenes y recuerdos, que reclaman su presencia y moldean nuestro presente con su influencia. Al disolver visualmente estos acontecimientos quebramos con la recursividad del pasado, ese constante devenir de acontecimientos ya dados y proponemos, desde la especulación y lo sci-fi otros futuros-pasados. El dispositivo impactado sobre la superficie de una Tierra en ruinas comienza a generar del pasado ya dado estos otros futuros. Otros futuros que desafían, por un lado, a la Historia rígida que arrastramos como una losa, y por otro a la concepción de progreso tecnocientífico, fuertemente imbricada con el desarrollo de la inteligencia artificial predictiva. Es en la latencia referencial contenida en la imagen artificial donde abrimos paso a nuevas poéticas de la imagen, nos desvinculamos de la redundancia algorítmica y buscamos nuevas lecturas a partir de otras permutaciones, que nunca se dieron; que fueron muy improbables que ocurrieran, pero que podrían haber acontecido.
Este estudio es resultado del proyecto "Indagaciones Inexploradas (FCT-22-18237). Apoyo competitivo a la transferencia y difusión de tecnología. FECYT- FUNDACION ESPAÑOLA PARA LA CIENCIA Y LA TECNOLOGIA".
Benjamin, W. (2008). Tesis sobre la historia y otros fragmentos. (1ªed.). Editorial Itaca.
Berardi, F. (2018). Futurabilidad. La era de la impotencia y el horizonte de la posibilidad. (1ªed.). Caja Negra Editora.
Crawford, K. (2023). Atlas de Inteligencia Artificial. Poder, política y costes planetarios de la inteligencia artificial. (1ªed.). Ned Ediciones.
Hamosova, L y Rusnák P. (2023). TroublingGAN: generated visual ambiguity as a speculative alternative to photojournalism. Journal for Artistic Research. https://www.researchcatalogue.net/view/1486468/1586300/0/837
Hester, H. (2018). Xenofeminismo. Tecnologías de género y políticas de reproducción. (1ª ed.) Caja Negra Editora.
Hui, Y. (2022). Recursividad y contingencia. (1ªed.). Caja Negra Editora.
Knorr Cetina, K. (1999). Epistemic Cultures. How the sciences make knowledge. (1ªed.). Harvard University Press.
Pasquinelli, M. y Joler, V. (2021). The Nooscope manifested: AI as instrument of knowledge extractivism. AI & society, 36(4), 1263–1280. https://doi.org/10.1007/s00146-020-01097-6
Rangil, M. (2023, 5 de marzo). Future[past] [Video]. YouTube: https://youtu.be/dbhN8-Ef_RQ?si=Upa7Du5dMOWV23R7
Testud, J.C. (27 de noviembre de 2018). Video Generation With pix2pix. Medium. https://medium.com/@jctestud/video-generation-with-pix2pix-aed5b1b69f57
_______________________________
1 Repositorio de GitHub de Next-Frame Prediction Pix2pix: https://github.com/rystylee/pix2pix-Next-Frame-Prediction
2 La refuncionalización de los modelos generativos es una de metodología directa de acción sobre el comportamiento recursivo: asignar funciones o lógicas diferentes a los algoritmos o modelos ya existentes, aprovechando los recursos materiales y energéticos provistos por las entidades que forman parte del sistema para el cual fueron originalmente diseñados.
3 Resultado de la investigación llevada a cabo en el proyecto Xenoimage Dataset propuesto por el grupo de trabajo homónimo: https://www.medialab-matadero.es/proyectos/xenoimage-dataset
4 La investigación recopilada de TroublingGAN: https://troublinggan.hamosova.com/