IA Generativa

Escrito por Gonzalo Nieto Fecha de publicación: octubre 21, 2023

IA Generativa

Para esta actividad, elegimos trabajar con Stable Diffusion en Dreamstudio, Dall-E 2, y Adobe Firefly en su primera versión. Fuimos jugando con la cantidad de palabras, la forma de describir o no los detalles, lo internacional o local de lo referenciado y fue toda una experiencia. Acá van varios de los intentos y algunas cosas a destacar comparando los resultados de cada modelo:

"Coke cat"

En Stable Diffusion las imágenes de la misma generación tienen diferentes estéticas (lo que está bueno siendo que no describimos ese aspecto de la imagen). En todos los casos el gato cumple con lo que entendemos como gato. Aunque a veces la coca y la composición no llegan a tener sentido del todo, como en la segunda imagen donde metió al gato en el medio de la lata y le puso la parte de arriba como sombrero, o en la cuarta donde simplemente pegó la botella a su cara sin motivo aparente.
Dall-E optó por la estética animada en todas sus imágenes. Obviamos las letras que ya sabemos que en esa versión no es algo que esté resuelto. Es llamativo que el gato tiende hacia ser blanco en la mayoría de los casos. Si bien la cuarta imagen no termina de tener sentido en la composición/estructura, las otras tres si podemos pensar que están bien -o al menos mejor- construidas.
Firefly se encariño con el gato y dejó a la Coca de lado. ¿Habrá intentado evitar imprimir una marca a propósito? ¿O quiso evitar hacer letras que terminarían saliendo mal? En cualquier caso, se tomó la libertad de tomar más decisiones por nosotros que darían resultados que podemos llamar "satisfactorios": Decidió una estética bastante concreta (algún tipo de ilustración... japonesa?), composiciones con sentido sin errores de superposición raros, y colores cálidos y agradables.

¡Ganador!: Primera imagen de Stable Diffusion.

"ballena dinusaurio mamut"

Stable Diffusion remontó y muy bien. La imagen tiene sentido, no tiene errores, la estética que decidió es definida y constante, y de alguna forma combinó aspectos de las tres palabras mencionadas.
Dall-E deja que desear comparando el resultado de los otros modelos. A diferencia de los otros modelos, no consideró la composición en el formato cuadrado, como si las imágenes debieran ser más bien alargadas en lo horizontal. Los resultados de ilustraciones son algo simplistas, por algún motivo quiso hacer al animal más bien volando siendo que el cuerpo principal es de ballena, y si bien más o menos mezscla bien los atributos parece predominar la ballena. La segunda imagen, más bien realista, parece ser una especie de fósil o cuerpo embalsamado del animal, sorprendentemente es consistente a lo largo de los distintos estilos.

Firefly me sorprendió, no sabía que con pocas palabras se podía generar tanto detalle. Acá también el animal que parece ser más bien acuático está volando sinsiquiera tocar el agua, pero creo que es una mezcla más acertada de las tres palabras sin "clavar" una cabeza de T-Rex sobre otro cuerpo como lo hizo Stable Diffusion. Impresionante estética entre realismo e ilustración.

¡Ganador!: Primera imagen de Firefly.

"Fotografía realista de el cantante Paulo Londra

durante un concierto, plano americano"

Stable Diffusion lo dió todo para hacer una fotografía en plano americano. No veo lo argentino, ni a Paulo Londra... pero bueno, gran fotografía de concierto, obsenamente realista y bien hecha en las decisiones que decidió tomar.
Dall-E intentó hacer a Paulo, pero se quedó lejos de lograrlo. Las composiciones están algo flojas, fue por planos más cercanos, y como fotos de concierto le falta energía... Bueno, espero que Dall-E 3 pueda dejar la vara más alta.
Firefly como buen patriota norteamericano ignoró el estilo fotográfico, ignoró a Paulo Londra, ignoró lo argentino y se centró en el concierto y en lo americano, aunque también ignoró que hablaba de un plano fotográfico y no de su nación. En la cuarta imagen hasta puso la forma del país en el cuadro. Además, las personas de la imagen no están del todo resueltas en los detalles.

¡Ganador!: Por diferencia de calidad las de Firefly, aunque no sigue la consigna.

"Criollos argentinos con dulce de leche en
una mesa con mantel a rallas, fotografía realista"

Stable Diffusion enloqueció. Todos los detalles son realistas y la composición tiene sentido en el formato cuadrado, pero es un quilombo de orden y se cebó con el dulce de leche. Quizás ama el dulce de leche, o el color marrón, porque lo puso por todos lados y decidió poner café para combinar cromáticamente. No veo los criollos, ni el mantel a rallas. Al fondo, desenfocadas, se ven unas tostadas con dulce de leche, gran detalle.
Dall-E sigue algo flojo en calidad. Composiciones cortadas, sólo un mantel a raya y otro de... ¿Puntos? Parece tampoco conocer los criollos pero bueno, tiene noción que es alguna especie de bizcocho. ¡Conoce los alfajores cordobeces!
Firefly es fan del flan. Parece conocer el dulce de leche, y en todas sus fotos hay un mantel a rayas lo que es algo que se valora, aunque me parece que también entendió que la comida debía tener rayas. Ahora que lo pienso, algo bueno es que todos los modelos entendieron que estamos hablando de comida, quizás sólo por el dulce de leche.

¡Ganador!: Los alfajores cordobeses de Dall-E, sólo por ser alfajores cordobeces.

"Criollos argentinos sobre un plato verde
en una mesa de vidrio con mantel rojo"

Acá es dificil separarlos, porque al no mencionar el dulce de leche nadie entendió que más o menos estamos hablando de algún tipo de bizcocho o "tipo de pan". Stable Diffusion mezcló el color del plato y el mantel. Dall-E entendió el mantel rojo, pero se confundió en el plano. Firefly fue sorprendentenmente consistente con el mantel y el plato, hasta entendió que si la mesa es de vidrio el mantel no deja ver nada de vidrio en la imagen, aunque se volvió a ir para el lado de japón con comidas en el estilo de Studio Ghibli. Ahora que lo noto, una vez más Dall-E fue el único en hacer imagénes cortadas por no respetar la lógica de la composición en una imagen cuadrada.

¡Ganador!: La primera imagen de Firefly, por más o menos acercarse a la comida tipo pan y porque todo lo que no son los criollos tiene sentido (estética, composición, colores, iluminación. Aunque el tenedor está glitcheado, pero bueno.

"Hormiga negra bailando cumbia"

Stable Diffusion fue por estilos de ilustración y fotográfico, cosa que se agradece nuevamente porque no mencionamos nada al respecto, aunque entendió por "hormiga negra" una persona negra. ¿Quizás como apodo? Si es el caso, es bastante creativo. Las composiciones no cierran del todo en el formato cuadrado, aunque por comparación a los otros modelos podemos destacar que las personas están bailando.
Dall-E, una vez más, no cumplió con la consigna. Veo la hormiga, pero no la veo bailar cumbia. Si se destaca que son fotografías absurdamente realistas y no tendría forma de darme cuenta que no son fotografías en realidad.
Firefly fue quien más se acercó a la hormiga bailando cumbia, gran estilo definido de ilustración, aunque mientras más miro los brazos y las otras imágenes que no es la principal más miedo tengo, hay algunas hormigas feas feas ahí.

¡Ganador!: La primera de Stable Diffusion, por hacer una buena abstracción de lo que una "hormiga negra" puede ser bailando cumbia.

Para concluir, no creo que haya un "mejor modelo" para todo a día de hoy. Tampoco a día de hoy exactamente, porque cuando hicimos el experimento no había salido Dall-E 3 ni Firefly v2.

Stable Diffusion es más inestable, pero cuando le sale bien le sale bien. Dall-E parece ser mejor en conseguir un detalle y calidad distinguible en las imágenes más bien fotográficas, y en lo que es ilustración se quedó atrás. Quizás porque no le dimos ningún tipo de instrucción estética sobre cómo llevarlo a cabo. Firefly es el más resuelto: Tiene funciones que aunque no usamos, permite configurar de forma amigable la resolución de la imagen, el estilo y otros parámetros de la imagen y de su estética. Lo bueno es que es consistente en la generación y mantiene el estido definido, sea atribuído por uno o elegido por el propio programa, aunque esto juega en contra cuando la aplicación entiende algo y lo lleva hasta sus últimas consecuencias, como en el caso de la imagen de plano americano. También se destaca, a favor de Adobe, que es el que quizás genera imágenes marketineras que pueden servir directamente para usarlo en algún tipo de proyecto creativo, o en alguno de los tantos programas para creativos de su suite.

Creo que podemos decir que en este momento nos encontramos en una parte del proceso donde los avances se están haciendo hacia la capacidad de los modelos de resolver las imágenes que se indican de forma estable y creíble, pero en el futuro la utilidad estará en encontrar el balance justo entre hacer lo que el usuario pide, y enriquecer su indicación al tomar decisiones complementarias que estén alineadas en todo sentido con lo mencionado en el prompt.

Por ejemplo, en varias imágenes todos los modelos agregaron elementos más allá de lo que pedimos: Desde colores, escenario/entorno/fondo, montañas, agua, vasos, cubiertos, instrumentos, luces, cantidad de personas. Nunca aclaramos todas estas cosas, pero hace sentido para potenciar y hacer una mejor imagen que nosotros, desde lejos, sólo esbozamos.

Como bonus, dejo el intento de Bing usando Dall-E 3 para hacer su versión de los criollos con dulce de leche. Vino con un no solicitado texto con algo de información incorrecta, pero lo que es la imagen podemos decir que es un absolutamente sorprendente resultado. Salido directamente de la hora del té en el país de las maravillas. Súper estable mantel a rallas, aunque bueno, todavía no entiende lo que es un criollito:

Buscar este blog

Gonzalo Nieto

IA Generativa

Comentarios

Populares

Una primera entrada

Cibercultura

Consumo crítico de tecnología

Software libre