¿Qué tal? La llegada de la inteligencia artificial está cambiando nuestro mundo a un ritmo vertiginoso, y los beneficios y miedos asociados con esta tecnología son igualmente significativos. Es crucial abordar los desafíos éticos y sociales que plantea la IA mientras aprovechamos su potencial para mejorar nuestras vidas. Y una de estas herramientas es Stable Diffusion.
La IA tiene el poder de ser una fuerza positiva en nuestro mundo, siempre y cuando la utilicemos con cabeza y precaución. ¿Miedo a que nos desplace de nuestros trabajos? Os voy a decir mi punto de vista, partiendo de que llevo una vida entera dedicada al diseño y la creatividad, y he realizado infinidad de campañas publicitarias, fotografía y fotocomposición creativa, y en estos trabajos u ocupaciones podemos sentir que la inteligencia artificial nos ha desplazado, nos ha usurpado esas vías de trabajo, y que por ejemplo una composición o retoque en Photoshop pueden volverse obsoletos. Pongámonos las pilas, reciclémonos y utilicemos la IA en nuestro beneficio. En este artículo, voy a comentaros mi experiencia en el uso de Stable Diffusion tras muchas horas invertidas, y las que quedan. Vamos, de como Stable Diffusion puede beneficiar al mundo del diseño gráfico y la creatividad.
(Todas y cada una de las imágenes de este artículo han sido creadas mediante prompt, y no han pasado por ningún editor de imagen ni retoque alguno)
¿Qué es Stable Diffusion?
Stable Diffusion es una inteligencia artificial de código abierto diseñada para generar imágenes a partir de texto natural. Una técnica de generación de contenido basada en modelos generativos de última generación, conocidos como GANs, (Generative Adversarial Networks, en inglés). Los GANs, consisten en dos redes neuronales, el generador y el discriminador, que compiten entre sí en un juego de suma cero. El generador crea contenido y el discriminador intenta distinguir entre contenido generado y contenido real.
Sin embargo, lo que hace que Stable Diffusion sea único es su enfoque en la estabilidad y la calidad de la generación. En lugar de centrarse en la mejora de la red generativa en sí, Stable Diffusion trabaja en la mejora del proceso de entrenamiento. Esto resulta en una generación más coherente, realista y de alta calidad.
¿Cómo funciona Stable Difussion?
Interpreta el texto. Cuando un usuario introduce un prompt, una descripción en lenguaje natural, Stable Diffusion primero interpreta y entiende la petición. La IA analiza el texto y extrae información relevante para crear la imagen deseada.
Crea un modelo de difusión. Stable Diffusion utiliza un modelo de difusión que aprende a eliminar el ruido gaussiano de imágenes borrosas. El modelo de difusión está diseñado para crear imágenes desde cero, comenzando con una imagen ruidosa y borrosa y refinándola iterativamente hasta que se obtiene una imagen clara y nítida que refleja la petición del usuario.
Genera la imagen: Una vez que Stable Diffusion ha interpretado el texto del prompt y aplicado el modelo de difusión, genera una imagen basada en la información proporcionada y en el conocimiento adquirido durante su entrenamiento. Además podemos configurarlo para que la IA genere múltiples imágenes que reflejen diferentes interpretaciones del prompt proporcionado.
Tiene un aprendizaje continuo
A medida que más usuarios interactúan con Stable Diffusion y proporcionan las descripciones de texto, la IA sigue aprendiendo y mejorando sus resultados con el tiempo. Este aprendizaje continuo permite a Stable Diffusion generar imágenes cada vez más precisas y realistas.
Hay que tener en cuenta que para obtener excelentes resultados se tiene que escribir el prompt de manera correcta y lo mismo con el prompt negativo para corregir, enseñarle y decirle que es lo que no queremos.
¿Cuánto cuesta Stable Diffusion?
Como he comentado anteriormente, es de código abierto. Si se dispone de conocimientos técnicos y acceso a hardware potente, se puede utilizar Stable Diffusion de manera local instalando el proyecto de código abierto desde GitHub en sus sistemas Windows 10, Windows 11 o Mac.
Quiero puntualizar también de que se requiere de un buen equipo a nivel de procesador, ram y gráfica para unos resultados profesionales.
También es recomendable disponer de conocimientos de procesamiento de lenguaje y lingüística computacional.
Pero tranquilos que para un uso lucrativo está implementado en algunas páginas web que están más centradas en el campo de ‘jugar’ con la IA. En este caso se tiene características limitadas y se debe esperar bastante por tener un resultado, así como el no poder usar diferentes comandos.
¿Y los problemas éticos?
Como todo, depende la utilización que le demos. Es una herramienta magnífica, potente, y que va a ayudar mucho los profesionales de la creatividad.
Pero estamos hablando de una herramienta con la que, dedicándole tiempo, puedes entrenar un modelo exacto de una persona. Y ahí entra el mayor problema, la suplantación de identidad y los deepfakes. En campañas publicitarias vemos continuamente rostros de famosos, modelos, etc. Es decir, que a la IA se le pueda decir que cree una imagen de una persona famosa haciendo algo indebido. Si el resultado se afina y es bastante bueno, al publicarlo en redes sociales se va a poder creer que la imagen es completamente real y generar una gran polémica a su alrededor.
Comentado esto, me despido con unas imágenes de un modelo de mi mismo entrenado por un servidor y que todavía está en aprendizaje para afinar detalles.
Espero que os haya gustado el artículo y nos vemos en el próximo.