Los mejores generadores de imágenes por IA han sacudido el mundo creativo en el último año, permitiendo a cualquiera crear rápidamente imágenes a partir de descripciones de texto. Son temas controvertidos, y la tecnología evoluciona tan rápido que es difícil saber adónde nos llevará, pero una cosa parece segura: cualquiera que trabaje en las artes visuales necesitará conocerlos, incluidos los fotógrafos.
La inteligencia artificial ya existe en populares programas de edición fotográfica como Photoshop, Lightroom y Luminar Neo. Gracias al aprendizaje automático, estas herramientas pueden detectar el cielo o el sujeto de una imagen, eliminar objetos no deseados o ajustar rasgos faciales. Pero la mejor imagen inteligente es capaz de crear una imagen entera desde cero basándose únicamente en una pista textual.
Estos modelos de aprendizaje automático se han entrenado con enormes conjuntos de millones de imágenes y pies de foto, normalmente extraídos de Internet. Pero, ¿cuál es el mejor generador de imágenes AI?
La mayoría funcionan de forma similar. Introduces un texto que describa la imagen que deseas crear, defines los parámetros y el modelo hará su trabajo. Pero hay diferencias en la fiabilidad de los resultados, la resolución, la facilidad de uso, la versatilidad y el precio. Probamos los generadores de texto-imagen actuales para comparar sus resultados.
Pedimos a cada herramienta que produjera distintos tipos de imágenes, desde ilustraciones a fotorrealismo, pasando por mensajes de texto. También probamos las herramientas de generación de imágenes y las funciones de edición, si estaban disponibles. La tecnología está evolucionando tan rápidamente que las funciones disponibles pueden ampliarse de un mes a otro, y es probable que pronto lleguen más opciones, pero por ahora estos son los mejores generadores de imágenes con IA que hemos probado.
Los mejores generadores de imagen con IA
DALL-E 2
Creemos que la DALL-E 2 es el mejor generador de imágenes de IA para la mayoría de las personas que quieren empezar a explorar esta tecnología. Es el más popular del actual grupo de instrumentos y es capaz de producir resultados impresionantes, incluidas imágenes fotorrealistas con un nivel de detalle increíble. También es muy fácil de usar.
Hay que crear una cuenta y comprar créditos si se quiere utilizar con regularidad, pero ahora que la beta está abierta a todo el mundo, empezar es muy fácil, y la función principal de conversión de texto a imagen es lo suficientemente intuitiva como para no tener que buscar tutoriales. El proceso de generación de imágenes también es relativamente rápido.
Como con todas las herramientas de esta lista, probamos la capacidad de la DALL-E 2 para crear diferentes tipos de imágenes. Esto incluía el uso de trucos con determinadas cámaras y objetivos para intentar conseguir resultados fotorrealistas. Hemos comprobado que DALL-E 2 es capaz de producir imágenes extremadamente limpias, difíciles de distinguir de las fotografías, y que los resultados suelen corresponder a lo descrito en la solicitud.
El generador de texto-imagen de DALLE-2 puede ser un poco limitado si quieres más control: no hay opción de cambiar el tamaño o la relación de aspecto del lienzo de 1024×1024, y no hay opción de añadir un prompt negativo. Por otro lado, las funciones de edición de pintura y tinte son de las más avanzadas.
La primera te permite pintar sobre parte de la imagen y pedir a la IA que genere otra cosa en su lugar. El segundo permite «desencuadrar» las imágenes, ampliándolas más allá del encuadre original. También podría ser útil para fotógrafos que recortaron demasiado una imagen o no tenían un objetivo lo suficientemente amplio para captar la composición ideal.
DALL-E 2 ya no es gratuito, pero obtienes suficientes créditos gratis para hacerte una idea de cómo funciona y qué puede hacer para empezar. Después, obtendrás 15 créditos gratuitos cada mes. No van muy lejos, pero al menos te permiten seguir experimentando. Comprar más créditos es bastante cómodo, pero ten en cuenta que puedes generar muchas imágenes no deseadas por el camino. Empieza a probarlo en https://openai.com/dall-e-2/
Stable Diffusion
El mejor generador de imágenes AI que puede utilizar de forma gratuita es Stable Diffusion. Sin embargo, para ello se requieren ciertos conocimientos técnicos. Como programa de código abierto, el código está disponible gratuitamente en Github, lo que lo ha convertido en un éxito para los desarrolladores que quieren incluir la generación de imágenes por IA en sus aplicaciones. Si no tienes ni idea de qué hacer con el código, también puedes ejecutar Stable Diffusion gratis a través de Google collabs tienes que hacer clic en «Conectar» y luego en «instalar dependencias» y «ejecutar aplicación». Este vídeo de DotCSV te lo explica a la perfección, te recomendamos que lo sigas si estás interesado en el mundo de la IA.
Puede evitar estos problemas utilizando Stable Diffusion a través de la aplicación web de Stability AI, DreamStudio, que es casi tan limpia e intuitiva como DALL-E 2. En cualquier caso, encontré que Stable Diffusion está muy cerca de DALL-E 2 en términos de la gama de estilos de imagen que puede producir, y tal vez incluso tiene una ventaja en términos de fotorrealismo.
También ofrece más control que DALL-E 2, con una relación de aspecto flexible, la posibilidad de aumentar la resolución a 2048×2048 y la opción de añadir un mensaje negativo, especificando lo que no quieres que aparezca en la imagen. También puede establecer la semilla, un número que controla la aleatoriedad de una generación, lo que significa que puede crear la misma imagen de nuevo utilizando el mismo puntero.
También nos impresionó la herramienta de «imagen de profundidad», que puede inferir la profundidad a partir de una composición de imagen existente y transferirla a una nueva creación. Si estás dispuesto a tomarte tu tiempo y aprender nueva terminología, Stable Diffusion es el generador de imágenes AI más flexible del mundo. Si decide utilizarlo en DreamStudio, el coste es de 10 dólares por 1.000 créditos, suficiente para generar unas 5.000 imágenes con la configuración predeterminada.
Midjourney
Si has visto obras de arte de IA que representan escenas de fantasía oscura y paisajes futuristas en un estilo casi pictórico, lo más probable es que hayan sido creadas en Midjourney. Es difícil decir si esto se debe a las características de la herramienta o a la comunidad que la utiliza; probablemente sea una mezcla de ambas cosas. He descubierto que el estilo de imágenes que puede producir es más limitado y que se adapta más a los estilos pictóricos. Sin embargo, con un poco de perseverancia, también puede producir impresionantes imágenes fotorrealistas.
Al igual que Stable Diffusion, Midjourney no es la herramienta más intuitiva para quienes estén acostumbrados a las aplicaciones tradicionales de escritorio o basadas en navegador. Después de inscribirte en la beta en el sitio web de Midjourney, tendrás que registrarte en la plataforma de mensajería social Discord. En lugar de escribir en un cuadro de diálogo, como con la mayoría de los generadores de imágenes de IA, envías una solicitud a un bot de Midjourney en Discord.
Al principio, es como escribir a un chatbot en una sala llena de gente haciendo lo mismo. Hay varios canales, y puedes elegir el canal en el que está el bot (busca uno de los canales para «novatos»). Utiliza el comando de barra «\image» e introduce tu mensaje. Todos los demás usuarios del canal podrán ver tu solicitud y los resultados, y otras personas también podrán hacer solicitudes. Esto significa que tu imagen se moverá hacia arriba en el flujo antes de retroceder una vez finalizada la reproducción.
Esto puede dificultar el uso de la herramienta, ya que tus solicitudes pueden perderse en el mar de solicitudes (se resaltarán en naranja y siempre podrás encontrar las imágenes en el perfil de tu cuenta). También puede ser lento si el canal está ocupado. Pero la ventaja de este mecanismo es que puedes ver las peticiones de otras personas, lo que es una forma estupenda de aprender. Si pagas una suscripción, puedes evitarlo utilizando un bot privado en el servidor Discord. Los planes de suscripción más caros ofrecen una generación más rápida, y el plan «Pro», entre 48 y 60 dólares al mes, permite utilizar el comando «Stealth», que impide que las imágenes aparezcan en la galería de miembros.
Craiyon
El mejor generador de imágenes AI para aquellos que quieren aprender cómo funciona la tecnología sin complicaciones y sin pagar es Craiyon. Sin necesidad de crear una cuenta, sin necesidad de ejecutar ningún código, sin necesidad de hablar con chatbots. Sólo tienes que ir a la página web, escribir lo que quieres en el recuadro grande y Craiyon se pondrá manos a la obra. No puede ser más fácil.
El inconveniente es que las imágenes resultantes pueden ser extrañas, problemáticas y, a veces, simplemente aterradoras. Anteriormente conocido como DALL-E mini hasta que OpenAI se quedó sin palabras, Craiyon se ha convertido casi en un género en sí mismo debido a su afición por crear imágenes mutiladas, especialmente rostros humanos, pero esto podría cambiar. Dice que está trabajando en un mejor codificador de imágenes.
Los resultados poco fiables no son motivo para renunciar a Craiyon. Hemos comprobado que es capaz de dar sorpresas que parecen bastante razonables. Además, los resultados son sorprendentemente diversos, lo que podría servir de trampolín para nuevas ideas. Sin embargo, sus funciones son limitadas. No hay pintura, ni generador de imágenes. Lo único que puedes hacer, aparte de crear una imagen a partir de un texto, es imprimir camisetas con tus propios diseños si te apetece.
Artbreeder
Artbreeder es una bestia diferente de los mejores generadores de imágenes AI que hemos mencionado hasta ahora. En primer lugar, se basa en una tecnología diferente, ya que utiliza modelos de redes generativas adversariales (GAN) en lugar de difusión. Pero su interfaz y sus funciones también son muy diferentes. Dispone de diferentes herramientas: Artbreeder Splice y Artbreeder Collage. El primero permite remezclar -o «modificar genéticamente»- fotos, tanto las que ya están en el sitio como las originales.
Esta herramienta tiene algunas características especiales. De momento sólo admite fotos en formato vertical y horizontal (se dice que pronto se admitirán otros tipos de imágenes), y las imágenes deben ser muy nítidas y de alta resolución. Si cargas una foto en DALL-E 2 o en Difusión Estable, aparecerá como esperas que aparezca, al menos hasta que empieces a generar variaciones. Pero incluso las más nítidas y de mayor resolución pueden estar llenas de artefactos cuando se suben a Artbreeder. El sujeto debe estar bien iluminado, de frente y con un fondo limpio.
Sin embargo, si encuentras una foto que te gusta en Artbreeder, puedes hacer todo tipo de cambios: cambiar la longitud y el color del pelo, la expresión facial, el sexo y la edad para los retratos, o alterar la cantidad de vegetación, el agua o las condiciones meteorológicas para los paisajes. Creemos que es muy divertido de usar y que se puede utilizar para crear divertidas transformaciones de selfies. Algunos incluso le han encontrado usos profesionales.
La segunda herramienta, Artbreeder Collage, es un generador de texto-imagen combinado con un creador de collages. Es tan extraño como suena, pero funciona, y es interesante que no sea sólo texto como las herramientas anteriores. Dibujas o trazas formas e imágenes en el lienzo (que puede incluir tus propias fotos, que puedes cargar) y escribes texto. Subí una foto de un colibrí, la coloqué sobre una imagen de un río y pedí un cuadro de Van Gogh. El resultado es una imagen nítida, aunque algo caricaturesca, pero es claramente un pastiche del estilo de Van Gogh. Lograr resultados fotorrealistas es más difícil.
NightCafe
La mayoría de las demás máquinas de tratamiento de imágenes con inteligencia artificial que actualmente ofrecen acceso gratuito se basan en los dos primeros modelos de nuestra lista. En otras palabras, utilizan DALL-E 2 o Stable Diffusion y añaden su propia interfaz de usuario y, a veces, formación adicional para determinados tipos de imágenes. NightCafe Creator es una opción interesante porque permite elegir entre varios modelos, incluidos DALL-E 2 y Stable Diffusion, así como el modelo original VQGAN+CLIP y el modelo de difusión GLIP, más consistente.
Los modelos anteriores nos parecían un poco desiguales. En palabras de NightCafe, los resultados de su modelo original «no parecen obedecer a las leyes de la física», en el sentido de que los sujetos pueden acabar flotando en el cielo, por ejemplo. El modelo consistente es más fiable, pero sigue siendo mejor para las creaciones artísticas que el fotorrealismo. Los generadores DALL-E 2 y Stable Diffusion son, como cabía esperar, más fiables. Su uso en NightCafe ofrece algunas ventajas, pero pierde otras.
NightCafe nos lleva de la mano más que las interfaces de usuario de estos modelos. Nos permite elegir el tipo de imagen que queremos generar, por ejemplo, aunque podemos activar el «modo avanzado» para mayor flexibilidad. Se pierden las nuevas funciones de edición, como pintar y repintar, y la herramienta de profundidad de imagen de Stable Diffusion. Y no es gratis. Al principio, sólo obtienes cinco créditos, suficientes para cinco generaciones, pero se recargan cada día y puedes ganar más créditos si completas ciertas tareas y desafíos. Si quieres comprar más, puedes adquirir paquetes o suscribirte a partir de 9,99 $ al mes para obtener ventajas adicionales.
¿Cómo elegir el mejor generador de imágenes AI?
Hay varios aspectos a tener en cuenta a la hora de elegir el mejor generador de imágenes AI. Por ejemplo, para qué quieres utilizarlo, cuánto tiempo quieres dedicar a configurarlo, qué tipo de resultados esperas y si estás dispuesto a pagar por él.
Si nunca has utilizado un generador de imágenes AI y quieres ver rápidamente cómo funciona, puedes saltar directamente a Craiyon y experimentar todo lo que quieras. Sin embargo, para obtener el mejor equilibrio entre facilidad de uso y resultados de calidad, le sugerimos que pruebes el DALL-E 2, capaz de producir imágenes fotorrealistas asombrosas.
DALL-E 2 también cuenta con potentes funciones de edición conocidas como inpainting y outpainting. Inpainting permite pintar sobre partes de una imagen para eliminarlas y sustituirlas por otra cosa, utilizando IA. El repintado permite «despintar» una imagen, extendiéndola más allá de sus bordes originales. Stable Diffusion ofrece mayor resolución y control y puede utilizarse gratuitamente, mientras que Midjourney impresiona por sus estilos únicos y cuenta con una sólida comunidad de usuarios.
¿Cómo funcionan los mejores generadores de imágenes?
La mayoría de los mejores generadores de imágenes se basan en modelos de aprendizaje automático entrenados para reconocer la relación entre imágenes y texto. El usuario introduce un texto breve que describe lo que quiere crear, y el modelo de IA intentará crear esa imagen basándose en las imágenes y los pies de foto con los que ha sido entrenado.
Los generadores de imágenes más recientes utilizan modelos de difusión. Parten de puntos aleatorios y van modificando el ruido para aproximarse al resultado final a medida que reconocen aspectos de la imagen. En algunos generadores, es posible elegir el número de pasos del patrón, lo que afecta al tiempo que se tarda en generar una imagen.
¿Cómo puedo obtener los mejores resultados de un generador de imágenes AI?
Incluso los mejores dispositivos de imagen de IA pueden producir resultados muy pobres. Por su propia naturaleza, hay un elemento de azar y, en la mayoría de los casos, aunque utilices la misma instrucción que produjo una muy buena imagen una vez, no obtendrás la misma imagen cuando la vuelvas a utilizar.
En general, cuanta más información se facilite, mejor. La falta de detalles tiende a producir resultados poco impresionantes, mientras que mencionar elementos como el estilo fotográfico e incluso la marca y el modelo de la cámara y la distancia focal del objetivo puede conducir a mejores resultados si el objetivo es el fotorrealismo. Algunos han informado de excelentes resultados con DALL-E 2 utilizando «Graflex» en las indicaciones.
Por último, incluso los mejores dispositivos de imagen con inteligencia artificial tienen muchas peculiaridades y producen imágenes con artefactos extraños que tendrás que corregir con software convencional de edición de imágenes. Las figuras humanas son especialmente propensas a las contorsiones y pueden acabar con un número incorrecto de dedos o con los ojos mirando en distintas direcciones. Los problemas con los rostros suelen corregirse en Photoshop mediante los filtros neuronales de Adobe.
¿Hay polémica con los generadores de imágenes con IA?
Hay varias razones por las que los mejores generadores de imágenes de IA suscitan controversia. Uno de los más importantes es el temor a que se utilicen indebidamente para crear contenidos violentos, abusivos o pornográficos, y el temor a que la gente intente presentar como reales imágenes generadas por IA difundiendo noticias falsas o difamando a famosos.
También hay cuestiones importantes sobre los derechos de autor: si alguien puede poseer los derechos de autor de una imagen que ha creado utilizando inteligencia artificial, y si es legal entrenar modelos de IA con imágenes tomadas de Internet sin el consentimiento de sus creadores originales. Por último, a algunos les preocupa el futuro del empleo en determinadas industrias creativas como la fotografía ¿Será esto una nueva revolución? Lo veremos en el futuro.