OpenAI lanza su IA generadora de imágenes nativa de GPT-4o
OpenAI acaba de dar un gran salto de calidad en lo que respecta a la creación de imágenes con IA al integrar su nuevo modelo en GPT-4o. El generador de imágenes 4o supera las capacidades de la familia de modelos DALL-E, permitiendo crear obras más realistas, con un mayor nivel de detalles, incluir texto coherente o respetar la consistencia para generar variaciones, entre otras capacidades útiles.
La desarrolladora ya ha activado la generación de imágenes 4o en el modelo GPT-40 para los planes Plus, Pro, Teams y gratis, y también dentro de Sora, su IA generadora de vídeo. Desde OpenAI han informado de que próximamente se desplegará en la API y en los planes Enterprise y Edu.
Aquellas personas que deseen seguir utilizando DALL-E para crear sus obras con IA, podrán acceder a este modelo a través de una cuenta DALL-E GPT dedicada.
Capacidades del generador de imágenes 4o
OpenAI ha desarrollado el generador de imágenes 4o poniendo el foco en potenciar la utilidad del mismo. Más allá del atractivo de las imágenes, estas también deben servir para comunicar, explicar o persuadir, y para ello deben ser coherentes, de calidad y ordenar de forma clara la información.
«Entrenamos nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo se relacionan las imágenes con el lenguaje, sino también cómo se relacionan entre sí. Combinado con un entrenamiento posterior intensivo, el modelo resultante posee una fluidez visual sorprendente, capaz de generar imágenes útiles, consistentes y contextuales», explican desde la desarrolladora.
Estas premisas se han materializado en un gran abanico de nuevas capacidades o funciones mejoradas. Algo que no ha variado la facilidad de uso de la herramienta, ya que este modelo sigue funcionando de modo conversacional. Solo necesitas introducir la descripción de la imagen que quieres crear o las instrucciones para generar variaciones, y ChatGPT-4o se encargará del resto.
Eso sí, es posible que notes que la IA tarda un poco más en generar las imágenes (algo que puede prolongarse hasta un minuto). Esto se debe a que el modelo tiene un proceso de «pensamiento» más largo para crear obras más precisas y detalladas.
Fotorrealismo mejorado y más estilos
El modelo generador de imágenes 4o es capaz de crear obras fotorrealistas de gran calidad y detalle. Esto contrasta con las capacidades de DALL-E, las cuales en este sentido no eran tan avanzadas como las de otras IAs generadoras de imágenes.
Así mismo, OpenAI explica que «el entrenamiento con imágenes que reflejan una amplia variedad de estilos de imagen permite al modelo crear o transformar imágenes de manera convincente».
Yo le he pedido a la IA que cree esta imagen: «una mujer alpinista descansando sentada en un saliente de roca de una montaña. Su compañero está terminando de llegar hasta ella, escalando por debajo». Después, le he pedido que lo haga con un estilo steampunk, que ha recreado a la perfección.


Inclusión de texto mejorada
Si bien DALLE-3 era capaz de insertar texto en las imágenes que generaba, esta capacidad no era ni de lejos infalible. En muchas ocasiones se inventaba un nuevo idioma o no escribía bien las letras. El generador de imágenes 4o es mucho más preciso en este sentido, logrando que la inclusión de texto resulte efectiva.


Variación de imágenes con consistencia
El hecho de que la generación de imágenes ahora sea nativa del propio GPT-4o, permite que el modelo aproveche las imágenes y texto en el contexto del chat, favoreciendo la coherencia. De este modo, podrás refinar tus obras mediante conversaciones naturales con la herramienta y crear variaciones mientras se mantiene la coherencia del personaje y el contexto de la obra.
Para probar esta capacidad, pedí a 4o que generase la imagen de «un patito con una flor sobre su cabeza». Tras esto, le solicité lo siguiente «cambia el estilo de la imagen que has creado por un estilo 3D», después que lo cambiase a un estilo papiroflexia y, por último, que el patito fuese de cristal e iridiscente.


Así mismo, además de variar el estilo artístico, el generador de imágenes 4o también es capaz de mantener la consistencia, añadir elementos nuevos a la obra, aplicar cambios de color e incluso de situar a nuestro personaje en nuevos escenarios.


Y sí, si te lo estabas preguntando, también permite generar variaciones hiperrealistas de imágenes que subas de tu dispositivo. En este caso, he subido una fotografía de Depositphotos y le he pedido «Crea una imagen que recree la imagen que te adjunto, pero la mujer está usando una consola de videojuegos y está sentada en el Polo Norte».


Gestión de entre 10 y 20 objetos
OpenAI destaca que mientras que otras IAs generadoras de imágenes tienen problemas para seguir instrucciones que involucren a entre 5 y 8 objetivos, el modelo 4o puede gestionar hasta 10-20 objetos diferentes. Esto le permite seguir instrucciones detalladas con atención a los detalles. «La mayor vinculación de los objetos con sus características y relaciones permite un mejor control».
Por ejemplo, he probado a pedirle a la IA que cree «una imagen cuadrada con una cuadrícula de 4 filas por 4 columnas y 16 objetos estilo pegatinas y en png. De izquierda a derecha y de arriba a abajo. Aquí está la lista: 1. Un mapache, 2. Un rayo amarillo, 3. Una espiral lila, 4. Un círculo verde, 5. Un tulipán rojo, 6. Un reloj de arena, 7. Una nube gris con cara triste, 8. Un 26 con ojos, 9. Un gato naranja con una pajarita negra, 10. Un globo terráqueo, 11. Una lupa, 12. Un emoji de carita enamorada, 13. Un globo aerostático, 14. Una morsa azul y blanca, 15. La palabra «Marketing4eCommerce» escrita en azul claro y 16. Un rayo arcoíris».


Como ves, ha clavado la imagen. Esto supone un salto cualitativo enorme, y te lo dice una servidora, que ha tenido múltiples peleas con ChatGPT para que incluyese un número de personas, móviles, pantallas, etc. concreto en una imagen y, en la mayoría de las ocasiones, salía perdiendo.
Además, como bonus extra te contamos que puedes crear pngs (como el caso de estas pegatinas) y luego usarlos para completar otras imágenes. Yo los he utilizado para decorar esta fotografía de dos tazas.


Perooo… si quieres ahorrarte el trabajo, ¡4o lo hace por ti! Le pedí a la herramienta que utilizase las pegatinas que acababa de crear y las pegase en la imagen de una taza corporativa. A lo que me respondió «Puedo ayudarte a crear una imagen que incluya los stickers sobre una taza corporativa. Sin embargo, necesitaré que me envíes la imagen de la taza o me des detalles sobre cómo debe ser el diseño. ¿Podrías proporcionarme más información o subir la imagen de la taza?». Subí una imagen de una taza… y ¡tachán!


Enfocándonos en el mundo del eCommerce, esta puede convertirse en una forma sencilla y accesible para optimizar imágenes de producto.
Aprendizaje en contexto
El modelo 4o es capaz de analizar y aprender de las imágenes cargadas por el usuario o usuaria, gracias a lo cual puede integrar con gran habilidad sus detalles y su contexto para elevar la generación de imágenes. OpenAI nos pone el siguiente ejemplo:


Conocimiento general
Otra de las ventajas de la generación de imágenes nativa de 4o es que la IA puede vincular de forma directa su conocimiento, dando como resultado un modelo más inteligente y eficiente. Por ejemplo, si le pides que cree un cartel estilo herbario con 4 flores típicas de la primavera en España, usará sus conocimientos para identificar qué flores crear.


En este caso, el resultado ha sido bastante preciso. La herramienta ha dibujado las flores correctamente, ha insertado bien el texto e incluso ha añadido los nombres científicos de las plantas. Sin embargo, la lavanda es una flor de verano, por lo que 4o no ha diseñado un cartel correcto al 100%. Al señalarle su error a la herramienta, esta ha vuelto a generar la imagen sustituyendo la lavanda por manzanilla.


Limitaciones
Como acabamos de poder apreciar en este último ejemplo, si bien la nueva IA generadora de imágenes de OpenAI revela una progresión asombrosa, sigue sin ser perfecta. Desde la propia compañía afirman: «somos conscientes de múltiples limitaciones actuales que abordaremos mediante mejoras del modelo tras el lanzamiento inicial».
Algunos de los fallos que puede presentar la herramienta son: crear imágenes cortadas, sufrir alucinaciones, problemas de encuadernación, generar gráficos imprecisos, dificultades para incluir texto en idiomas no latinos y alteraciones en ciertos aspectos de la imagen cuando se le piden ediciones.
Sin embargo, te animamos encarecidamente a probarla, ya que es, con diferencia, la IA generadora de imágenes más completa que hemos probado hasta la fecha.
Foto: GPT-4o