OpenAI lanza su IA generadora de imágenes nativa de GPT-4o

OpenAI lanza su IA generadora de imágenes nativa de GPT-4o

Mar, Jue, 2025
creativo
Noticias

OpenAI acaba de dar un gran salto de calidad en lo que respecta a la creación de imágenes con IA al integrar su nuevo modelo en GPT-4o. El generador de imágenes 4o supera las capacidades de la familia de modelos DALL-E, permitiendo crear obras más realistas, con un mayor nivel de detalles, incluir texto coherente o respetar la consistencia para generar variaciones, entre otras capacidades útiles.

La desarrolladora ya ha activado la generación de imágenes 4o en el modelo GPT-40 para los planes Plus, Pro, Teams y gratis, y también dentro de Sora, su IA generadora de vídeo. Desde OpenAI han informado de que próximamente se desplegará en la API y en los planes Enterprise y Edu.

Aquellas personas que deseen seguir utilizando DALL-E para crear sus obras con IA, podrán acceder a este modelo a través de una cuenta DALL-E GPT dedicada.

Capacidades del generador de imágenes 4o

OpenAI ha desarrollado el generador de imágenes 4o poniendo el foco en potenciar la utilidad del mismo. Más allá del atractivo de las imágenes, estas también deben servir para comunicar, explicar o persuadir, y para ello deben ser coherentes, de calidad y ordenar de forma clara la información.

«Entrenamos nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo se relacionan las imágenes con el lenguaje, sino también cómo se relacionan entre sí. Combinado con un entrenamiento posterior intensivo, el modelo resultante posee una fluidez visual sorprendente, capaz de generar imágenes útiles, consistentes y contextuales», explican desde la desarrolladora.

Estas premisas se han materializado en un gran abanico de nuevas capacidades o funciones mejoradas. Algo que no ha variado la facilidad de uso de la herramienta, ya que este modelo sigue funcionando de modo conversacional. Solo necesitas introducir la descripción de la imagen que quieres crear o las instrucciones para generar variaciones, y ChatGPT-4o se encargará del resto.

Eso sí, es posible que notes que la IA tarda un poco más en generar las imágenes (algo que puede prolongarse hasta un minuto). Esto se debe a que el modelo tiene un proceso de «pensamiento» más largo para crear obras más precisas y detalladas.

Fotorrealismo mejorado y más estilos

El modelo generador de imágenes 4o es capaz de crear obras fotorrealistas de gran calidad y detalle. Esto contrasta con las capacidades de DALL-E, las cuales en este sentido no eran tan avanzadas como las de otras IAs generadoras de imágenes.

Así mismo, OpenAI explica que «el entrenamiento con imágenes que reflejan una amplia variedad de estilos de imagen permite al modelo crear o transformar imágenes de manera convincente».

Yo le he pedido a la IA que cree esta imagen: «una mujer alpinista descansando sentada en un saliente de roca de una montaña. Su compañero está terminando de llegar hasta ella, escalando por debajo». Después, le he pedido que lo haga con un estilo steampunk, que ha recreado a la perfección.

A la izquierda: imagen fotorrealista de dos alpinistas en una montaña. La mujer está sentada en un saliente de roca, y el hombre está escalando para llegar hasta donde ella está. A la derecha: la misma imagen pero con estilo steampunk — Izquierda: imagen fotorrealista de dos alpinistas creada con 4o / Derecha: misma imagen estilo steampunk creada con 4o

Inclusión de texto mejorada

Si bien DALLE-3 era capaz de insertar texto en las imágenes que generaba, esta capacidad no era ni de lejos infalible. En muchas ocasiones se inventaba un nuevo idioma o no escribía bien las letras. El generador de imágenes 4o es mucho más preciso en este sentido, logrando que la inclusión de texto resulte efectiva.

Invitación de cumpleaños creada con el generador de imágenes 4o usando el prompt: — Invitación de cumpleaños creada con 4o

Variación de imágenes con consistencia

El hecho de que la generación de imágenes ahora sea nativa del propio GPT-4o, permite que el modelo aproveche las imágenes y texto en el contexto del chat, favoreciendo la coherencia. De este modo, podrás refinar tus obras mediante conversaciones naturales con la herramienta y crear variaciones mientras se mantiene la coherencia del personaje y el contexto de la obra.

Para probar esta capacidad, pedí a 4o que generase la imagen de «un patito con una flor sobre su cabeza». Tras esto, le solicité lo siguiente «cambia el estilo de la imagen que has creado por un estilo 3D», después que lo cambiase a un estilo papiroflexia y, por último, que el patito fuese de cristal e iridiscente.

Imagen compuesta por cuatro imágenes diferentes creadas con 4o. La primera, empezando por la izquierda, muestra el dibujo de un patito con una flor sobre la cabeza. Las siguientes son la misma imagen pero variando el estilo (3D, papiroflexia y de cristal) — Variaciones de estilo artístico de la imagen de un patito con una flor sobre su cabeza

Así mismo, además de variar el estilo artístico, el generador de imágenes 4o también es capaz de mantener la consistencia, añadir elementos nuevos a la obra, aplicar cambios de color e incluso de situar a nuestro personaje en nuevos escenarios.

Imagen compuesta por cuatro imágenes diferentes creadas con 4o. Todas versionan el dibujo de un patito con una flor sobre la cabeza. La primera es de latón y el patito lleva una guitarra y su flor es negra; en la segunda este mismo patito es de peluche; en la tercera es el mismo patito de peluche pero con la flor azul y un tambor; y la última el patito es de madera, tiene una gaita y está en un bosque. — Variaciones de estilo, color, elementos y fondo de la imagen de un patito con una flor sobre su cabeza

Y sí, si te lo estabas preguntando, también permite generar variaciones hiperrealistas de imágenes que subas de tu dispositivo. En este caso, he subido una fotografía de Depositphotos y le he pedido «Crea una imagen que recree la imagen que te adjunto, pero la mujer está usando una consola de videojuegos y está sentada en el Polo Norte».

A la izquierda: fotografía de una mujer negra de unos 25 años sentada en la acera mientras mira su móvil con actitud sonriente y feliz. A la derecha: imagen generada con 4o que recrea esta imagen situando a la mujer en el Polo Norte y usando una consola. — Variación de una fotografía real

Gestión de entre 10 y 20 objetos

OpenAI destaca que mientras que otras IAs generadoras de imágenes tienen problemas para seguir instrucciones que involucren a entre 5 y 8 objetivos, el modelo 4o puede gestionar hasta 10-20 objetos diferentes. Esto le permite seguir instrucciones detalladas con atención a los detalles. «La mayor vinculación de los objetos con sus características y relaciones permite un mejor control».

Por ejemplo, he probado a pedirle a la IA que cree «una imagen cuadrada con una cuadrícula de 4 filas por 4 columnas y 16 objetos estilo pegatinas y en png. De izquierda a derecha y de arriba a abajo. Aquí está la lista: 1. Un mapache, 2. Un rayo amarillo, 3. Una espiral lila, 4. Un círculo verde, 5. Un tulipán rojo, 6. Un reloj de arena, 7. Una nube gris con cara triste, 8. Un 26 con ojos, 9. Un gato naranja con una pajarita negra, 10. Un globo terráqueo, 11. Una lupa, 12. Un emoji de carita enamorada, 13. Un globo aerostático, 14. Una morsa azul y blanca, 15. La palabra «Marketing4eCommerce» escrita en azul claro y 16. Un rayo arcoíris».

Imagen compuesta por 16 creaciones distintas de iconos estilo pegatina — Imagen compuesta por 16 creaciones

Como ves, ha clavado la imagen. Esto supone un salto cualitativo enorme, y te lo dice una servidora, que ha tenido múltiples peleas con ChatGPT para que incluyese un número de personas, móviles, pantallas, etc. concreto en una imagen y, en la mayoría de las ocasiones, salía perdiendo.

Además, como bonus extra te contamos que puedes crear pngs (como el caso de estas pegatinas) y luego usarlos para completar otras imágenes. Yo los he utilizado para decorar esta fotografía de dos tazas.

Fotografía de dos tazas sobre la que se han insertado algunas de las pegatinas creadas por 4o — Fotografía de dos tazas sobre las que se han insertado pegatinas creadas con 4o

Perooo… si quieres ahorrarte el trabajo, ¡4o lo hace por ti! Le pedí a la herramienta que utilizase las pegatinas que acababa de crear y las pegase en la imagen de una taza corporativa. A lo que me respondió «Puedo ayudarte a crear una imagen que incluya los stickers sobre una taza corporativa. Sin embargo, necesitaré que me envíes la imagen de la taza o me des detalles sobre cómo debe ser el diseño. ¿Podrías proporcionarme más información o subir la imagen de la taza?». Subí una imagen de una taza… y ¡tachán!

Imagen de una taza creada con 4o. La taza lleva pegadas las pegatinas que la IA generó en una petición anterior. — Inserción de pegatinas creadas por 4o en una imagen generada posteriormente por la IA

Enfocándonos en el mundo del eCommerce, esta puede convertirse en una forma sencilla y accesible para optimizar imágenes de producto.

Aprendizaje en contexto

El modelo 4o es capaz de analizar y aprender de las imágenes cargadas por el usuario o usuaria, gracias a lo cual puede integrar con gran habilidad sus detalles y su contexto para elevar la generación de imágenes. OpenAI nos pone el siguiente ejemplo:

Captura de una conversación con ChatGPT-4o en la que se le aportan varias imágenes de ejemplo y se le pide que cree una imagen concreta con variaciones específicas pero basándose en el estilo y contenido de las de muestra — Creación de imagen a partir de obras de muestra

Conocimiento general

Otra de las ventajas de la generación de imágenes nativa de 4o es que la IA puede vincular de forma directa su conocimiento, dando como resultado un modelo más inteligente y eficiente. Por ejemplo, si le pides que cree un cartel estilo herbario con 4 flores típicas de la primavera en España, usará sus conocimientos para identificar qué flores crear.

Cartel estilo herbario de flores de primavera en España — Creación de una imagen recurriendo al conocimiento general de 4o

En este caso, el resultado ha sido bastante preciso. La herramienta ha dibujado las flores correctamente, ha insertado bien el texto e incluso ha añadido los nombres científicos de las plantas. Sin embargo, la lavanda es una flor de verano, por lo que 4o no ha diseñado un cartel correcto al 100%. Al señalarle su error a la herramienta, esta ha vuelto a generar la imagen sustituyendo la lavanda por manzanilla.

Corrección del cartel estilo herbario de flores de primavera en España creado por 4o — Corrección de imagen realizada por 4o

Limitaciones

Como acabamos de poder apreciar en este último ejemplo, si bien la nueva IA generadora de imágenes de OpenAI revela una progresión asombrosa, sigue sin ser perfecta. Desde la propia compañía afirman: «somos conscientes de múltiples limitaciones actuales que abordaremos mediante mejoras del modelo tras el lanzamiento inicial».

Algunos de los fallos que puede presentar la herramienta son: crear imágenes cortadas, sufrir alucinaciones, problemas de encuadernación, generar gráficos imprecisos, dificultades para incluir texto en idiomas no latinos y alteraciones en ciertos aspectos de la imagen cuando se le piden ediciones.

Sin embargo, te animamos encarecidamente a probarla, ya que es, con diferencia, la IA generadora de imágenes más completa que hemos probado hasta la fecha.

Foto: GPT-4o

Source link