Une nouvelle version d’OpenAI pour la création d’images : ChatGPT Images 1.5 Caractéristiques

OpenAI a publié une nouvelle mise à jour de l’outil de création d’images de ChatGPT, appelé ChatGPT Images, basé sur GPT Image 1.5. L’entreprise décrit ce développement comme un pas en avant dans les capacités créatives de l’IA, en augmentant la précision des résultats, en accélérant la génération et en simplifiant l’expérience de l’utilisateur, qu’il s’agisse de créer des images à partir de zéro ou d’éditer des images existantes.
Selon OpenAI, la nouvelle version introduit un espace dédié aux images dans ChatGPT, ce qui permet de transformer plus facilement les idées visuelles en un résultat plus visuel, avec des capacités d’édition plus contrôlées et plus réactives.
Lancement de l’expérience Images dans ChatGPT
Selon l’entreprise, la mise à jour apporte une nouvelle expérience dédiée aux photos dans ChatGPT, appelée Images, conçue pour faciliter la création de photos et réduire la charge associée à la rédaction de longues descriptions. L’expérience propose des modèles prêts à l’emploi, des styles populaires et des idées en vogue à choisir directement, afin de favoriser l’inspiration créative et d’accélérer les résultats.
OpenAI a expliqué que GPT Image 1.5 est déployé mardi pour tous les utilisateurs de ChatGPT et est disponible via l’API. L’expérience Images au sein de ChatGPT est actuellement déployée pour la plupart des utilisateurs, avec une prise en charge complète des comptes Business et Enterprise à un stade ultérieur.
Accélérer la génération et optimiser la préservation des détails
OpenAI s’est concentré sur deux aspects clés dans cette version : La vitesse et la cohérence. Elle affirme que le processus de génération d’images est jusqu’à quatre fois plus rapide que la version précédente, et que des améliorations ont été apportées à la préservation des éléments clés de l’image lors de l’édition, tels que l’éclairage, la composition générale et les traits des personnes.
Selon l’entreprise, cette avancée permet de réaliser des ajustements fins sans « briser » l’identité de l’image originale et d’augmenter la qualité des résultats lors d’une longue série d’ajustements consécutifs.
Montage plus fin avec changement limité d’éléments
En ce qui concerne l’édition de photos, OpenAI affirme que le nouveau modèle est plus fidèle à l’intention de l’utilisateur lorsqu’il demande d’éditer une image existante, en suivant les instructions avec précision et en se concentrant sur les petits détails. Pour ce faire, il ne modifie que les éléments requis, tout en conservant le reste de l’image intacte, notamment l’éclairage, la cohérence des couleurs, les angles de prise de vue et les traits du visage, afin de garantir des résultats cohérents en cas de modifications répétées.
OpenAI estime que cette précision ouvre la voie à des utilisations plus réalistes, quotidiennes et pratiques, telles que l’amélioration des portraits, l’essayage de vêtements et de coiffures de manière plus convaincante, ainsi que l’application de filtres stylistiques et de transformations conceptuelles tout en conservant l’essence de l’image. L’entreprise décrit cette tendance comme rapprochant l’outil d’un « studio de création dans votre poche ».
Ajouter, supprimer, fusionner et réorganiser dans une image
OpenAI note que GPT Image 1.5 excelle dans plusieurs types d’édition, notamment l’ajout, la suppression, la fusion, le mélange et la réorganisation d’éléments au sein d’une scène. L’objectif est de réaliser des changements spécifiques sans perdre les caractéristiques qui donnent à l’image son caractère.
L’entreprise a fourni des exemples montrant qu’il est possible de commencer par une seule image, puis de procéder à une série de changements séquentiels, tout en conservant une cohérence visuelle globale à travers les différentes étapes.
Transformations créatives et texte en image
OpenAI souligne que les capacités du modèle sont également visibles lors de transformations créatives qui ajoutent de nouveaux éléments ou modifient la scène, y compris l’insertion de texte dans les images pour donner vie à une idée ou à une conception visuelle sans sacrifier les détails de l’image d’origine. Cette fonction fonctionne avec des idées simples ou complexes et peut être facilement testée grâce à des modèles prêts à l’emploi dans l’expérience Images, sans qu’il soit nécessaire de recourir à de longues descriptions.
En ce qui concerne le suivi des instructions, l’entreprise souligne que GPT Image 1.5 est plus à même que la première version de GPT Image 1.5 d’exécuter les instructions avec précision, tant pour les ajustements fins que pour la création de compositions originales complexes qui nécessitent le maintien de relations spécifiques entre les éléments, comme leur disposition dans des grilles ou dans des scènes multicouches.
En ce qui concerne l’affichage du texte dans les images, l’OpenAI affirme que le modèle a réalisé une nouvelle avancée qui permet de traiter plus clairement et plus précisément les textes plus denses et de plus petite taille, ce qui est crucial pour des domaines tels que la conception d’affiches, les supports publicitaires, les infographies et les contenus éditoriaux visuels.
Amélioration de la qualité des produits
OpenAI a signalé d’autres améliorations de la qualité de l’image finale, notamment une meilleure gestion des scènes comportant un grand nombre de petits visages, l’amélioration du réalisme global des images et la minimisation des défauts visuels tels que les reflets non naturels ou la perte de mise au point, ce qui accroît la possibilité d’utiliser les résultats dans des contextes professionnels.
Les restrictions sont toujours en place
Bien que l’on parle d’un bond en avant, OpenAI a reconnu que les résultats ne sont pas parfaits dans tous les cas. Elle a déclaré avoir testé à nouveau de nombreux exemples utilisés lors de son premier lancement de la génération d’images et avoir constaté une amélioration considérable, mais certains défis subsistent.
L’entreprise a notamment mentionné Des difficultés liées à certains styles artistiques, à la gestion d’un grand nombre de visages, ainsi que des défis liés à la prise en charge de certaines langues, telles que le chinois, l’arabe et l’hébreu, qui nécessiteront des développements supplémentaires dans les versions futures.
Coût réduit pour les développeurs et plus grande disponibilité grâce à l’API
Au niveau de l’API, l’OpenAI explique que GPT Image 1.5 offre les mêmes améliorations que ChatGPT, avec une meilleure performance dans la préservation des caractéristiques de l’image et des éléments visuels à travers les éditions, ce qui le rend approprié pour le marketing, la construction d’identité visuelle et les besoins de conception de logo, ainsi que pour le commerce électronique qui a besoin de générer des catalogues d’images à partir d’une seule image.
L’entreprise a annoncé une réduction de 20 % du coût des entrées et sorties d’images par rapport à la version précédente, ce qui permet de produire plus d’images avec le même budget. Le modèle peut être testé dans l’OpenAI Playground, avec une galerie d’exemples et un guide pour écrire des commandes afin d’aider les utilisateurs à générer des idées et des variations plus rapidement.
OpenAI a ajouté que des entreprises et des organisations dans les domaines des outils créatifs, du commerce électronique et des logiciels de marketing utilisent déjà GPT Image 1.5. Elle cite des déclarations de Canva selon lesquelles le nouveau modèle présente une nette amélioration de la fidélité visuelle, de la navigabilité et des performances dans un plus large éventail de styles et de thèmes.
Disponible pour tous les utilisateurs de ChatGPT
En termes de disponibilité, OpenAI a déclaré que ChatGPT Images est disponible pour tous les utilisateurs de ChatGPT dans le monde entier, et qu’il fonctionne sur tous les modèles sans nécessiter de paramètres particuliers. Par ailleurs, le précédent générateur d’images reste disponible en tant qu’option autonome pour les utilisateurs qui préfèrent continuer à l’utiliser.



