Aller au contenu principal
OpenAI s'attaque à Google avec son nouveau modèle d'image
CréationThe Information AI6sem

OpenAI s'attaque à Google avec son nouveau modèle d'image

Résumé IASource uniqueImpact UE
Source originale ↗·

OpenAI prépare discrètement un nouveau modèle de génération d'images, officieusement baptisé "gpt-image-2" par la communauté en ligne. Depuis plusieurs semaines, des images produites par ce modèle circulent sur X et Reddit, repérées par des utilisateurs attentifs qui ont identifié des tests en cours auprès d'une sélection de comptes ChatGPT et sur des plateformes de classement anonymes. Les résultats sont frappants : les images générées atteignent un niveau de photoréalisme tel qu'elles sont, dans certains cas, pratiquement impossibles à distinguer de photographies authentiques.

L'enjeu dépasse largement la prouesse technique. OpenAI vise explicitement 1 milliard d'utilisateurs actifs hebdomadaires sur ChatGPT, un seuil symbolique que l'entreprise espérait franchir avant fin 2025. Elle a manqué cet objectif et stagne depuis dans une fourchette autour de 920 millions d'utilisateurs par semaine. Un modèle d'image nettement supérieur aux solutions existantes pourrait constituer le levier capable de débloquer cette croissance, en attirant une nouvelle vague d'utilisateurs grand public, créatifs et professionnels, qui restent encore sur des outils concurrents comme Midjourney ou les offres de Google.

La bataille des modèles d'image s'intensifie à mesure que les grands acteurs de l'IA cherchent à consolider leur position. Google, avec Imagen, et les plateformes spécialisées font face à une OpenAI qui cherche à intégrer toujours davantage de capacités directement dans ChatGPT pour en faire un point d'entrée unique. Le lancement officiel de gpt-image-2 n'a pas encore été annoncé, mais la stratégie de tests progressifs suggère une sortie imminente. Si le modèle tient ses promesses de photoréalisme à grande échelle, il pourrait redistribuer significativement les parts de marché dans un secteur où la qualité visuelle est devenue le principal critère de différenciation.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-Image-2 lâché dans la nature : Le nouveau bond d’OpenAI va vous exploser la rétine.
1Le Big Data 

GPT-Image-2 lâché dans la nature : Le nouveau bond d’OpenAI va vous exploser la rétine.

OpenAI a déployé discrètement GPT-Image-2 le 21 avril 2026, sans conférence de presse ni annonce officielle de Sam Altman, directement sur les comptes ChatGPT web et mobile de ses utilisateurs dans le monde entier. Ce nouveau moteur de génération d'images représente un saut qualitatif majeur par rapport à son prédécesseur sur trois dimensions précises : le rendu de texte, la gestion de compositions complexes et le photoréalisme. Les premiers tests diffusés sur X montrent des affiches de films avec une typographie parfaitement lisible, des maquettes de Unes du New York Times où chaque colonne et chaque ligne de crédit est nette, et surtout une grille 10x10 contenant 100 objets distincts commençant par la lettre A, chacun correctement nommé et illustré sans aucune erreur de cohérence visuelle ou textuelle. Ces avancées changent concrètement ce que les professionnels peuvent faire avec l'IA générative. Jusqu'ici, intégrer du texte lisible dans une image produite par IA relevait de la loterie : les modèles produisaient systématiquement des caractères déformés, illisibles, mélangés à du pixel noise. Avec GPT-Image-2, cette limite disparaît, ce qui ouvre des usages immédiatement opérationnels pour les designers graphiques, les équipes marketing et les créateurs de contenu : prototypage d'interfaces, création d'affiches, génération de visuels publicitaires avec du texte intégré, le tout en quelques secondes et sans retouche. La gestion de la complexité spatiale, illustrée par la grille 10x10, signifie également que le modèle peut produire des compositions denses et structurées sans perte de cohérence, là où Midjourney et les outils de Google montrent encore des limites significatives dès que la scène se complique. Ce lancement silencieux un mardi s'inscrit dans une stratégie qui n'est pas anodine. Plusieurs observateurs notent que ce type de déploiement discret précède souvent, chez OpenAI, une annonce plus massive dans les jours suivants, des rumeurs évoquent une présentation liée à GPT-5.5 dès jeudi. GPT-Image-2 est par ailleurs le moteur qui alimente déjà l'API Images d'OpenAI depuis quelques semaines, utilisé notamment par des applications tierces comme ChatGPT Canvas et certains outils Canva. Son ouverture progressive au grand public via ChatGPT marque une étape de maturité : le modèle sort du contexte développeur pour entrer dans l'usage quotidien de masse. La concurrence, notamment Midjourney, qui n'a toujours pas de produit web grand public stable, et Adobe Firefly, va devoir répondre à un outil qui combine désormais photoréalisme, précision textuelle et gestion de la complexité dans un seul package accessible à tous.

UELes designers et équipes marketing français et européens peuvent immédiatement intégrer cet outil à leurs workflows pour générer des visuels avec texte lisible intégré, sans retouche manuelle.

💬 Le rendu de texte dans les images IA, c'était le dernier gros problème non résolu. GPT-Image-2 le ferme pour de bon : grille 10x10 sans une seule erreur, affiches avec typo lisible au premier coup d'oeil, c'est le genre de démo qui change ce qu'on peut promettre à un client dès demain matin. Midjourney n'a toujours pas de produit web stable, là ils vont vraiment souffrir.

CréationOpinion
1 source
Google veut réussir avec Veo 3.1 lite là où OpenAI a échoué avec Sora
2Frandroid 

Google veut réussir avec Veo 3.1 lite là où OpenAI a échoué avec Sora

Google a dévoilé Veo 3.1 lite, une version allégée de son modèle de génération vidéo par intelligence artificielle, destinée en priorité aux professionnels et créateurs de contenu. Contrairement aux versions précédentes positionnées sur les capacités brutes, ce nouveau modèle mise sur un équilibre entre performance et accessibilité tarifaire — un pivot stratégique explicitement assumé par la firme de Mountain View. L'enjeu est directement lié à l'échec relatif de Sora, le modèle vidéo d'OpenAI lancé avec fracas fin 2024 : malgré des démonstrations impressionnantes, Sora n'a jamais réussi à s'imposer auprès du grand public ni des professionnels, freiné par des coûts élevés, des limitations d'accès et des résultats inégaux en production réelle. Google tente d'éviter ce piège en rendant Veo 3.1 lite plus économique à l'usage, ce qui pourrait lui ouvrir les workflows de studios, agences et indépendants que Sora n'a pas su conquérir. La compétition dans la génération vidéo IA s'est considérablement intensifiée ces derniers mois, avec des acteurs comme Runway, Kling ou Pika qui occupent déjà le terrain professionnel. Google, fort de son infrastructure et de son intégration dans l'écosystème Workspace et YouTube, dispose d'un levier de distribution que ses concurrents n'ont pas. Veo 3.1 lite s'inscrit dans une stratégie plus large visant à ancrer Gemini et les outils génératifs Google dans les usages quotidiens des créateurs, avant que le marché ne se cristallise autour d'un ou deux acteurs dominants.

UELes créateurs et studios européens pourraient adopter Veo 3.1 lite comme alternative abordable aux outils vidéo IA existants, notamment via l'intégration dans Google Workspace déjà répandu en entreprise.

CréationOpinion
1 source
Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?
3Le Big Data 

Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?

Ideogram a lancé le 3 juin 2026 la version 4.0 de son modèle de génération d'images, et les chiffres publiés par la startup canadienne ont rapidement retenu l'attention de la communauté. Sur Design Arena, plateforme de comparaison indépendante basée sur des duels à l'aveugle entre générateurs d'images, Ideogram 4.0 atteint un score Elo de 1285, devançant de plus de 100 points des concurrents directs comme HunyuanImage de Tencent ou Gemini 3 Flash Image Gen de Google. Le modèle repose sur 9,3 milliards de paramètres et introduit une architecture d'entrée originale : les prompts sont fournis sous forme de descriptions JSON structurées plutôt qu'en texte libre, ce qui permet de spécifier des palettes de couleurs précises, des positions d'éléments via coordonnées, et de dissocier le contenu textuel de son style graphique. Disponible dès aujourd'hui sur les plans Ideogram et via API, le modèle est également distribué en poids ouverts sous licence non commerciale, avec une intégration native dans ComfyUI. Ce qui distingue Ideogram 4.0 de ses concurrents n'est pas uniquement la qualité esthétique globale, mais sa maîtrise de la typographie dans les images, l'un des défis les plus persistants de la génération visuelle par IA. Avec un taux de réussite de 47,9 % évalué par des designers professionnels pour la génération de texte lisible et bien intégré, le modèle s'adresse directement aux usages professionnels : création d'affiches, de logos, de visuels marketing ou de contenus éditoriaux. Pour les designers et créateurs de contenu, cette précision change concrètement le flux de travail : il devient possible de produire un visuel complet sans repasser par Photoshop pour corriger une typographie défaillante. Pour les développeurs, les poids ouverts permettent un déploiement local et un fine-tuning sur des données propriétaires, sans dépendance à une API tierce. Ideogram, fondé à Toronto en 2023 par d'anciens chercheurs de Google Brain, s'était déjà imposé comme une référence pour la génération de texte dans les images avec ses versions précédentes, mais restait en retrait face aux modèles fermés de Midjourney ou Adobe Firefly sur la qualité visuelle globale. Ce lancement en open weights s'inscrit dans une tendance plus large où les laboratoires misent sur l'ouverture pour accélérer l'adoption et construire un écosystème de développeurs fidèles, une stratégie que Meta a popularisée avec LLaMA dans le domaine du texte. La vraie question reste la durabilité de l'avance d'Ideogram : Stability AI, Black Forest Labs (auteur de FLUX) et les équipes de Tencent travaillent sur des modèles comparables, et les benchmarks Elo peuvent évoluer vite. Les prochains mois diront si Ideogram 4.0 s'impose comme standard ou si la course reste ouverte.

UELes poids ouverts sous licence non commerciale permettent aux développeurs et chercheurs européens de déployer le modèle localement sans dépendance à une API tierce, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 La typo dans les images, c'était le vrai problème depuis le début. 47,9% de réussite sur du texte lisible évalué par des designers pros, ça change la donne en production, et le format JSON pour spécifier palette et positions rend le truc plus prévisible qu'un prompt texte classique. Les poids ouverts non commerciaux, c'est un bon signal, mais faut pas oublier que FLUX et les équipes Tencent ne dorment pas.

CréationOpinion
1 source
OpenAI lance GPT-Image-2
4Latent Space 

OpenAI lance GPT-Image-2

OpenAI a lancé GPT-Image-2 les 20 et 21 avril 2026, déployant simultanément le modèle sur ChatGPT, Codex et son API publique. La nouvelle version introduit deux variantes, l'une standard et l'une dotée d'un mode "thinking", ce dernier permettant au modèle de générer plusieurs candidats, de vérifier ses propres sorties et d'interroger le web lorsqu'il est couplé à un modèle de raisonnement. Les capacités mises en avant incluent le rendu de texte, la fidélité aux mises en page, l'édition d'images, le support multilingue et la génération d'artefacts visuels tels que diapositives, infographies, maquettes d'interface et QR codes. Sur les benchmarks Arena, GPT-Image-2 occupe la première place dans toutes les catégories de génération d'images : 1512 points en texte-vers-image, 1513 en édition mono-image, 1464 en édition multi-images, avec une avance de 242 points Elo sur le modèle suivant dans la catégorie texte-vers-image. Des outils tiers comme Figma, Canva, Adobe Firefly et fal ont déjà annoncé son intégration. Ce lancement représente davantage qu'une amélioration esthétique : GPT-Image-2 positionne la génération d'images comme une surface de travail professionnelle à part entière. Les réactions des développeurs convergent sur un point précis, le modèle est suffisamment fiable pour servir de référence visuelle dans des boucles de conception, de documentation technique et de prototypage d'interface. L'implication la plus structurante est que la génération d'images devient une porte d'entrée pour les agents de code : un développeur peut générer une maquette visuelle puis demander à Codex de l'implémenter directement, en utilisant l'image comme spécification. Ce flux de travail, jusqu'ici trop peu fiable pour être systématisé, devient crédible avec ce niveau de précision. Le lancement survient dans un contexte de recentrage stratégique chez OpenAI. Selon plusieurs sources, une période de concentration interne aurait précédé cette sortie, associée au départ ou à la réorganisation de l'équipe Sora, le projet de génération vidéo. Le fait que la génération d'images reste une priorité malgré ces turbulences est en soi significatif. En parallèle, d'autres acteurs avancent sur le terrain des agents : Hugging Face a présenté ml-intern, un agent open source automatisant l'ensemble de la boucle de recherche post-entraînement, avec des résultats publiés sur des benchmarks scientifiques comme GPQA, où les performances sont passées de 10% à 32% en moins de dix heures sur Qwen3-1.7B. Le même jour, Cursor aurait bouclé un accord à 60 milliards de dollars avec xAI. La semaine du 20 avril 2026 s'annonce comme l'une des plus denses de l'année en matière d'IA appliquée.

UEL'accès immédiat à l'API renforce la dépendance des entreprises et créatifs européens aux infrastructures américaines pour la génération d'images professionnelle.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour