![[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images](/_next/image?url=https%3A%2F%2Fapi.lefilia.fr%2Fapi%2Fv1%2Fimages%2Farticle_4431187.png&w=3840&q=75)
[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images
Le 2 et 3 juin 2026, l'industrie de l'intelligence artificielle a connu une journée particulièrement dense. Microsoft a dévoilé MAI-Thinking-1, un modèle de raisonnement généraliste entraîné sans distillation de modèles tiers, qui atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro, tout en surpassant Claude Sonnet 4.6 dans des comparaisons en aveugle selon les préférences humaines. Le rapport technique de 109 pages qui accompagne le lancement a été largement salué pour sa transparence inhabituelle : aucune donnée synthétique, aucun modèle préexistant utilisé comme point de départ, et les capacités de raisonnement et d'utilisation d'outils acquises uniquement en post-entraînement. Le même jour, les plateformes de génération d'images Reve 2 et Ideogram 4.0 lançaient simultanément des avancées majeures dans la composition et la mise en page visuelle, pendant que Google publiait Gemma 4 12B, un modèle multimodal open source sous licence Apache 2.0, conçu pour fonctionner en local avec environ 16 Go de VRAM.
Le rapport MAI-Thinking-1 a particulièrement retenu l'attention des chercheurs pour ses détails techniques inhabituels : Microsoft y révèle sa composition d'entraînement exacte (50 % de code, 17,5 % de STEM, 17,5 % de mathématiques, 10 % de culture générale, 5 % de multilinguisme), sa recette de montée en puissance progressive et ses ratios de calcul précis. Au-delà du modèle lui-même, la firme pousse une stratégie d'appropriation par les entreprises via le "Frontier Tuning", un système de personnalisation par renforcement qui permettrait à des modèles MAI adaptés à des tâches spécifiques d'atteindre des performances comparables à GPT-5.4 avec une efficacité dix fois supérieure. Gemma 4 12B, de son côté, introduit une architecture sans encodeur séparé pour la vision ou l'audio, toutes les modalités étant intégrées directement dans le backbone du LLM, avec un support immédiat sous vLLM, Ollama et llama.cpp, et des versions quantifiées fonctionnant sur seulement 8 Go de RAM.
Ces sorties s'inscrivent dans une compétition accélérée entre laboratoires pour la maîtrise du raisonnement et du multimodal. Microsoft tente un positionnement inédit : combiner la transparence académique d'un rapport de recherche frontalier avec une infrastructure de personnalisation d'entreprise clé en main, une approche que ni OpenAI ni Google n'ont encore formalisée à cette échelle. Sur le front de l'image, le fait que Reve et Ideogram lancent le même jour des progrès sur la composition visuelle signale que ce verrou technique, longtemps considéré comme partiellement insolvable par les IA, a été levé collectivement en 2026. Ideogram 4.0 se positionne désormais comme le meilleur modèle d'image en accès ouvert, même si les classements Arena placent GPT-Image-2 encore nettement au-dessus. La convergence de ces annonces en une seule journée illustre la cadence désormais hebdomadaire des percées en IA générative.
Gemma 4 12B, disponible sous licence Apache 2.0 et compatible Ollama, offre aux développeurs et chercheurs européens un modèle multimodal performant utilisable en local sans dépendance à un cloud américain.
Composer du texte, superposer des éléments, gérer les proportions, c'était le talon d'Achille de tous les générateurs d'image. Que Reve et Ideogram sortent ça le même jour, c'est le genre de synchronisation qui signale que quelque chose s'est débloqué en profondeur. Reste à voir si Ideogram 4 tient son rang face à GPT-Image-2 dans la durée, parce que les classements Arena ont leurs angles morts.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



