Aller au contenu principal
Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique
LLMsThe Decoder15sem· 1 min de lecture

Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique

Source originale ↗·

Luma AI lance Uni-1, un nouveau modèle qui unifie compréhension et génération d'images dans une seule architecture, capable de raisonner pendant la création. Il surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique, positionnant directement Luma AI face à OpenAI et Google.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client
1VentureBeat AI 

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

Intercom, la plateforme de service client fondée il y a quinze ans, a annoncé jeudi le lancement de Fin Apex 1.0, un modèle d'intelligence artificielle développé en interne et spécifiquement conçu pour la résolution de demandes clients. Selon les benchmarks partagés avec VentureBeat, ce modèle atteint un taux de résolution de 73,1 % — la proportion de problèmes résolus sans intervention humaine — contre 71,1 % pour GPT-5.4 et Claude Opus 4.5, et 69,6 % pour Claude Sonnet 4.6. Fin Apex répond en 3,7 secondes, soit 0,6 seconde plus vite que ses concurrents directs, affiche une réduction de 65 % des hallucinations par rapport à Claude Sonnet 4.6, et coûte environ cinq fois moins cher que les grands modèles frontières utilisés directement. Il est inclus dans les plans tarifaires existants d'Intercom, basés sur un modèle « par résolution ». Le modèle alimente déjà Fin, l'agent IA d'Intercom qui traite plus de deux millions de conversations clients par semaine. Un écart de 2 points de pourcentage peut sembler anecdotique, mais pour les entreprises gérant des millions d'interactions, l'impact financier est considérable. « Si vous gérez de grandes opérations de service à l'échelle, avec 10 millions de clients ou un milliard de dollars de chiffre d'affaires, un delta de 2 ou 3 % représente une quantité énorme de clients, d'interactions et de revenus », a déclaré le PDG Eoghan McCabe. Au-delà des chiffres, Fin Apex illustre une stratégie de plus en plus viable pour les éditeurs de logiciels verticaux : plutôt que de se reposer sur des API génériques de OpenAI ou Anthropic, ils peuvent construire des modèles spécialisés plus rapides, moins coûteux et plus précis dans leur domaine — en capitalisant sur leurs données propriétaires accumulées au fil des années. Ce lancement s'inscrit dans une tendance de fond : le post-entraînement devient le véritable champ de bataille de l'IA, la pré-formation des grands modèles étant désormais considérée comme une commodité. Intercom a affiné son modèle de base — un modèle open-weights dont la société refuse de révéler l'identité « pour des raisons concurrentielles » — avec des années de données de service client issues de Fin, en intégrant des systèmes d'apprentissage par renforcement ancrés sur des résolutions réelles. Cette opacité partielle rappelle la controverse qu'a connue Cursor, accusé d'avoir dissimulé que son modèle Composer 2 était basé sur un modèle open source affiné. Intercom reconnaît utiliser une base open-weights, mais refuse d'en préciser la source, une posture qui soulèvera sans doute des questions sur la réalité de sa « transparence ». La société indique vouloir changer de modèle de base à l'avenir, ce qui suggère que Fin Apex est moins un modèle figé qu'une infrastructure d'optimisation continue — et potentiellement un modèle que d'autres plateformes verticales pourraient chercher à reproduire.

UELes entreprises françaises et européennes utilisant Intercom pour leur support client bénéficient directement des gains de résolution automatique et de la réduction des coûts apportés par Fin Apex 1.0.

LLMsOpinion
1 source
Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement
2MarkTechPost 

Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement

Z.ai a dévoilé le 13 juin 2026 GLM-5.2, troisième sortie majeure de sa gamme GLM-5 après GLM-5 (11 février), GLM-5-Turbo (15 mars) et GLM-5.1 (7 avril), soit quatre modèles de premier plan dédiés au codage en environ quatre mois. La caractéristique phare de ce nouveau modèle est sa fenêtre de contexte de 1 000 000 de tokens, une variante que Z.ai désigne glm-5.2[1m] dans sa propre configuration, contre 200 000 tokens pour GLM-5.1, soit une multiplication par cinq. Chaque réponse peut générer jusqu'à 131 072 tokens en sortie. Le modèle introduit également deux niveaux d'effort de raisonnement, High et Max, ce dernier étant recommandé par Z.ai pour les tâches de codage complexes en plusieurs étapes. Z.ai n'a publié aucun score de référence au lancement: ni SWE-bench, ni Terminal-Bench, ni Code Arena. La licence est MIT, mais les poids du modèle ne seront diffusés que la semaine suivante. Cette fenêtre d'un million de tokens transforme concrètement le travail d'un agent de codage. L'agent peut désormais conserver un dépôt de taille moyenne entier en mémoire de travail, fichiers sources, tests, configuration et historique de conversation compris, évitant ainsi les résumés permanents qu'imposent les fenêtres plus réduites. En pratique, cela ouvre la voie à des refactorisations à l'échelle d'un dépôt complet: un agent peut charger un pipeline de données Python de quarante fichiers et suivre les dépendances entre fichiers en une seule session, sans avoir à recharger le code. Le modèle vise aussi les exécutions autonomes de longue haleine, ces boucles soutenues de planification, d'exécution, de test et de correction; à titre de comparaison, GLM-5.1 enchaînait environ 1 700 étapes d'agent en une session, avec des boucles autonomes pouvant durer jusqu'à huit heures. GLM-5.2 se présente enfin comme un remplaçant direct de Claude Code, l'utilisateur n'ayant qu'à changer l'URL de base et l'identifiant du modèle, et permet d'analyser de longs documents, spécifications, journaux ou transcriptions dépassant les 200 000 tokens. Sur le plan technique, Z.ai n'a pas détaillé l'architecture de GLM-5.2 dans ses supports de lancement, mais selon les notes de la communauté, la base GLM-5 repose sur un modèle Mixture-of-Experts de 744 milliards de paramètres, dont 40 milliards sont activés par token, une ossature que GLM-5.1 avait conservée en réorientant seulement son post-entraînement. L'absence de tout chiffre de performance au lancement détonne dans un secteur où les classements façonnent la perception des modèles, d'autant que GLM-5.1 affichait un score de 58,4 sur SWE-bench Pro; la communication de Z.ai s'est concentrée sur la disponibilité, le contexte étendu et la feuille de route open source plutôt que sur les comparaisons. Ce positionnement illustre la cadence effrénée d'un acteur chinois qui multiplie les sorties pour s'imposer comme alternative crédible aux modèles propriétaires occidentaux, en misant à la fois sur une licence MIT permissive et sur une compatibilité directe avec les outils existants. Reste à voir si les benchmarks, attendus avec la publication des poids, confirmeront que cette fenêtre d'un million de tokens s'accompagne des gains de qualité que la concurrence exigera.

LLMsOpinion
1 source
MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût
3VentureBeat AI 

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars. Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API. Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

UELes développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

💬 C'est le lancement qui va forcer OpenAI et Google à bouger leurs prix, et cette fois c'est difficile à ignorer. 5 à 10 % du coût avec les benchmarks qui suivent, et les poids ouverts dans dix jours pour déployer en local, si tu travailles avec des LLMs tu vas regarder ça de près. Reste à voir ce que ça donne en conditions réelles, mais l'architecture Sparse Attention sur les longues séquences, c'est une vraie proposition technique, pas juste du dumping tarifaire.

LLMsOpinion
1 source
Les modèles de raisonnement GPT ont une trajectoire vers l'AGI, selon Greg Brockman d'OpenAI
4The Decoder 

Les modèles de raisonnement GPT ont une trajectoire vers l'AGI, selon Greg Brockman d'OpenAI

Greg Brockman, cofondateur d'OpenAI, a déclaré que les modèles de raisonnement GPT offrent désormais une « ligne de vue » directe vers l'intelligence artificielle générale (AGI). Selon lui, le débat sur la capacité des modèles textuels à atteindre une intelligence générale est clos : l'architecture GPT constitue la voie vers l'AGI. Cette prise de position tranche avec des années d'incertitude dans la communauté de la recherche en IA, où beaucoup estimaient que les grands modèles de langage, aussi performants soient-ils, resteraient fondamentalement limités à des tâches spécialisées. En affirmant que le cap est désormais visible, Brockman signale qu'OpenAI considère ses modèles de raisonnement — comme o1 et o3 — non pas comme des outils, mais comme les prémices d'une intelligence véritablement générale. Cette déclaration intervient dans un contexte de compétition intense entre OpenAI, Google DeepMind, Anthropic et xAI, chacun revendiquant des avancées vers l'AGI. La question de définir précisément ce qu'est l'AGI reste toutefois ouverte, et des voix critiques dans la communauté scientifique contestent que les architectures actuelles, même dotées de capacités de raisonnement avancées, puissent y parvenir sans rupture technologique majeure.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic