LLMsLe Big Data6sem· 2 min de lecture

Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?

Résumé IASource uniqueImpact UE Take éditorial

Elon Musk a annoncé le 25 mai 2026 la fin de l'entraînement du modèle Grok V9-Medium chez xAI, un système massif de 1,5 trillion de paramètres qui devrait être commercialisé sous le nom de Grok 4.5 ou Grok 5 d'ici deux à trois semaines. Ce chiffre représente trois fois la taille de la version actuelle V8-small utilisée pour le trafic quotidien de Grok. Le modèle entre désormais dans une phase de réglage fin supervisé, avec le lancement de l'apprentissage par renforcement prévu dans les prochains jours. Parmi les éléments notables de cet entraînement, xAI a intégré un volume important de données issues de Cursor, l'assistant de code alimenté par IA qui s'est imposé comme un outil de référence dans les workflows des développeurs professionnels. L'architecture a également été optimisée pour les GPU NVIDIA Blackwell afin d'améliorer l'efficacité de calcul et de réduire les coûts d'inférence.

Ce qui distingue ce nouveau modèle des précédentes versions de Grok, c'est son orientation délibérée vers la programmation et l'ingénierie logicielle. En intégrant massivement des données réelles issues des habitudes des développeurs via Cursor, xAI cherche à construire un assistant capable de comprendre le code en profondeur, de corriger des bugs et de conduire un raisonnement logique complexe, plutôt que de simplement générer des extraits de code à la demande. Pour les entreprises tech et les équipes de développement, cela signifie un concurrent sérieux face à des outils comme GitHub Copilot, Claude ou GPT-4o dans le segment des assistants de codage, un marché en croissance rapide où la différenciation se joue désormais sur la spécialisation et la précision technique plutôt que sur les capacités généralistes.

xAI s'inscrit dans une dynamique de course aux paramètres qui s'emballe depuis plusieurs mois dans l'industrie de l'IA, avec des annonces de modèles toujours plus massifs de la part d'OpenAI, Google DeepMind et Anthropic. Pour Musk, ce lancement représente également une opportunité de valoriser l'infrastructure du supercalculateur Colossus de xAI, dont la société cherche à prouver qu'elle peut rivaliser avec les centres de données des géants établis. La réduction des coûts d'inférence grâce à l'optimisation Blackwell est un enjeu stratégique concret : faire tourner un modèle de 1,5 trillion de paramètres à grande échelle représente des dépenses considérables, et la viabilité commerciale du produit dépendra autant de cette efficacité opérationnelle que de ses performances brutes sur les benchmarks. La sortie publique attendue courant juin 2026 constituera un test grandeur nature.

💬 L'analyse de Mathieu

1,5 trillion de paramètres, c'est soit impressionnant soit du flan selon comment tu arrives à le faire tourner à coût raisonnable. Ce qui m'intéresse vraiment, c'est les données Cursor : entraîner sur des vrais workflows de devs, pas juste du code GitHub, c'est une idée qui tient la route. Reste à voir si ça se traduit en gain réel ou juste en benchmark flatteur.

Dans nos dossiers

xAI / Grok Elon Musk & IA Google DeepMind Blackwell

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

SpaceXAI lance Grok 4.5 : Tout savoir sur la nouvelle IA de code d’Elon Musk

SpaceXAI, l'entreprise d'Elon Musk, a officiellement lancé Grok 4.5 le 8 juillet 2026, après plusieurs semaines de tests en version bêta. Présenté comme le modèle le plus avancé de la société, il cible en priorité le développement logiciel, les tâches agentiques (où l'IA enchaîne plusieurs actions de façon autonome) et les usages professionnels. Musk le classe dans la catégorie des modèles « Opus », en référence directe à la gamme d'Anthropic. Techniquement, Grok 4.5 repose sur une architecture de 1 500 milliards de paramètres entraînée grâce au supercalculateur Colossus, avec la participation de Cursor comme partenaire d'entraînement. Sur le plan des performances, il affiche 83,3 % sur Terminal-Bench 2.1 contre 78,9 % pour Claude Opus 4.8, et 62 % sur DeepSWE 1.0 contre 55,8 % pour son rival. En revanche, Claude Opus 4.8 garde l'avantage sur SWE-Bench Multilingual (84,4 % contre 78 %) et sur SWE-Bench Pro, qui évalue la correction de vrais bugs (69,2 % contre 64,7 %). Ces chiffres comptent parce qu'ils redessinent la concurrence sur le marché des IA de code, un segment devenu stratégique pour les développeurs et les entreprises tech. Grok 4.5 revendique un net avantage économique : il génère jusqu'à 80 tokens par seconde, facturés 2 dollars par million de tokens en entrée et 6 dollars en sortie, et SpaceXAI affirme qu'il consomme jusqu'à quatre fois moins de tokens que Claude Opus 4.8 pour une tâche équivalente. Concrètement, cela pourrait réduire sensiblement la facture des professionnels qui l'utilisent au quotidien via Grok Build, Cursor ou une clé API, même si le modèle ne domine pas systématiquement les benchmarks de programmation les plus exigeants. Ce lancement illustre l'accélération continue de la course aux modèles d'IA, où chaque acteur promet d'être plus rapide, plus performant et moins cher que le précédent. Il s'inscrit aussi dans un contexte de surveillance croissante de la part des autorités américaines : la sortie de Grok 4.5 avait été retardée le mois dernier à la demande du gouvernement des États-Unis, qui souhaitait examiner les risques d'utilisation abusive des modèles d'IA les plus avancés, un scénario déjà observé avec GPT 5.6 et Fable 5. Pour les utilisateurs européens, la patience reste de mise puisque le déploiement dans l'Union européenne n'est prévu que pour la mi-juillet. Reste à voir si SpaceXAI parviendra à transformer cet avantage tarifaire en gains de parts de marché face à Anthropic et OpenAI, dans un secteur où l'écart entre les modèles se resserre benchmark après benchmark.

UELe déploiement de Grok 4.5 dans l'Union européenne est prévu pour la mi-juillet 2026, sans impact réglementaire ou concurrentiel direct pour les entreprises européennes à ce stade.

LLMsOpinion

1 source

2Le Big Data

Grok 4.5 : Elon Musk lance sa bêta privée chez Tesla et SpaceX

xAI a lancé le 28 juin 2026 une bêta privée de Grok 4.5, son nouveau modèle de langage, en le déployant en priorité auprès des ingénieurs de Tesla et de SpaceX. Annoncé directement par Elon Musk sur X, ce modèle repose sur une architecture de 1 500 milliards de paramètres, entraînée à partir du modèle fondation V9 de xAI. Sa particularité technique tient à l'intégration des données de Cursor, la plateforme de codage rachetée par SpaceX pour environ 60 milliards de dollars, utilisée ici pour renforcer les capacités du modèle sur les tâches de programmation. Selon les premières évaluations internes d'xAI, Grok 4.5 atteindrait des performances proches, voire supérieures, à celles de Claude Opus sur certains benchmarks. Aucune date de sortie publique n'a été communiquée. En choisissant Tesla et SpaceX comme premiers terrains d'expérimentation, xAI s'offre un laboratoire grandeur nature avec des ingénieurs confrontés à des cas d'usage techniques exigeants, notamment en ingénierie logicielle et en systèmes embarqués. C'est une stratégie de test en conditions réelles plutôt qu'en environnement contrôlé, ce qui permet d'identifier plus rapidement les failles du modèle avant un déploiement grand public. Pour l'industrie, l'intégration des données de Cursor dans l'entraînement représente un signal fort : les meilleurs modèles du marché intègrent désormais des corpus spécialisés issus d'outils professionnels, pas seulement du texte généraliste. Si les performances annoncées se confirment indépendamment, Grok 4.5 s'imposerait comme un concurrent direct à Claude Opus d'Anthropic et à GPT-4o d'OpenAI sur le segment des tâches complexes. xAI s'est imposée en moins de deux ans comme l'un des acteurs les plus actifs de la course aux grands modèles, bénéficiant de l'accès aux infrastructures de calcul de SpaceX et de la distribution massive via la plateforme X. Elon Musk a annoncé l'intention de publier de nouveaux modèles entraînés de zéro chaque mois, un rythme qui, s'il se confirme, mettrait une pression inédite sur OpenAI, Anthropic et Google DeepMind. Les affirmations sur les performances restent pour l'instant non vérifiées : aucun benchmark indépendant n'a encore évalué Grok 4.5, et les comparaisons annoncées par l'entreprise elle-même sont à relativiser. La vraie mesure viendra de la sortie publique, à laquelle la communauté des développeurs et les évaluateurs indépendants pourront mettre le modèle à l'épreuve.

LLMsOpinion

1 source

3Le Big Data

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI et NVIDIA ont officialisé en avril 2026 un partenariat approfondi autour de GPT-5.5, le dernier grand modèle d'OpenAI déployé sur les infrastructures GB200 NVL72 de NVIDIA. Dès le lancement, plus de 10 000 employés de NVIDIA utilisent GPT-5.5 au quotidien, notamment via Codex, l'agent de développement logiciel d'OpenAI capable de transformer des instructions en langage naturel en actions concrètes sur des bases de code complexes. Les chiffres avancés sont frappants : un gain de débit multiplié par 50 et une réduction des coûts par jeton de l'ordre de 35 fois par rapport aux configurations précédentes. Chez NVIDIA, les cycles de débogage qui prenaient plusieurs jours se ramènent désormais à quelques heures, et des expérimentations autrefois longues de plusieurs semaines aboutissent maintenant en une seule nuit. Ces résultats illustrent un tournant dans l'adoption de l'IA générative en entreprise : la question n'est plus uniquement celle des capacités du modèle, mais de sa viabilité économique et opérationnelle à grande échelle. La réduction drastique des coûts d'inférence rend envisageable le déploiement d'agents IA sur l'ensemble des équipes techniques, et non plus seulement dans des projets pilotes isolés. L'impact dépasse le seul développement logiciel : les agents pilotés par GPT-5.5 interviennent désormais dans l'analyse, la résolution de problèmes et la génération d'idées, touchant le travail intellectuel dans sa globalité. Pour les directions techniques comme pour les décideurs métiers, c'est le signe que ces outils ont franchi le seuil de la maturité industrielle. Ce partenariat s'inscrit dans une relation qui remonte à 2016, lorsque NVIDIA avait livré à OpenAI l'un de ses premiers supercalculateurs DGX-1. Depuis dix ans, les deux entreprises co-construisent une partie essentielle de la chaîne de valeur de l'IA, OpenAI apportant les modèles et NVIDIA l'infrastructure d'inférence. Sur la question de la sécurité, longtemps présentée comme le principal frein à l'adoption en entreprise, le déploiement de Codex intègre des réponses architecturales concrètes : chaque agent opère dans un environnement isolé via des machines virtuelles sécurisées, les accès aux systèmes critiques sont limités en lecture seule, et une politique stricte de non-rétention des données est appliquée. Jensen Huang, PDG de NVIDIA, résume l'ambition commune en affirmant qu'on entre « pleinement dans l'ère de l'IA », une formulation qui traduit moins un effet d'annonce qu'un constat opérationnel : pour des milliers d'ingénieurs, l'IA agentique est déjà une réalité quotidienne.

UELa réduction des coûts d'inférence liée aux nouvelles générations de hardware IA pourrait faciliter l'adoption d'agents IA à grande échelle dans les entreprises européennes, sans impact réglementaire ou institutionnel direct.

LLMsActu

1 source

4MarkTechPost

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

En l'espace d'un an et demi, les agents de codage IA sont passés du simple complètement automatique à des systèmes entièrement autonomes capables de lire des issues GitHub, naviguer dans des bases de code multi-fichiers, écrire des correctifs, exécuter des tests et ouvrir des pull requests sans qu'un humain tape une seule ligne. Début 2026, environ 85 % des développeurs déclarent utiliser régulièrement une forme d'assistance IA pour coder. Le marché s'est structuré en quatre grandes familles : les agents terminaux, les IDE natifs IA, les ingénieurs autonomes hébergés dans le cloud, et les frameworks open source permettant de choisir librement son modèle. Chaque outil se réclame du meilleur, mais les benchmarks invoqués pour le prouver ne mesurent pas toujours les mêmes choses, et certains ont perdu toute crédibilité. Le coup de tonnerre est venu le 23 février 2026, quand l'équipe Frontier Evals d'OpenAI a annoncé qu'elle cessait de publier ses scores sur SWE-bench Verified, le benchmark de référence du secteur depuis mi-2024. Ce test soumet des agents à 500 vraies issues GitHub tirées de dépôts Python populaires, en mesurant leur capacité à comprendre le problème, naviguer le code, générer un correctif et valider les tests, sans intervention humaine. L'audit d'OpenAI a porté sur 138 des problèmes les plus difficiles, répartis sur 64 sessions indépendantes : 59,4 % présentaient des cas de test fondamentalement défectueux ou insolubles, exigeant par exemple des noms de fonctions précis absents de l'énoncé. Plus grave encore, les auditeurs ont constaté que les trois grands modèles frontière, GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash, étaient capables de reproduire mot pour mot les solutions de référence à partir du seul identifiant de tâche, confirmant une contamination systématique des données d'entraînement. La conclusion d'OpenAI est sans appel : les progrès mesurés sur SWE-bench Verified ne reflètent plus d'améliorations réelles dans le développement logiciel. OpenAI recommande désormais SWE-bench Pro comme successeur. Ce nouveau benchmark contient 1 865 tâches réparties en trois sous-ensembles : 731 tâches publiques, 858 tâches en set caché, et 276 tâches commerciales issues de 18 bases de code propriétaires de startups. Les scores y sont nettement plus bas qu'en Verified : lorsque Scale AI avait évalué les modèles frontière avec un scaffold unifié SWE-Agent, le meilleur résultat n'atteignait pas 25 % (GPT-5 à 23,3 %). Les chiffres publiés aujourd'hui par les labs sont bien supérieurs grâce à des harness optimisés : OpenAI annonce GPT-5.5 à 58,6 % sur le set public, Anthropic revendique 64,3 % pour Claude Opus 4.7, et Google affiche 54,2 % pour Gemini 3.1 Pro. La difficulté à comparer ces résultats, obtenus avec des configurations très différentes, illustre le défi central du marché en 2026 : choisir son agent de codage exige désormais de décrypter les benchmarks autant que les fonctionnalités.

UELes développeurs français et européens utilisant des agents de codage IA doivent recalibrer leurs critères de sélection face à l'invalidité confirmée du benchmark SWE-bench Verified et adopter SWE-bench Pro comme nouvelle référence comparative.

💬 Le coup de balai sur SWE-bench Verified était attendu, mais que les modèles reproduisent les solutions mot pour mot depuis l'identifiant de tâche, c'est quand même un niveau au-dessus. SWE-bench Pro repart à 23% avec un scaffold unifié, ce qui donne une image plus juste de là où on en est vraiment. Les 58-64% qu'annoncent les labs maintenant, c'est avec leurs propres harness optimisés, donc compare qui peut.

LLMsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic