Aller au contenu principal
Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement
InfrastructureMeta Engineering ML13sem· 2 min de lecture

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Source originale ↗·

Meta a présenté KernelEvolve, un système d'optimisation de kernels piloté par intelligence artificielle, développé en interne pour accélérer ses modèles de publicité et d'IA générative. Intégré à l'agent Ranking Engineer Agent, KernelEvolve automatise la création et l'optimisation de kernels — ces programmes bas niveau qui traduisent les opérations de haut niveau d'un modèle en instructions spécifiques à chaque puce. Le système cible une infrastructure hétérogène composée de GPU NVIDIA, de GPU AMD, de CPU classiques et des puces MTIA, les accélérateurs personnalisés de Meta. Les résultats publiés sont substantiels : plus de 60 % d'amélioration du débit d'inférence pour le modèle publicitaire Andromeda sur GPU NVIDIA, et plus de 25 % de gain en débit d'entraînement sur les puces MTIA. Des travaux qui auraient normalement demandé plusieurs semaines à des ingénieurs spécialisés ont été accomplis en quelques heures. L'article associé sera présenté au 53e International Symposium on Computer Architecture (ISCA) 2026.

L'enjeu est direct et massif : Meta sert chaque jour des milliards d'expériences alimentées par l'IA, des recommandations personnalisées aux assistants génératifs. Chaque requête d'entraînement ou d'inférence repose sur une couche de kernels hautement optimisés, et à mesure que les modèles gagnent en complexité et que le parc matériel se diversifie, le nombre de configurations possibles explose — atteignant des milliers de combinaisons selon le hardware, l'architecture du modèle et le type d'opérateur. L'optimisation manuelle par des experts ne peut plus suivre ce rythme, créant un goulot d'étranglement critique qui freine l'adoption de nouveaux matériels et ralentit les cycles d'itération des modèles. KernelEvolve résout ce problème en traitant l'optimisation comme une recherche automatisée : un environnement d'évaluation dédié teste chaque kernel candidat, renvoie les diagnostics au LLM, et pilote une exploration continue sur des centaines d'alternatives — dépassant les performances des kernels écrits à la main par des experts humains.

Cette initiative s'inscrit dans une tendance de fond chez les grandes plateformes technologiques : déléguer des tâches d'ingénierie de bas niveau à des agents IA pour absorber la complexité croissante des infrastructures de calcul. Meta fait face à la même contrainte que Google, Microsoft ou Amazon — accélérer sans cesse les modèles tout en maîtrisant les coûts de calcul sur un parc matériel qui ne cesse de se diversifier. KernelEvolve génère des kernels dans des langages aussi bien de haut niveau comme Triton ou CuteDSL que de bas niveau comme CUDA, HIP ou MTIA C++, ce qui lui confère une portabilité rare. À terme, ce type d'agent pourrait devenir standard dans l'industrie, réduisant drastiquement le besoin d'ingénieurs spécialisés en optimisation matérielle et accélérant la mise en production de nouvelles architectures de modèles sur des puces encore inconnues.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA
1Le Big Data 

NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA

NVIDIA et Marvell Technology ont annoncé un partenariat stratégique majeur, scellé par un investissement de 2 milliards de dollars de NVIDIA dans Marvell. L'accord s'articule autour de NVLink Fusion, une plateforme modulaire permettant de construire des infrastructures d'IA semi-personnalisées. Concrètement, Marvell apportera des XPU (processeurs accélérés sur mesure) et un réseau évolutif compatible, tandis que NVIDIA fournit l'ensemble de son arsenal matériel : processeurs Vera, cartes réseau ConnectX, DPU BlueField, interconnexion NVLink, commutateurs Spectrum-X et capacité de calcul déployable en rack. Le titre Marvell a bondi de 11 % dès l'annonce mardi, signe que les marchés ont immédiatement perçu la portée de l'accord. Le partenariat couvre également les réseaux télécoms, via NVIDIA Aerial AI-RAN, avec des ambitions sur la 5G et la future 6G, ainsi que sur des technologies d'interconnexion optique et de photonique sur silicium pour améliorer les performances et réduire la consommation énergétique. Pour les entreprises qui développent leurs propres puces d'accélération, NVLink Fusion ouvre la voie à des architectures hybrides entièrement compatibles avec l'écosystème NVIDIA — GPU, réseau et stockage compris. C'est un changement structurel : jusqu'ici, intégrer des composants tiers dans une infrastructure NVIDIA relevait du casse-tête d'interopérabilité. Désormais, les hyperscalers, opérateurs télécom et acteurs du cloud pourront combiner des XPU Marvell avec la stack NVIDIA sans friction. Pour les utilisateurs finaux, l'impact est indirect mais réel : des modèles d'IA générative plus complexes pourront tourner à moindre latence, ce qui se traduit par des services de recommandation, de création de contenu ou de simulation plus réactifs. Dans les télécoms, l'alliance prépare le terrain pour des réseaux 5G/6G capables de supporter des usages exigeants comme la télémédecine en temps réel ou les véhicules autonomes. Ce rapprochement s'inscrit dans un contexte de demande explosive en capacité de calcul, portée par la généralisation de l'IA générative et l'explosion des volumes de données. Jensen Huang, PDG de NVIDIA, parle lui-même d'une "ère de supercalcul" en cours d'avènement. Face à cette pression, les grandes entreprises technologiques mondiales s'engagent dans une course à la construction de centres de calcul dédiés, et NVIDIA cherche à s'imposer comme la colonne vertébrale incontournable de ces infrastructures. Marvell, de son côté, se repositionne comme fournisseur clé de silicium personnalisé pour l'IA — un marché en pleine effervescence où Amazon, Google et Microsoft développent déjà leurs propres puces. L'investissement de 2 milliards de dollars de NVIDIA dans Marvell est autant un signal industriel qu'une manœuvre défensive : consolider l'écosystème avant que les alternatives ne s'imposent.

UELes opérateurs télécom et fournisseurs cloud européens pourront intégrer des architectures hybrides XPU Marvell / stack NVIDIA sans friction, accélérant leurs déploiements 5G/6G et d'IA générative.

💬 NVIDIA ne se contente plus de vendre des GPU, il construit le système nerveux de toute l'infrastructure IA. NVLink Fusion, c'est le genre de coup qu'on voit venir mais dont on mesure mal l'ampleur : permettre à Marvell (et demain à d'autres) de brancher leurs puces custom directement dans l'écosystème NVIDIA, c'est verrouiller le marché de façon beaucoup plus subtile qu'un simple rachat. Les 2 milliards d'investissement, c'est pas de la philanthropie, c'est de la consolidation défensive avant qu'AMD ou les hyperscalers in-house ne s'imposent.

InfrastructureOpinion
1 source
2Meta Engineering ML 

Les agents IA unifiés de Meta optimisent les performances à grande échelle

Meta a développé une plateforme d'agents IA unifiée pour automatiser la détection et la résolution des problèmes de performance à l'échelle de son infrastructure mondiale, qui sert plus de 3 milliards d'utilisateurs. Ce programme, baptisé Capacity Efficiency Program, repose sur des agents capables d'encoder l'expertise de ses ingénieurs seniors en compétences réutilisables et composables. Résultat concret : des centaines de mégawatts (MW) de puissance électrique récupérés, soit de quoi alimenter des centaines de milliers de foyers américains pendant un an. L'outil interne FBDetect détecte chaque semaine des milliers de régressions de performance, et les agents IA prennent désormais en charge leur résolution automatisée, compressant environ dix heures d'investigation manuelle en trente minutes. Les agents vont même jusqu'à générer des pull requests prêtes à révision, couvrant l'intégralité du chemin depuis la détection d'une opportunité d'optimisation jusqu'à la correction du code. L'impact est double : économique et opérationnel. Côté défense, chaque régression non résolue rapidement se traduit par une consommation électrique supplémentaire qui s'accumule sur l'ensemble du parc de serveurs de Meta. Côté offensif, les agents permettent désormais d'explorer proactivement des optimisations dans un nombre croissant de domaines produits, des opportunités que les ingénieurs n'auraient jamais le temps de traiter manuellement. Le programme peut ainsi augmenter sa capacité de livraison de mégawatts sans augmenter proportionnellement les effectifs humains, ce qui représente un levier de scalabilité majeur pour une infrastructure de cette taille. Libérés des tâches d'investigation répétitives, les ingénieurs peuvent se concentrer sur l'innovation produit. Ce projet s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : automatiser la gestion de la complexité interne à mesure que l'infrastructure croît plus vite que les équipes humaines. Chez Meta, la découverte clé a été que l'offense (recherche proactive d'optimisations) et la défense (détection de régressions) partagent la même structure de problème, ce qui a permis de construire une plateforme unique plutôt que deux systèmes séparés. L'interface d'outils standardisée est au cœur de l'architecture : elle permet aux agents de combiner investigation de données de profilage, consultation de documentation interne, analyse des déploiements récents et recherche de discussions liées. L'objectif à terme est un moteur d'efficacité autonome où l'IA gère la longue traîne des problèmes de performance, un modèle qui pourrait inspirer d'autres hyperscalers confrontés aux mêmes contraintes d'échelle.

InfrastructureActu
1 source
3Le Big Data 

Pourquoi les infrastructures cloud dédiées à l’IA deviennent un enjeu stratégique en Europe ?

Le groupe SWI (Stoneweg Icona Group) a annoncé l'acquisition d'une participation majoritaire dans Polarise, une société allemande spécialisée dans les infrastructures cloud pour l'intelligence artificielle, valorisant cette dernière à 500 millions d'euros. En parallèle, SWI s'engage à injecter un milliard d'euros supplémentaires pour accélérer le développement de ce qui se veut le premier opérateur d'infrastructures numériques souveraines à l'échelle européenne. Polarise dispose déjà de 14 centres de données opérationnels à travers l'Europe, d'une capacité totale de 2,3 GW via sa plateforme AiOnX, et d'un partenariat privilégié avec Nvidia lui donnant accès direct aux GPU les plus puissants du marché. La société a également lancé la première "AI Factory" d'Allemagne en collaboration avec Deutsche Telekom, positionnant d'emblée ce rapprochement comme une initiative industrielle de premier plan. Max-Hervé George, fondateur et PDG de SWI Group, pilote cette stratégie d'intégration verticale, couvrant la chaîne complète du foncier aux logiciels cloud. L'enjeu est considérable : les entreprises et gouvernements européens cherchent à réduire leur dépendance aux hyperscalers américains, AWS, Azure, Google Cloud, pour les charges de travail les plus sensibles. L'acquisition permet à SWI de proposer un modèle "GPU-as-a-Service" permettant aux organisations de louer de la puissance de calcul GPU à la demande, sans investissement lourd en matériel, via une infrastructure localisée en Europe et soumise au droit européen. Pour les industries de pointe en Allemagne, en France ou en Norvège, cela représente un accès à des capacités de calcul haute performance sans compromis sur la souveraineté des données. Ce modèle favorise également une innovation plus rapide pour les startups et PME qui n'ont pas les moyens de construire leur propre infrastructure. Cette opération s'inscrit dans un mouvement plus large de structuration de la filière IA européenne face à la domination des géants américains et à la montée en puissance des acteurs chinois. L'Union européenne multiplie depuis plusieurs années les appels à bâtir une capacité numérique autonome, notamment à travers le règlement sur l'IA et les investissements du programme Horizon. La rareté des GPU Nvidia, dont Polarise est revendeur agréé, confère à cette alliance un avantage concurrentiel structurel dans un marché sous tension. Les prochaines étapes visent l'extension géographique vers l'Allemagne et la Norvège, deux pays disposant d'une énergie abondante et bon marché indispensable pour alimenter ces infrastructures énergivores. Si SWI tient ses engagements d'investissement, le groupe pourrait devenir un acteur de référence pour les contrats publics et les grandes entreprises cherchant une alternative crédible aux solutions extraeuropéennes.

UEL'acquisition crée un opérateur cloud souverain européen offrant aux entreprises et gouvernements de l'UE une alternative concrète aux hyperscalers américains pour leurs charges de travail sensibles, avec accès aux GPU Nvidia via une infrastructure soumise au droit européen.

InfrastructureOpinion
1 source
NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA
4NVIDIA AI Blog 

NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA

Artificial Analysis a publié AgentPerf, le premier benchmark sectoriel conçu spécifiquement pour évaluer les infrastructures d'IA agentique. Dans ce premier tour de résultats, la plateforme NVIDIA GB300 NVL72, basée sur l'architecture Blackwell Ultra, s'impose comme le système le plus performant : elle peut faire tourner jusqu'à 20 fois plus d'agents par mégawatt que l'ancienne génération HGX H200 (Hopper), quel que soit le seuil de qualité de service retenu (20 ou 60 tokens par seconde par agent). Le modèle de référence utilisé pour ce test est DeepSeek V4 Pro, un grand modèle de type mixture-of-experts représentatif des LLM qui propulsent aujourd'hui les agents les plus capables. La distinction entre IA conversationnelle et IA agentique est au coeur de cette initiative. Un chatbot classique réalise un seul appel LLM par échange : c'est un sprint. Un agent, lui, enchaîne des dizaines voire des centaines d'appels LLM entrelacés d'appels à des outils externes, compilation de code, recherche en base de données, navigation web, en transmettant à chaque étape un contexte de plus en plus long. La complexité n'est pas additive, elle est multiplicative. Les benchmarks d'inférence existants ne mesuraient qu'un seul appel LLM isolé et n'avaient pas été conçus pour capturer cette réalité. Pour une entreprise qui déploie des agents à grande échelle, les métriques pertinentes sont la réactivité des agents, le nombre d'instances simultanées supportées, et surtout le volume de travail utile produit par dollar et par watt investis. La performance du GB300 NVL72 repose sur une co-conception poussée de l'ensemble de la pile logicielle et matérielle. Le système interconnecte 72 GPU en une seule unité rack, ce qui permet aux grands modèles MoE comme DeepSeek V4 Pro de distribuer leur exécution efficacement. Les noyaux CUDA chevauchent communication et calcul pour absorber la latence de coordination entre experts. TensorRT-LLM sépare le traitement des entrées de la génération des sorties afin d'optimiser chaque phase indépendamment. AgentPerf lui-même est construit à partir de trajectoires réelles d'agents de codage opérant sur des dépôts publics couvrant plus de 12 langages de programmation, avec des longueurs de séquences, des délais d'appels d'outils et des patterns représentatifs de la production. Ce benchmark arrive à un moment où l'industrie bascule massivement vers des architectures agentiques, et où le choix d'infrastructure devient un avantage concurrentiel direct pour quiconque déploie ces systèmes à l'échelle.

UELes entreprises et cloud providers européens déployant des agents IA à grande échelle peuvent utiliser ce benchmark pour orienter leurs décisions d'achat de matériel.

💬 Vingt fois plus d'agents par mégawatt, c'est pas anodin. Ce qui m'intéresse surtout dans ce benchmark, c'est qu'il mesure enfin ce qui compte vraiment : pas un seul appel LLM en isolation, mais des chaînes complètes avec des dizaines d'appels et du contexte qui s'accumule à chaque étape. Reste à voir si ça se confirme sur des tâches moins lisses que du code sur des dépôts publics.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic