Aller au contenu principal
Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement
InfrastructureMeta Engineering ML1h

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

1 source couvre ce sujet·Source originale ↗·

Meta a présenté KernelEvolve, un système d'optimisation de kernels piloté par intelligence artificielle, développé en interne pour accélérer ses modèles de publicité et d'IA générative. Intégré à l'agent Ranking Engineer Agent, KernelEvolve automatise la création et l'optimisation de kernels — ces programmes bas niveau qui traduisent les opérations de haut niveau d'un modèle en instructions spécifiques à chaque puce. Le système cible une infrastructure hétérogène composée de GPU NVIDIA, de GPU AMD, de CPU classiques et des puces MTIA, les accélérateurs personnalisés de Meta. Les résultats publiés sont substantiels : plus de 60 % d'amélioration du débit d'inférence pour le modèle publicitaire Andromeda sur GPU NVIDIA, et plus de 25 % de gain en débit d'entraînement sur les puces MTIA. Des travaux qui auraient normalement demandé plusieurs semaines à des ingénieurs spécialisés ont été accomplis en quelques heures. L'article associé sera présenté au 53e International Symposium on Computer Architecture (ISCA) 2026.

L'enjeu est direct et massif : Meta sert chaque jour des milliards d'expériences alimentées par l'IA, des recommandations personnalisées aux assistants génératifs. Chaque requête d'entraînement ou d'inférence repose sur une couche de kernels hautement optimisés, et à mesure que les modèles gagnent en complexité et que le parc matériel se diversifie, le nombre de configurations possibles explose — atteignant des milliers de combinaisons selon le hardware, l'architecture du modèle et le type d'opérateur. L'optimisation manuelle par des experts ne peut plus suivre ce rythme, créant un goulot d'étranglement critique qui freine l'adoption de nouveaux matériels et ralentit les cycles d'itération des modèles. KernelEvolve résout ce problème en traitant l'optimisation comme une recherche automatisée : un environnement d'évaluation dédié teste chaque kernel candidat, renvoie les diagnostics au LLM, et pilote une exploration continue sur des centaines d'alternatives — dépassant les performances des kernels écrits à la main par des experts humains.

Cette initiative s'inscrit dans une tendance de fond chez les grandes plateformes technologiques : déléguer des tâches d'ingénierie de bas niveau à des agents IA pour absorber la complexité croissante des infrastructures de calcul. Meta fait face à la même contrainte que Google, Microsoft ou Amazon — accélérer sans cesse les modèles tout en maîtrisant les coûts de calcul sur un parc matériel qui ne cesse de se diversifier. KernelEvolve génère des kernels dans des langages aussi bien de haut niveau comme Triton ou CuteDSL que de bas niveau comme CUDA, HIP ou MTIA C++, ce qui lui confère une portabilité rare. À terme, ce type d'agent pourrait devenir standard dans l'industrie, réduisant drastiquement le besoin d'ingénieurs spécialisés en optimisation matérielle et accélérant la mise en production de nouvelles architectures de modèles sur des puces encore inconnues.

À lire aussi

Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts
1The Decoder 

Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts

Nvidia a établi de nouveaux records lors du dernier cycle de MLPerf Inference, le benchmark de référence de l'industrie pour mesurer les performances des systèmes d'inférence IA. L'entreprise a mobilisé jusqu'à 288 GPU pour atteindre ces résultats, se positionnant en tête des classements généraux. Cette édition marque une première : l'introduction de modèles multimodaux et vidéo dans les catégories évaluées, élargissant ainsi le périmètre d'un benchmark jusqu'ici centré sur les modèles texte et image. AMD et Intel ont également participé à ce cycle, mais en mettant en avant des métriques différentes de celles privilégiées par Nvidia, ce qui rend les comparaisons directes particulièrement difficiles. Chaque acteur choisit les indicateurs qui valorisent le mieux ses propres architectures matérielles, une stratégie qui brouille la lecture des résultats pour les entreprises cherchant à choisir leur infrastructure d'inférence. Pour les équipes IA en production, cette divergence méthodologique complique les décisions d'achat et soulève des questions sur la neutralité du benchmark lui-même. MLPerf, géré par MLCommons, est devenu l'étalon industriel incontournable pour comparer les performances des puces et systèmes IA en conditions réelles d'inférence. L'ajout de modèles multimodaux et vidéo reflète l'évolution rapide des cas d'usage en entreprise, où les assistants IA traitent désormais images, vidéos et texte simultanément. La domination persistante de Nvidia sur ces classements renforce sa position sur le marché des infrastructures IA, tandis qu'AMD et Intel cherchent à se différencier sur des segments où leurs architectures offrent un meilleur rapport performance-coût.

UELes équipes IA européennes en charge d'achats d'infrastructure d'inférence doivent composer avec des benchmarks MLPerf dont la lecture est brouillée par des métriques divergentes entre Nvidia, AMD et Intel, rendant les comparaisons objectives difficiles.

InfrastructureActu
1 source
AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte
2AWS ML Blog 

AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte

TGS, fournisseur de données géoscientifiques pour le secteur énergétique, a réduit le temps d'entraînement de ses modèles fondamentaux sismiques (SFM) de 6 mois à seulement 5 jours grâce à un partenariat avec le AWS Generative AI Innovation Center (GenAIIC). Ces modèles, basés sur une architecture Vision Transformer (ViT) avec entraînement par Masked AutoEncoder (MAE), analysent des données sismiques 3D complexes pour identifier des structures géologiques essentielles à l'exploration énergétique. L'infrastructure déployée repose sur Amazon SageMaker HyperPod, un cluster de 16 instances EC2 P5 équipées chacune de 8 GPU NVIDIA H200 avec 141 Go de mémoire HBM3e, 2 048 Go de RAM système et une connectivité réseau EFAv3 à 3 200 Gbps pour minimiser la latence entre les noeuds. Les données d'entraînement, plusieurs téraoctets, sont streamées directement depuis Amazon S3 sans couche de stockage intermédiaire. Cet accomplissement représente un changement de paradigme pour l'industrie pétrolière et gazière, où l'exploration géologique repose de plus en plus sur des modèles d'IA capables d'interpréter des volumes sismiques massifs. En passant de 6 mois à 5 jours par cycle d'entraînement, TGS peut désormais incorporer de nouvelles données beaucoup plus fréquemment et itérer rapidement sur ses modèles, ce qui se traduit directement en valeur pour ses clients. L'autre avancée majeure est l'extension de la fenêtre de contexte du modèle grâce à des techniques de parallélisme contextuel, permettant d'analyser des volumes 3D nettement plus grands qu'auparavant et de capturer simultanément les détails locaux et les structures géologiques à grande échelle, deux informations jusqu'ici difficiles à obtenir en un seul passage. Le projet s'inscrit dans une modernisation plus large de l'infrastructure AWS de TGS et illustre une tendance croissante dans les industries à forte intensité de données, comme l'énergie ou les géosciences, qui adoptent les modèles fondamentaux spécialisés pour remplacer les pipelines d'analyse traditionnels. L'entraînement distribué à grande échelle sur des données 3D volumétriques pose des défis spécifiques — temps GPU inactifs, goulots d'étranglement réseau, gestion des checkpoints sur des clusters multi-noeuds — que SageMaker HyperPod adresse avec une surveillance automatique de la santé des instances et une gestion résiliente des reprises. La collaboration entre TGS et l'équipe GenAIIC d'AWS ouvre la voie à des modèles sismiques de prochaine génération capables d'analyser des formations géologiques encore plus complexes, avec des implications directes sur l'efficacité et la précision de l'exploration pétrolière et gazière à l'échelle mondiale.

InfrastructureActu
1 source
Les sessions persistantes et l'exécution de commandes shell grâce à la configuration du système de fichiers
3AWS ML Blog 

Les sessions persistantes et l'exécution de commandes shell grâce à la configuration du système de fichiers

Amazon a annoncé deux nouvelles fonctionnalités pour son service Bedrock AgentCore Runtime : le stockage de session persistant (en préversion publique) et l'exécution directe de commandes shell via InvokeAgentRuntimeCommand. Ces capacités répondent à deux problèmes concrets que rencontrent les équipes qui déploient des agents IA en production. Chaque session AgentCore Runtime tourne dans une microVM isolée avec son propre noyau, sa mémoire et son système de fichiers. Jusqu'ici, à l'arrêt de la session, tout ce que l'agent avait créé — dépendances installées, code généré, historique git local — disparaissait. Le stockage managé de session règle ce problème en offrant un répertoire persistant, configurable au moment de la création de l'agent via le paramètre filesystemConfiguration, qui survit aux cycles arrêt/reprise même lorsque l'environnement de calcul est remplacé. La seconde fonctionnalité, InvokeAgentRuntimeCommand, permet d'exécuter des commandes shell déterministes comme npm test ou git push directement dans la microVM associée à la session active, sans passer par le modèle de langage. L'impact est immédiat pour les équipes qui construisent des agents de développement. Avant ces ajouts, un agent de coding pouvait passer vingt minutes à scaffolder un projet — créer l'arborescence, installer les dépendances, configurer les outils de build — pour que tout disparaisse à la première pause. Au redémarrage, tout était à recommencer : vingt minutes de calcul brûlées avant de pouvoir reprendre un travail utile. De même, faire transiter une commande déterministe comme l'exécution de tests via le LLM ajoutait du coût en tokens, de la latence et une non-déterminisme inutile à une opération parfaitement prévisible. Les contournements existants, comme écrire une logique de checkpoint vers Amazon S3 avant chaque arrêt de session ou maintenir les sessions actives en permanence, fonctionnaient mais reportaient la complexité dans le code de l'agent plutôt que de résoudre le problème à la racine. Ces annonces s'inscrivent dans une évolution plus large du rôle des agents IA dans les workflows de développement. Le système de fichiers est devenu la mémoire de travail principale des agents, leur permettant de dépasser les limites du contexte des LLM. Amazon Bedrock AgentCore Runtime, en intégrant nativement la persistance et l'exécution de commandes shell au niveau de l'infrastructure, cherche à s'imposer comme runtime de référence pour les agents de production. Cette approche concurrence directement des solutions comme les environnements de sandbox de Modal, les DevContainers GitHub Codespaces, ou les outils d'orchestration d'agents open source comme LangGraph et AutoGen, qui proposent leurs propres mécanismes de gestion d'état. La disponibilité en préversion publique du stockage de session laisse anticiper une disponibilité générale dans les prochains mois, vraisemblablement accompagnée d'une tarification spécifique liée au volume de stockage persistant utilisé.

UELes équipes françaises et européennes développant des agents IA sur AWS Bedrock peuvent directement adopter ces nouvelles capacités de persistance et d'exécution shell, sans impact réglementaire spécifique à l'Europe.

💬 C'est exactement le problème que personne ne veut admettre publiquement : un agent qui perd son contexte à chaque pause, c'est du calcul jeté à la poubelle. Amazon règle ça au niveau infrastructure plutôt qu'en laissant chaque équipe bricoler ses checkpoints S3, et c'est le bon endroit pour le faire. Reste la question du prix, parce que du stockage persistant managé sur AWS, ça ne va pas rester gratuit longtemps.

InfrastructureOpinion
1 source
La Corée du Sud investit dans la startup locale qui défie Nvidia avec ses puces IA
4Le Big Data 

La Corée du Sud investit dans la startup locale qui défie Nvidia avec ses puces IA

Le gouvernement sud-coréen a annoncé mardi un investissement de 166 millions de dollars (250 milliards de wons) dans Rebellions, une startup spécialisée dans les puces d'intelligence artificielle fondée en 2020. Cet investissement, validé par la Commission des services financiers et le conseil consultatif des technologies stratégiques, est le premier déblocage concret du « Fonds national de croissance » dans le cadre du programme « K-Nvidia », co-piloté avec le ministère des Sciences et des TIC. Rebellions conçoit des unités de traitement neuronal (NPU) dédiées à l'inférence IA — la phase où les modèles répondent aux requêtes en temps réel. Son architecture, notamment la puce ATOM, se distingue par une consommation énergétique nettement inférieure aux solutions concurrentes. Fonctionnant sur un modèle « fabless », la société sous-traite la fabrication à des fonderies spécialisées. Depuis six mois, elle a levé 650 millions de dollars, portant son total à 850 millions et sa valorisation à plus de 2 milliards de dollars. Cet investissement public s'inscrit dans une stratégie de réduction de la dépendance aux infrastructures américaines, et plus précisément à Nvidia, qui domine aujourd'hui le marché des puces IA avec une emprise quasi monopolistique sur les data centers mondiaux. Cette concentration donne à un seul acteur un pouvoir considérable sur les prix, les délais de livraison et l'accès aux technologies critiques — une vulnérabilité que les États commencent à prendre très au sérieux. Rebellions cible déjà des clients cloud, des opérateurs télécoms et des gouvernements, et s'implante aux États-Unis, au Japon, au Moyen-Orient et à Taïwan, signalant des ambitions clairement internationales. Pour la Corée du Sud, soutenir ce type d'acteur, c'est aussi consolider une filière industrielle cohérente : le pays maîtrise déjà la mémoire vive avec Samsung et SK Hynix, mais reste exposé sur le segment des puces de calcul IA. La décision de Séoul intervient dans un contexte de course mondiale aux semi-conducteurs qui s'emballe. Les géants technologiques américains devraient investir collectivement entre 630 et 700 milliards de dollars en infrastructure IA cette année selon Reuters, tandis que la Chine, malgré les restrictions américaines à l'export, accélère le développement de ses propres filières. Les tensions géopolitiques entre Washington et Pékin ont transformé les semi-conducteurs en outil de pression diplomatique, rendant les chaînes d'approvisionnement imprévisibles. Dans ce contexte, le programme K-Nvidia représente le pari de Séoul de ne pas rater la fenêtre d'opportunité : construire un champion national de la puce IA avant que le marché soit structurellement verrouillé par les acteurs déjà en place.

UELa dépendance européenne aux puces Nvidia étant structurellement similaire à celle de la Corée du Sud, l'émergence de concurrents asiatiques comme Rebellions pourrait à terme diversifier les options d'approvisionnement pour les acteurs européens du cloud et de l'IA.

InfrastructureOpinion
1 source