Aller au contenu principal
Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud
InfrastructureAI News2h

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

1 source couvre ce sujet·Source originale ↗·

Cadence Design Systems a annoncé cette semaine, lors de son événement CadenceLIVE, deux nouvelles collaborations dans le domaine de l'intelligence artificielle : un approfondissement de son partenariat avec Nvidia, et une intégration inédite avec Google Cloud. Avec Nvidia, l'objectif est de combiner la simulation physique, le calcul accéléré et l'IA pour concevoir et déployer des systèmes robotiques et des infrastructures à grande échelle. Concrètement, Cadence intègre ses outils de simulation multiphysique avec les bibliothèques CUDA-X de Nvidia, ses modèles d'IA et son environnement de simulation basé sur Omniverse. Ces outils modélisent les interactions thermiques, électriques et mécaniques pour permettre aux ingénieurs d'évaluer le comportement des systèmes dans des conditions réelles, avant tout déploiement physique. Le PDG de Nvidia, Jensen Huang, présent à l'événement, a résumé l'ambition commune : "Nous travaillons avec vous sur l'ensemble des systèmes robotiques." Côté Google Cloud, Cadence a présenté un nouvel agent IA dédié à l'automatisation des étapes avancées de conception de puces, notamment la traduction des circuits en implantations physiques sur silicium. Cet agent s'appuie sur les modèles Gemini de Google et sera déployé directement dans le cloud. La plateforme ChipStack AI Super Agent de Cadence affiche des gains de productivité allant jusqu'à dix fois dans les premiers déploiements, sur des tâches de conception et de vérification.

Ces annonces ont des implications directes pour plusieurs secteurs industriels. Dans la robotique, la simulation physique précise permet de générer des jeux de données d'entraînement sans avoir à collecter de données dans le monde réel, ce qui réduit considérablement les coûts et les délais. Comme l'a souligné le PDG de Cadence, Anirudh Devgan : "Plus les données générées sont précises, meilleur sera le modèle." Des géants de l'automatisation industrielle tels qu'ABB Robotics, FANUC, YASKAWA et KUKA intègrent déjà ces outils dans leurs flux de mise en service virtuelle pour tester des lignes de production entières avant leur déploiement physique. Pour la conception de semi-conducteurs, le passage à des agents IA capables d'automatiser les étapes de layout promet d'accélérer des cycles de développement qui comptent parmi les plus longs et coûteux de l'industrie technologique.

Ces partenariats s'inscrivent dans une tendance de fond : la convergence entre conception électronique assistée par ordinateur, IA générative et jumeaux numériques. Cadence, acteur historique de l'EDA (Electronic Design Automation) aux côtés de Synopsys et Mentor, cherche à se repositionner comme une plateforme d'ingénierie systémique intégrant l'IA à chaque étape du cycle de conception. Nvidia, de son côté, poursuit l'expansion de son écosystème Omniverse au-delà du jeu et de la visualisation, vers l'industrie lourde et la robotique physique. L'utilisation de Google Cloud comme vecteur de déploiement des outils de Cadence signale également une montée en puissance du cloud dans des workflows traditionnellement dominés par des infrastructures locales. Les prochaines étapes attendues incluent des annonces de clients utilisant la plateforme ChipStack ainsi qu'une généralisation des agents IA à d'autres étapes du design de puces.

Impact France/UE

Les industriels européens KUKA (Allemagne) et ABB (Suisse), déjà utilisateurs de ces outils de simulation, bénéficieront directement des avancées en jumeaux numériques et en automatisation de la conception de puces.

À lire aussi

Déployer l'IA dans les environnements contraints du secteur public
1MIT Technology Review 

Déployer l'IA dans les environnements contraints du secteur public

Les institutions publiques du monde entier subissent une pression croissante pour adopter l'intelligence artificielle, mais leur contexte opérationnel diffère radicalement de celui du secteur privé. Une étude de Capgemini révèle que 79 % des dirigeants du secteur public s'inquiètent de la sécurité des données liées à l'IA, une préoccupation justifiée au regard de la sensibilité des informations gouvernementales et des obligations légales qui les entourent. Han Xiao, vice-président de l'IA chez Elastic, résume la situation : les agences gouvernementales doivent strictement contrôler les données qu'elles envoient sur le réseau, ce qui impose de nombreuses contraintes sur leur approche de l'IA. Une enquête d'Elastic auprès de décideurs publics révèle par ailleurs que 65 % d'entre eux peinent à exploiter leurs données en continu, en temps réel et à grande échelle. Là où le secteur privé présuppose une connectivité permanente au cloud, une infrastructure centralisée et une liberté de mouvement des données, les administrations publiques ne peuvent accepter ces conditions. Elles doivent garantir que leurs données restent sous leur contrôle, que les informations peuvent être vérifiées, et que la continuité des opérations est assurée, y compris dans des environnements où la connexion internet est limitée ou inexistante. S'ajoute à cela un autre obstacle matériel : les administrations achètent rarement des GPU, ces processeurs graphiques indispensables pour faire tourner les grands modèles d'IA, faute d'habitude de gérer ce type d'infrastructure. Ces contraintes cumulées expliquent pourquoi de nombreux projets pilotes d'IA dans le secteur public ne franchissent jamais le stade de l'expérimentation. Face à ces limites, les petits modèles de langage, ou SLM (Small Language Models), apparaissent comme une solution adaptée. Contrairement aux grands modèles comme GPT-4 qui mobilisent des centaines de milliards de paramètres, les SLM n'en utilisent que quelques milliards, ce qui les rend bien moins gourmands en ressources de calcul et permet de les héberger localement, sans dépendance au cloud. Des études empiriques montrent que leurs performances sont comparables, voire supérieures à celles des LLM sur des tâches spécialisées. Les données restent stockées en dehors du modèle et ne sont consultées qu'au moment des requêtes, grâce à des techniques comme la recherche vectorielle et l'ancrage sur des sources vérifiables. Des entreprises comme Elastic positionnent ces approches comme la voie réaliste vers une IA véritablement opérationnelle dans les administrations, à l'heure où la pression politique en faveur de la modernisation numérique ne cesse de s'intensifier.

UELes administrations françaises et européennes, contraintes par le RGPD et les exigences de souveraineté des données, trouvent dans les SLM déployables en local une voie concrète pour dépasser le stade pilote et accélérer leur modernisation numérique sans dépendance au cloud.

InfrastructureOpinion
1 source
Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA
2Le Big Data 

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

Meta et Broadcom ont officialisé le 14 avril 2026 un partenariat stratégique pluriannuel pour bâtir l'une des infrastructures de calcul IA les plus massives jamais conçues. Dès la première phase, la capacité déployée dépasse 1 gigawatt, avec une trajectoire assumée vers plusieurs gigawatts dans les années à venir. Au cœur du dispositif : les puces propriétaires MTIA (Meta Training and Inference Accelerator), conçues pour optimiser à la fois l'entraînement et l'inférence des modèles d'IA. Broadcom fournit l'ensemble de la chaîne matérielle, de la conception des accélérateurs via sa plateforme XPU à leur interconnexion réseau haut débit. La collaboration est prévue pour durer jusqu'en 2029 au moins, avec des générations successives de puces MTIA adaptées aux besoins évolutifs de Meta. Ce partenariat représente un changement d'échelle radical dans la façon dont les grandes plateformes numériques abordent leurs besoins en calcul. Meta ne se contente plus d'acheter des GPU sur étagère : l'entreprise co-conçoit avec Broadcom des accélérateurs taillés sur mesure pour ses propres charges de travail, ce qui permet d'optimiser conjointement la logique de calcul, la gestion mémoire et les transferts de données à haute vitesse. L'enjeu est concret : alimenter des services utilisés quotidiennement par des milliards de personnes, de WhatsApp à Instagram en passant par Threads, tout en réduisant le coût total de possession. Mark Zuckerberg a affiché publiquement l'ambition d'apporter des capacités d'IA avancées à chaque utilisateur, jusqu'à ce qu'il décrit comme une forme de "superintelligence personnelle". À cette échelle, chaque point d'efficacité matérielle se traduit directement en milliards de dollars d'économies ou de capacités supplémentaires. Ce mouvement s'inscrit dans une tendance de fond qui redessine l'industrie du semi-conducteur et des infrastructures cloud. Face à la domination de Nvidia sur le marché des GPU d'IA, les hyperscalers comme Meta, Google ou Amazon investissent massivement dans des puces personnalisées pour réduire leur dépendance à un seul fournisseur et reprendre le contrôle de leur stack matériel. Broadcom, qui accompagne déjà Google avec ses TPU, se positionne comme le partenaire de référence pour ces projets de co-conception à grande échelle. Le choix d'une architecture réseau basée sur Ethernet ouvert plutôt que sur des protocoles propriétaires facilite l'évolutivité et l'intégration dans des data centers existants. Avec des investissements qui se chiffrent désormais en gigawatts plutôt qu'en mégawatts, la course à l'infrastructure IA prend une dimension comparable à celle de l'industrie énergétique, et les prochains trimestres diront si cette stratégie d'hyper-scalabilité donne à Meta l'avantage compétitif recherché face à OpenAI, Google et Microsoft.

InfrastructureOpinion
1 source
Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble
3VentureBeat AI 

Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble

Les agents d'intelligence artificielle peuvent désormais être interconnectés dans des workflows complexes, mais Vijoy Pandey, SVP et directeur général d'Outshift by Cisco, pointe une limite fondamentale : la connexion n'est pas la cognition. Chaque agent repart de zéro à chaque interaction, sans contexte partagé ni alignement sémantique avec ses pairs. Pour résoudre ce problème, l'équipe de Pandey développe trois nouveaux protocoles de communication inter-agents : le Semantic State Transfer Protocol (SSTP), qui opère au niveau du langage pour permettre aux systèmes d'inférer la bonne tâche ; le Latent Space Transfer Protocol (LSTP), capable de transférer l'espace latent complet d'un agent à un autre, en transmettant directement le cache KV pour éviter le coût de la tokenisation ; et le Compressed State Transfer Protocol (CSTP), orienté vers les déploiements en périphérie de réseau où il faut transmettre de grandes quantités d'état de manière précise et compressée. En parallèle, Cisco a collaboré avec le MIT sur le Ripple Effect Protocol, une initiative complémentaire dans cette direction. L'enjeu derrière ces travaux est considérable : atteindre ce que Pandey appelle l'"internet de la cognition", un niveau où des agents peuvent résoudre des problèmes inédits, sans intervention humaine, en partageant véritablement leur intention et leur contexte. Ce saut qualitatif représente selon lui le "grand déblocage" pour les systèmes d'IA de prochaine génération. Sur le plan opérationnel, Cisco a déjà montré des résultats concrets : en déployant plus de vingt agents, dont certains développés en interne et d'autres issus de fournisseurs tiers, l'équipe SRE de Cisco a automatisé plus d'une douzaine de workflows de bout en bout, incluant les pipelines CI/CD, les déploiements Kubernetes et les instanciations EC2. Ces agents accèdent à plus de cent outils via des frameworks comme le Model Context Protocol (MCP), tout en s'intégrant aux plateformes de sécurité de Cisco. Pandey situe cette évolution dans une trajectoire historique plus large : l'intelligence humaine a d'abord émergé individuellement, avant que la communication progressive entre individus ne déclenche une révolution cognitive collective, permettant l'intention partagée, la coordination et l'innovation distribuée. Son équipe reproduit délibérément cette trajectoire dans le silicium, en codifiant l'intention, le contexte et l'innovation collective directement dans l'infrastructure sous forme de règles, d'API et de capacités. L'architecture cible se décompose en trois couches : les protocoles (SSTP, LSTP, CSTP), un tissu de distribution pour synchroniser les états cognitifs entre endpoints, et des "moteurs de cognition" fournissant garde-fous et accélération. Cisco n'est pas seul sur ce terrain : la course à l'infrastructure agentique de nouvelle génération s'intensifie, avec des acteurs comme Anthropic, OpenAI et des startups spécialisées qui poussent chacun leurs propres standards, rendant la bataille des protocoles aussi stratégique que celle des modèles eux-mêmes.

InfrastructureOpinion
1 source
Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM
4AWS ML Blog 

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

AWS et ses partenaires ont publié des résultats de benchmarks démontrant que le décodage spéculatif (speculative decoding) sur les puces AWS Trainium2, couplé au framework vLLM et à Kubernetes, permet d'accélérer la génération de tokens jusqu'à trois fois pour les charges de travail intensives en décodage. Les tests ont été réalisés avec les modèles Qwen3, une famille de modèles de langage développée par Alibaba. La technique repose sur l'utilisation de deux modèles en tandem : un petit modèle "brouillon" (draft model) qui propose plusieurs tokens en avance, et le modèle principal qui vérifie ces propositions en une seule passe. Résultat : une latence inter-token réduite et un coût par token généré significativement plus faible. L'impact est particulièrement marqué pour les applications comme les assistants à l'écriture, les agents de code ou tout système génératif qui produit beaucoup plus de tokens qu'il n'en consomme en entrée. Dans ces cas, la phase de décodage représente l'essentiel du coût d'inférence. Le problème fondamental du décodage autorégressif classique est que les accélérateurs matériels restent largement sous-utilisés : chaque étape ne produit qu'un seul token, ce qui génère de petites opérations matricielles inefficaces et monopolise inutilement la bande passante mémoire du cache KV. Le décodage spéculatif transforme ce goulot d'étranglement en permettant au modèle cible de traiter n tokens simultanément lors de la vérification, amortissant ainsi les accès mémoire et densifiant les calculs. Deux paramètres clés pilotent les performances de cette approche : le choix du modèle brouillon et la valeur de numspeculativetokens, qui détermine combien de tokens sont proposés à chaque passe. Le modèle brouillon doit partager le même tokenizer et le même vocabulaire que le modèle principal, idéalement appartenir à la même famille architecturale, pour maximiser le taux d'acceptation des tokens proposés. Un taux d'acceptation élevé est crucial : si le modèle principal rejette trop souvent les suggestions, les gains de performance s'évaporent et le coût de calcul du modèle brouillon devient une charge nette. Fixer numspeculativetokens trop bas limite les gains ; trop haut, cela multiplie les rejections anticipées. Cette publication s'inscrit dans une tendance plus large de la course à l'optimisation de l'inférence LLM, où AWS cherche à positionner ses puces Trainium comme alternative crédible aux GPU Nvidia, notamment pour les entreprises cherchant à réduire leurs coûts d'inférence à grande échelle.

UELes entreprises européennes utilisant AWS pourraient réduire leurs coûts d'inférence LLM en migrant vers Trainium2, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureActu
1 source