Aller au contenu principal

Dossier Google DeepMind — page 8

714 articles · page 8 sur 15

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
351arXiv cs.RO RobotiqueOpinion

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

1 source
Mecka AI obtient 60 millions de dollars pour développer ses robots IA
352Le Big Data 

Mecka AI obtient 60 millions de dollars pour développer ses robots IA

La startup new-yorkaise Mecka AI a annoncé le 1er juin 2026 une levée de fonds totale de 60 millions de dollars pour accélérer le développement de son infrastructure de données destinée à la robotique intelligente. Ce financement se décompose en deux tours menés par Framework Ventures : une série A de 25 millions de dollars bouclée en novembre 2025, suivie d'un second tour de 35 millions. Parmi les autres investisseurs figurent Menlo Ventures, SV Angel, Kindred Ventures et Ted Xiao, ancien chercheur chez Google DeepMind. La société affirme déjà avoir sécurisé des contrats lui permettant de viser 100 millions de dollars de revenus annuels. Fondée par Josh Gao et Mogen Cheng, qui n'ont aucun passé dans les grands laboratoires d'IA mais viennent de la fintech et de la crypto, Mecka AI développe des dispositifs propriétaires combinant capteurs corporels et iPhone pour enregistrer à grande échelle les gestes, déplacements et interactions physiques des humains. L'enjeu central est de résoudre un problème fondamental de la robotique moderne : le manque de données dites "incarnées". Contrairement à l'IA générative, qui s'entraîne sur du texte, des images ou de l'audio, un robot qui doit agir dans le monde physique a besoin de comprendre comment un corps humain coordonne ses mouvements. Mecka AI transforme ces comportements en données d'entraînement structurées, offrant aux modèles robotiques une base plus naturelle et plus riche que la téléopération classique, où un humain pilote directement le robot pour générer des exemples d'apprentissage. Cette approche pourrait accélérer le développement de robots polyvalents capables d'opérer dans des environnements non contrôlés, de l'entrepôt logistique au domicile. Le financement de Mecka AI s'inscrit dans un repositionnement plus large du capital-risque technologique. Après des années d'investissements massifs dans les grands modèles de langage, une fraction croissante du capital se déplace vers l'IA physique, ce segment qui cherche à connecter les capacités algorithmiques à des actions concrètes dans le monde réel. Wayve, de son côté, entraîne ses systèmes de conduite autonome sur des flux vidéo embarqués, tandis que MicroAGI collecte des données dans des foyers américains pour sa robotique domestique. Mecka AI ambitionne d'industrialiser cette collecte à travers des verticales multiples et d'en faire une couche d'infrastructure partagée pour l'ensemble de l'écosystème robotique. L'originalité du profil de ses fondateurs, venus de la fintech plutôt que de la recherche académique, suggère une approche davantage orientée vers la scalabilité commerciale que vers la publication scientifique.

RobotiqueOpinion
1 source
Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes
353Apple Machine Learning 

Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes

Apple sera présent à la conférence CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition), qui se tient en présentiel à Denver, au Colorado Convention Center, du 3 au 7 juin 2026. L'entreprise y présente de nouveaux travaux de recherche et en assure la sponsorisation, confirmant ainsi son engagement continu auprès de la communauté scientifique mondiale spécialisée en vision par ordinateur et en reconnaissance de formes. La participation d'Apple à ce type d'événement illustre la montée en puissance de sa stratégie de recherche publique. En publiant ses travaux à CVPR, l'un des rendez-vous académiques les plus influents dans le domaine de l'intelligence artificielle visuelle, Apple signale ses priorités technologiques tout en attirant des talents issus du milieu universitaire. Pour l'industrie, cette visibilité académique est devenue un levier de recrutement et de légitimité scientifique face à des concurrents comme Google DeepMind, Meta AI ou Microsoft Research, qui investissent massivement dans la publication ouverte. CVPR est considéré comme l'une des conférences les plus sélectives et les plus citées en intelligence artificielle, rassemblant chaque année plusieurs milliers de chercheurs du monde entier. Apple, longtemps critiqué pour son opacité scientifique comparée à ses rivaux, a progressivement ouvert sa recherche au cours des dernières années, notamment via son blog officiel et des publications dans des conférences de premier plan. Le contenu précis des travaux présentés à Denver devrait être détaillé lors de l'événement début juin.

RecherchePaper
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
354IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots
355arXiv cs.RO 

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Des chercheurs ont publié sur arXiv (2603.17510v2) une architecture permettant à un robot mobile de naviguer en environnement partagé en tenant compte des préférences exprimées en langage naturel par ses utilisateurs. Le système repose sur trois couches distinctes : un modèle vision-langage (VLM) qui analyse en continu les images de la caméra embarquée pour extraire un contexte environnemental structuré, un grand modèle de langage (LLM) qui traduit les retours verbaux des utilisateurs en règles comportementales interprétables, stockées dans une mémoire persistante et modifiable, puis un module de traduction des préférences qui convertit ces règles et ce contexte en vecteurs numériques injectés à la volée dans une politique de navigation par apprentissage par renforcement multi-objectif (MORL) préentraînée. L'évaluation couvre des déploiements réels dans plusieurs environnements intérieurs, une étude utilisateur et des mesures quantitatives par composant, sans que l'abstract précise les effectifs ni les métriques chiffrées de performance. Ce travail adresse un verrou concret pour les déploiements en milieu professionnel : aujourd'hui, un robot de livraison intérieure ou un AMR logistique optimise vitesse et sécurité selon des paramètres fixes, incapable d'adapter son comportement si un opérateur lui dit "ralentis dans la zone de picking" ou "évite le couloir principal le matin". L'architecture proposée résout ce problème sans réentraînement : la mémoire de règles est mise à jour à chaud via langage naturel, ce qui réduit dramatiquement le coût d'intégration pour un déploiement B2B. La séparation claire entre raisonnement sémantique de haut niveau (VLM/LLM) et contrôle temps-réel (MORL) est également un argument industriel sérieux, car elle permet de changer le backbone LLM sans toucher à la politique de bas niveau. Ce type d'approche s'inscrit dans une tendance académique forte depuis 2023 : l'utilisation de fondational models comme couche d'interprétation au-dessus de politiques de contrôle classiques, popularisée notamment par les travaux sur les VLA (Vision-Language-Action models) chez Google DeepMind ou Stanford. La différence ici est la persistance explicite des règles en mémoire et l'utilisation de MORL plutôt que d'une politique end-to-end, ce qui offre davantage de contrôle et de transparence. Aucun partenaire industriel ni timeline de commercialisation ne sont mentionnés, ce travail restant pour l'instant une contribution de recherche. La prochaine étape naturelle serait de valider le système sur des robots commerciaux comme le Spot de Boston Dynamics ou des AMR de Locus Robotics, et d'étendre les expériences aux environnements extérieurs ou aux contextes multi-utilisateurs.

RechercheOpinion
1 source
Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs
356arXiv cs.RO 

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

RechercheOpinion
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
357arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

RobotiqueOpinion
1 source
Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques
358MarkTechPost 

Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques

Des chercheurs en neuroIA ont publié un tutoriel détaillant la construction d'un pipeline complet de décodage cérébral à partir de signaux MEG (magnétoencéphalographie), une technique d'imagerie cérébrale non invasive qui mesure les champs magnétiques produits par l'activité électrique des neurones. L'objectif concret du projet : prédire la longueur des mots qu'une personne lit ou entend, uniquement à partir des signaux cérébraux bruts, sans aucun autre indice. Pour y parvenir, l'équipe s'appuie sur deux bibliothèques Python dédiées, NeuralSet et NeuralFetch, couplées à PyTorch pour l'entraînement d'un réseau de neurones convolutif (CNN). Le pipeline transforme les données MEG en événements temporels structurés, extrait des caractéristiques linguistiques via un extracteur personnalisé nommé CharCount, puis entraîne le modèle à reconnaître les patterns spatiaux et temporels associés au traitement du langage dans le cerveau. Ce type de pipeline représente une avancée méthodologique importante pour la recherche en interface cerveau-machine, un domaine jusqu'ici freiné par la complexité de traitement des signaux neuronaux bruts. En proposant un workflow modulaire et reproductible, avec gestion des dépendances, graine aléatoire fixée pour la reproductibilité, et catalogage automatique des jeux de données MEG disponibles, les auteurs offrent aux équipes de recherche une base de travail standardisée. L'enjeu pratique est considérable : décoder des features linguistiques à partir d'activité cérébrale ouvre la voie à des systèmes de communication pour des patients atteints de paralysie ou de maladies neurodégénératives comme la SLA, sans implants chirurgicaux invasifs. Ce projet s'inscrit dans une dynamique plus large qui voit la neuroIA attirer des investissements massifs et des équipes de recherche de premier plan. Meta AI a démontré en 2023 qu'il était possible de décoder la parole perçue à partir de signaux MEG avec une précision inédite grâce à des architectures Transformer. OpenAI, DeepMind et plusieurs startups spécialisées comme Synchron ou Precision Neuroscience explorent parallèlement des approches invasives via des électrodes corticales. La particularité de l'approche MEG non invasive est qu'elle ne nécessite pas d'intervention chirurgicale, mais elle souffre d'une résolution spatiale plus faible que les implants. L'utilisation de CNN pour capturer les structures spatio-temporelles des signaux MEG reste un compromis efficace, et la publication de frameworks open source comme NeuralSet devrait accélérer la standardisation des protocoles expérimentaux, facilitant la comparaison entre études et la montée en puissance de modèles de décodage plus robustes dans les années à venir.

RecherchePaper
1 source
Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde
359arXiv cs.RO 

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

Des chercheurs ont publié sur arXiv une méthode baptisée Privileged Foresight Distillation (PFD), conçue pour améliorer les modèles d'action robotiques sans coût supplémentaire à l'exécution. Ces "world action models" sont des systèmes d'IA entraînés à prédire simultanément des vidéos futures et des actions à effectuer, une architecture populaire dans le domaine de la manipulation robotique. La question centrale que les auteurs cherchent à résoudre est la suivante : à quoi sert réellement la branche de prédiction vidéo lors de l'entraînement, si elle peut être retirée à l'inférence sans perte significative de performance sur des benchmarks comme LIBERO et RoboTwin ? Leur réponse : la vision du futur crée pendant l'entraînement une correction précise et mesurable des actions prédites, correction qui peut être "distillée" dans un adaptateur léger attaché à un modèle n'observant que le présent. Concrètement, PFD fonctionne en deux temps : un modèle "enseignant" voit les vraies images futures pendant l'entraînement et génère une correction, calculée comme la différence entre ses prédictions avec et sans ces images ; un modèle "étudiant", qui n'a accès qu'à l'image courante, apprend à reproduire cette correction via un petit adaptateur. Les deux modèles partagent la même architecture visuelle et ne diffèrent que dans leur masque d'attention sur les tokens vidéo. À l'inférence, aucune vidéo future n'est générée, ce qui maintient une latence négligeable. Les tests sur LIBERO et RoboTwin confirment des gains constants de performance sans surcoût computationnel, ce qui rend la méthode directement applicable à des systèmes robotiques existants. Ce travail s'inscrit dans un débat plus large sur l'utilité des représentations temporelles dans les modèles génératifs appliqués à la robotique. La tendance des "world models", popularisée par des travaux de Google DeepMind, Tesla et d'autres laboratoires, consiste à entraîner des agents capables d'anticiper les conséquences de leurs actions. Jusqu'ici, une interprétation dominante voulait que la prédiction du futur n'agisse que comme régularisateur sur le backbone visuel partagé. PFD renverse cette lecture en montrant que le futur est une correction compressible et transmissible, plutôt qu'une cible de prédiction ou un simple bruit d'entraînement. Cette distinction ouvre des perspectives pour concevoir des robots plus précis tout en réduisant les contraintes d'inférence en temps réel.

RecherchePaper
1 source
Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
360MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
361arXiv cs.RO 

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion. Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile. La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.

RechercheActu
1 source
Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
362MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme
363arXiv cs.RO 

Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme

Des chercheurs ont publié sur arXiv un nouveau cadre algorithmique, baptisé EEAgent (Evolvable Embodied Agent), conçu pour doter les robots d'une capacité d'adaptation continue sans nécessiter de réentraînement lourd. Le système s'appuie sur des modèles de vision et de langage (VLMs) de grande taille pour interpréter l'environnement et planifier les actions du robot. Sa pièce maîtresse est un mécanisme appelé LSTRO (Long Short-Term Reflective Optimization), qui affine dynamiquement les instructions en combinant les expériences passées et les leçons récemment apprises. Évalué sur six tâches du benchmark VIMA-Bench, EEAgent établit un nouvel état de l'art et surpasse significativement les systèmes concurrents, notamment dans les scénarios les plus complexes. Ce travail s'attaque à un obstacle central de la robotique moderne : la généralisation. Les approches traditionnelles nécessitent des données d'entraînement massives et peinent à transférer leurs compétences d'une tâche à une autre, tout en restant difficiles à interpréter. EEAgent contourne ce problème en remplaçant le réentraînement par une réflexion structurée sur l'expérience accumulée, une approche analogue à ce qu'un opérateur humain ferait naturellement. La distinction court terme / long terme dans LSTRO permet au robot de ne pas simplement mémoriser ses erreurs récentes, mais d'en distiller des principes généraux réutilisables, améliorant les taux de réussite sur des tâches variées sans intervention humaine supplémentaire. La course à la robotique généraliste s'est intensifiée ces dernières années, portée par des acteurs comme Boston Dynamics, Figure, Physical Intelligence ou Google DeepMind. Tous cherchent à créer des systèmes capables d'opérer dans des environnements non structurés sans reprogrammation constante. L'apprentissage par prompts, que EEAgent pousse plus loin avec LSTRO, s'affirme comme une alternative légère aux pipelines d'apprentissage par renforcement classiques, coûteux en calcul et en données. Si les résultats sur VIMA-Bench sont encourageants, la prochaine étape sera de valider ce type de système dans des environnements physiques réels, là où la robustesse et l'adaptabilité sont véritablement mises à l'épreuve.

RechercheOpinion
1 source
Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement
364MarkTechPost 

Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement

Equinox s'impose discrètement comme l'une des bibliothèques de deep learning les plus élégantes construites sur JAX, l'environnement de calcul numérique de Google. Développée comme une surcouche légère, elle repose sur un principe central : chaque modèle est un eqx.Module, traité nativement comme un PyTree, la structure d'arbre que JAX utilise pour manipuler ses tenseurs. Concrètement, cela signifie qu'une couche Linear, un bloc convolutif Conv1dBlock ou un réseau MLP se décomposent automatiquement en feuilles (les poids, les biais) et en métadonnées structurelles, sans couche d'abstraction cachée. Le tutoriel publié cette semaine détaille l'ensemble du workflow : initialisation des modules, champs statiques via eqx.field(static=True), transformations filtrées comme filterjit et filtergrad, couches avec état comme BatchNorm, et entraînement complet sur un problème de régression synthétique, le tout combiné avec Optax pour l'optimisation et Jaxtyping pour les annotations de forme. L'intérêt pratique d'Equinox réside dans la façon dont il résout une friction fondamentale de JAX : comment gérer des paramètres entraînables et des métadonnées non-différentiables dans le même objet. Avec les transformations filtrées, il devient possible d'appliquer jit ou grad uniquement sur les feuilles numériques du modèle, en excluant automatiquement les chaînes de caractères, entiers ou booléens qui définissent l'architecture. Cette distinction évite les erreurs de traçage silencieuses qui affectent les approches naïves. Pour les chercheurs qui travaillent sur des architectures expérimentales, où l'on mélange souvent des hyperparamètres fixes et des poids appris, c'est un gain de fiabilité et de lisibilité significatif. Les couches comme BatchNorm, qui maintiennent un état interne (moyenne courante, variance), sont également prises en charge de manière explicite, sans recourir à des contournements complexes. Equinox s'inscrit dans un mouvement plus large qui voit JAX gagner du terrain dans la recherche en apprentissage automatique, notamment face à PyTorch. Google DeepMind, qui l'utilise intensivement, ainsi que de nombreux laboratoires académiques ont adopté cet écosystème pour sa capacité à composer des transformations fonctionnelles (différentiation, vectorisation, parallélisme) de façon modulaire. Equinox se positionne comme une alternative à Flax ou Haiku, les deux bibliothèques historiques de l'écosystème JAX, en privilegiant une syntaxe plus proche de PyTorch tout en restant purement fonctionnelle. Avec l'essor des modèles de grande taille et les besoins croissants en parallélisme matériel, des outils qui séparent clairement la structure du modèle de son état numérique devraient continuer à gagner en adoption dans les mois à venir.

OutilsTuto
1 source
Recherches en apprentissage automatique d'Apple à l'ICLR 2026
365Apple Machine Learning 

Recherches en apprentissage automatique d'Apple à l'ICLR 2026

Apple participe cette semaine à la quatorzième édition de l'International Conference on Learning Representations (ICLR 2026), qui se tient à Rio de Janeiro, au Brésil. L'entreprise y est présente en tant que sponsor officiel et y envoie plusieurs de ses chercheurs pour présenter des travaux couvrant un large spectre de sujets en apprentissage automatique et en intelligence artificielle. Ces contributions sont publiées et partagées avec la communauté scientifique internationale, conformément à la politique de diffusion ouverte qu'Apple a renforcée ces dernières années. Cette présence illustre l'ambition croissante d'Apple dans la recherche fondamentale en IA, un domaine où l'entreprise a longtemps été perçue comme moins visible que ses concurrents Google DeepMind, Meta AI ou Microsoft Research. Publier à l'ICLR, l'une des conférences les plus sélectives au monde en apprentissage profond, constitue un signal fort adressé à la communauté académique et au marché des talents, dans un contexte de recrutement intensément compétitif entre les grandes entreprises technologiques. Apple a sensiblement accéléré ses publications scientifiques depuis 2017, après avoir longtemps gardé ses recherches entièrement confidentielles. Cette ouverture progressive vise à attirer des chercheurs de haut niveau qui, dans d'autres structures, peuvent publier librement leurs travaux. L'ICLR 2026 intervient alors qu'Apple intègre davantage de fonctionnalités d'IA générative dans ses produits via Apple Intelligence, ce qui rend ses avancées en ML directement pertinentes pour des centaines de millions d'utilisateurs à travers le monde.

RecherchePaper
1 source
La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée
366arXiv cs.RO 

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Des chercheurs ont publié sur arXiv (arXiv:2604.16903) un framework de collecte de données pour robots embodied basé sur Unity, qui exploite la réalité virtuelle et les mécaniques de jeu vidéo pour contourner le goulet d'étranglement majeur du domaine : obtenir des démonstrations humaines en quantité suffisante. Le système combine génération procédurale de scènes, téléopération d'un robot humanoïde en VR, évaluation automatique des tâches et journalisation de trajectoires. Un prototype concret a été développé et validé : une tâche de pick-and-place de déchets, dans laquelle l'opérateur incarne le robot via un casque VR pour saisir et trier des objets dans des environnements générés aléatoirement. Les résultats expérimentaux montrent que les démonstrations collectées couvrent largement l'espace état-action, et que l'augmentation de la difficulté de la tâche entraîne une intensité de mouvement plus élevée ainsi qu'une exploration plus étendue de l'espace de travail du bras. Ce travail s'attaque à un problème structurel de l'intelligence embodied : les interfaces de téléopération classiques (manettes, bras maître-esclave, exosquelettes) sont coûteuses, peu accessibles et difficiles à déployer à grande échelle. En gamifiant la collecte, le framework ouvre la possibilité de recruter des opérateurs non spécialisés via des interfaces VR grand public, réduisant potentiellement le coût marginal par démonstration. La couverture large de l'espace état-action est un signal positif pour l'entraînement de politiques robustes, notamment les VLA (Vision-Language-Action models) qui dépendent de la diversité des trajectoires. Il faut toutefois nuancer : le prototype reste une tâche simple (ramassage d'objet), et les auteurs ne fournissent pas de métriques de transfert vers un robot physique réel, la question du sim-to-real gap reste entière. Ce type d'approche s'inscrit dans une tendance plus large de recours aux environnements synthétiques pour l'entraînement robotique, portée notamment par Physical Intelligence (pi0), Google DeepMind (RoboVQA, RT-2) et NVIDIA (GROOT). La génération procédurale de scènes est également au coeur des pipelines de simulation massive comme IsaacLab. L'originalité ici est l'angle "jeu vidéo" assumé, qui rapproche la collecte de données des méthodes de crowdsourcing humain utilisées en NLP. Les prochaines étapes naturelles seraient un benchmark sur robot physique, une extension à des tâches bimanuelle, et une évaluation de la qualité des politiques entraînées sur ces données face à des baselines téléopérées classiques.

AutreActu
1 source
États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet
367MarkTechPost 

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet

Des chercheurs en physique computationnelle explorent une approche inédite pour simuler les systèmes quantiques frustrés : l'utilisation d'architectures Transformer, les mêmes qui propulsent les grands modèles de langage, comme ansatz variationnel pour représenter des fonctions d'onde quantiques. Concrètement, l'implémentation s'appuie sur NetKet et JAX pour résoudre la chaîne de spins de Heisenberg J1-J2, un système dit "frustré" où les interactions magnétiques concurrentes entre premiers voisins (J1) et seconds voisins (J2) génèrent des corrélations quantiques extraordinairement complexes. Le modèle Transformer utilisé comporte 6 couches d'attention, 4 têtes d'attention et une dimension cachée de 96, entraîné par Monte Carlo variationnel (VMC) avec reconfiguration stochastique, un analogue du gradient naturel adapté à l'optimisation de fonctions d'onde. L'enjeu est fondamental pour la physique de la matière condensée. Les méthodes classiques d'exacte diagonalisation atteignent rapidement leurs limites face à la croissance exponentielle de l'espace de Hilbert : un système de N spins 1/2 requiert 2^N états de base. Les États Quantiques Neuronaux (NQS) introduits par cette approche permettent de représenter des fonctions d'onde hautement expressives en paramétrant leur amplitude complexe log-Ψ via un réseau de neurones, contournant cette explosion combinatoire. Les Transformers sont particulièrement adaptés : leur mécanisme d'attention globale capture naturellement les corrélations à longue portée entre spins, là où les réseaux convolutifs classiques peinent à dépasser quelques voisins. Les résultats sont benchmarkés contre la diagonalisation exacte de Lanczos, permettant de quantifier la précision de l'approximation variationnelle. Cette convergence entre apprentissage profond et physique quantique s'inscrit dans un mouvement plus large amorcé en 2017 avec les travaux pionniers de Carleo et Troyer, qui ont démontré pour la première fois qu'un réseau de neurones pouvait rivaliser avec les meilleures méthodes numériques en physique quantique. Depuis, les architectures se sont sophistiquées : réseaux récurrents, machines de Boltzmann restreintes, et désormais Transformers. L'écosystème logiciel autour de NetKet, développé principalement par des groupes européens, et de JAX/Flax de Google DeepMind, démocratise ces techniques auparavant réservées à quelques laboratoires spécialisés. Les perspectives sont considérables : simuler des matériaux quantiques réels comme les supraconducteurs à haute température ou les isolants topologiques, là où les méthodes traditionnelles restent bloquées par la "malédiction de la dimensionnalité".

UEL'écosystème NetKet, développé principalement par des groupes européens, renforce la compétitivité de la recherche quantique européenne dans la simulation de matériaux complexes comme les supraconducteurs à haute température.

RecherchePaper
1 source
368MarkTechPost 

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto
1 source
369VentureBeat AI 

Des dirigeants de Google, dont Demis Hassabis, contestent les allégations d'une adoption inégale de l'IA en interne

Un post publié le 13 avril sur X par Steve Yegge, ancien ingénieur Google reconverti en directeur de l'ingénierie chez Sourcegraph, a déclenché une vive polémique dans la Silicon Valley. Yegge y relayait les propos d'un ami, ingénieur actuel chez Google, selon lesquels l'adoption interne de l'IA chez Google serait bien plus banale que ce que l'entreprise laisse entendre. Selon cette source anonyme, les équipes de Google suivraient une distribution classique : 20 % de refractaires à l'IA, 60 % d'utilisateurs intermédiaires cantonnés aux assistants de code basiques, et seulement 20 % d'ingénieurs véritablement engagés dans des workflows agentiques avancés. Le post a rapidement enflammé les réseaux, atteignant 4 500 likes, 458 commentaires et 1,9 million de vues en moins de 24 heures. L'ami en question aurait également affirmé que certains Googlers ne pouvaient pas utiliser Claude Code d'Anthropic, perçu en interne comme "l'ennemi", et que Gemini n'était pas encore à la hauteur pour les cas d'usage les plus avancés. La réaction du côté de Google a été immédiate et tranchante. Demis Hassabis, cofondateur et PDG de Google DeepMind, a répondu directement à Yegge : "Dis à ton ami de faire un vrai travail plutôt que de propager des absurdités. Ce post est complètement faux, du pur clickbait." Addy Osmani, directeur chez Google Cloud AI, a livré une réfutation plus détaillée, affirmant que "plus de 40 000 ingénieurs utilisent des outils de codage agentiques chaque semaine" et que les équipes ont accès à des modèles personnalisés, des CLIs et des MCPs maison. Il a précisé que les Googlers peuvent même utiliser les modèles d'Anthropic via Vertex AI, concluant que "Google est tout sauf dans la moyenne." L'ingénieure Jaana Dogan a abondé dans ce sens, décrivant un usage quasi continu des outils IA dans son environnement quotidien. L'écho considérable de ce débat s'explique en grande partie par le profil de Yegge : avec treize ans chez Google, des passages chez Amazon et Grab, il s'est construit au fil des années une réputation d'insider-outsider au franc-parler, dont les analyses circulent largement dans les milieux tech. Un mémo interne qu'il avait rédigé chez Google en 2011 avait fuité et fait le tour des médias spécialisés, lui conférant un statut particulier. La polémique s'inscrit dans un contexte plus large : alors que les grandes entreprises tech rivalisent de communication autour de leur adoption de l'IA, la question de ce qui se passe réellement derrière les portes devient un enjeu de crédibilité. Pour Google, dont Gemini est à la fois un produit stratégique et un outil interne, toute suggestion d'un usage tiède en interne touche directement à la cohérence de son discours public.

BusinessOpinion
1 source
OpenAI s'offre un nouveau projet annexe et rachète l'émission tech TBPN
370Ars Technica AI 

OpenAI s'offre un nouveau projet annexe et rachète l'émission tech TBPN

OpenAI vient de racheter TBPN (Technology Business Programming Network), une émission de talk-show tech très suivie dans la Silicon Valley, pour un montant de l'ordre de "quelques centaines de millions de dollars", selon une source proche du dossier. La société cible, fondée en octobre 2024, ne compte que onze employés. Cette acquisition, confirmée ces derniers jours, marque une incursion inattendue du créateur de ChatGPT dans le secteur des médias et de la diffusion audiovisuelle. L'opération est d'autant plus surprenante qu'OpenAI avait récemment affiché sa volonté de se recentrer sur son coeur de métier et d'abandonner les projets périphériques, qualifiés en interne de "side quests". Racheter une émission de télévision technologique semble à rebours de ce discours. TBPN s'est pourtant imposée en moins de dix-huit mois comme une référence auprès des fondateurs de startups et de leurs investisseurs, ce qui lui confère une audience stratégique difficile à ignorer pour une entreprise cherchant à façonner le récit autour de l'intelligence artificielle. OpenAI, valorisée à 300 milliards de dollars après sa dernière levée de fonds début 2025, dispose des moyens financiers pour ce type d'opération, mais la logique stratégique reste à préciser. L'acquisition d'un média de niche très influent dans les cercles VC pourrait servir à renforcer la marque, à recruter des talents ou à contrôler davantage le narratif dans un secteur où la guerre de l'image entre OpenAI, Google DeepMind, Anthropic et Meta s'intensifie chaque trimestre.

BusinessOpinion
1 source
Une IA qui rêve la nuit ? Les incroyables secrets du méga-leak d’Anthropic
371Le Big Data 

Une IA qui rêve la nuit ? Les incroyables secrets du méga-leak d’Anthropic

Le 31 mars 2026, Anthropic a commis l'une des erreurs de déploiement les plus coûteuses de l'histoire récente de l'IA. En publiant la mise à jour 2.1.88 de Claude Code, son agent de programmation autonome, l'entreprise a oublié de retirer un fichier de débogage de 59,8 mégaoctets — un fichier .map qui contenait l'intégralité du code source original de l'outil : plus de 512 000 lignes de TypeScript. En quelques heures, ce code a été partagé plus de 50 000 fois sur GitHub et disséqué par des développeurs du monde entier. Anthropic, qui génère 2,5 milliards de dollars de revenus annuels et dont Claude Code est devenu l'outil de référence dans les équipes techniques des plus grandes entreprises tech, venait d'exposer publiquement la mécanique interne de son produit phare. Ce qui rend cette fuite particulièrement grave n'est pas la compromission de données personnelles ou d'identifiants — il n'y en a pas. C'est la nature même de ce qui a été exposé : l'architecture d'orchestration complète de Claude Code, c'est-à-dire la logique qui lui permet de raisonner, de planifier et de maintenir une cohérence sur des tâches longues. Les concurrents disposent désormais d'un manuel opérationnel détaillé pour construire des agents autonomes comparables. Parmi les découvertes les plus significatives figure un drapeau d'activation nommé KAIROS — référence au concept grec du « moment opportun » — mentionné plus de 150 fois dans le code. Il correspond à un mode « démon autonome » inédit : Claude Code serait capable de continuer à fonctionner en arrière-plan, même terminal fermé, même utilisateur déconnecté. Associée à ce mode, une fonction baptisée autoDream simule une forme de consolidation mémorielle nocturne : lorsque l'utilisateur est inactif, un sous-agent se lance pour trier les observations de la journée, fusionner les informations contradictoires et transformer des déductions vagues en connaissances structurées — un mécanisme directement inspiré du rôle du sommeil paradoxal dans la mémoire humaine. Cette fuite intervient dans un contexte de course effrénée entre les grands laboratoires d'IA pour développer des agents capables d'opérer de façon véritablement autonome sur des horizons temporels longs. Anthropic, OpenAI, Google DeepMind et plusieurs challengers financent massivement cette direction depuis 2024. KAIROS et autoDream montrent qu'Anthropic avait une longueur d'avance significative sur ces capacités — et que ces fonctionnalités n'étaient pas encore annoncées publiquement au moment du leak. La question qui agite désormais la communauté est double : dans quelle mesure des concurrents comme Google ou xAI vont-ils exploiter ce code pour accélérer leurs propres développements, et Anthropic parviendra-t-il à maintenir son avantage malgré la mise à nu involontaire de son infrastructure technique la plus stratégique ?

OutilsOpinion
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
372MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Créer et faire évoluer un agent OpenAI sur mesure avec A-Evolve : benchmarks, compétences et mémoire
373MarkTechPost 

Créer et faire évoluer un agent OpenAI sur mesure avec A-Evolve : benchmarks, compétences et mémoire

A-Evolve est un framework open source conçu pour faire évoluer automatiquement des agents d'intelligence artificielle en modifiant itérativement leur architecture interne — leurs prompts, leurs compétences, leur mémoire — afin d'améliorer leurs performances sur des tâches définies. Un tutoriel détaillé, exécutable sur Google Colab, montre comment construire de bout en bout un pipeline d'évolution complet en s'appuyant sur GPT-4o-mini d'OpenAI comme moteur de raisonnement. Le processus commence par le clonage du dépôt GitHub A-EVO-Lab/a-evolve, la configuration d'un espace de travail structuré en couches (prompts, skills, memory, tools), et la définition d'un fichier manifeste qui spécifie les parties du système autorisées à évoluer. L'agent démarre avec un prompt système minimaliste, puis est soumis à un benchmark personnalisé comprenant des tâches de transformation de texte — calculs de sommes au format JSON, génération d'acronymes, tri de tokens — pour mesurer objectivement ses progrès à chaque génération. Ce type d'approche représente un changement de paradigme dans la façon dont les équipes construisent et maintiennent des agents IA. Plutôt que d'ajuster manuellement les prompts ou d'affiner un modèle par fine-tuning coûteux, A-Evolve automatise le cycle d'amélioration : l'agent tente des tâches, reçoit un retour structuré sous forme de scores, et un moteur d'évolution applique des mutations ciblées à son espace de travail pour corriger ses failles. Pour les développeurs et les équipes produit, cela signifie des agents qui s'améliorent de façon reproductible et traçable, sans intervention humaine à chaque itération. La philosophie est proche de l'optimisation évolutionnaire appliquée aux systèmes LLM : survivent les configurations qui performent le mieux sur le benchmark défini. A-Evolve s'inscrit dans une tendance plus large autour des agents "auto-améliorants", un sujet qui mobilise plusieurs laboratoires de recherche depuis 2024. Des travaux comme Self-Play Fine-Tuning (SPIN) chez UCLA ou les expériences d'auto-raffinement chez DeepMind ont posé les bases théoriques ; A-Evolve propose ici une implémentation pratique et accessible, orientée ingénierie plutôt que recherche fondamentale. Le framework est publié sous licence ouverte sur GitHub par l'organisation A-EVO-Lab, ce qui laisse la porte ouverte à des contributions communautaires. Les prochaines évolutions attendues concernent l'élargissement des stratégies de mutation (aujourd'hui limitées aux prompts et aux compétences codées) et l'intégration de benchmarks plus complexes, notamment des tâches de raisonnement multi-étapes ou d'interaction avec des APIs externes.

OutilsOutil
1 source
IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle
374FrenchWeb 

IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle

L'apprentissage par imitation — imitation learning en anglais — s'impose comme l'un des paradigmes les plus prometteurs de l'intelligence artificielle appliquée, notamment dans la robotique et les systèmes autonomes. Contrairement au reinforcement learning classique, qui oblige un agent à explorer son environnement par essais-erreurs en accumulant récompenses et pénalités, l'imitation learning repose sur un principe radicalement différent : un modèle apprend en observant des démonstrations réalisées par un expert humain ou un autre système. Deux grandes variantes coexistent — le clonage comportemental, qui imite directement les actions observées, et l'apprentissage inverse par renforcement, qui tente d'inférer la fonction de récompense sous-jacente au comportement de l'expert. L'impact concret est significatif dans les domaines où définir une fonction de récompense explicite reste difficile ou coûteux. En robotique industrielle, des bras manipulateurs apprennent à effectuer des tâches de précision — assemblage, tri, chirurgie assistée — à partir de quelques démonstrations humaines, sans programmer chaque geste manuellement. Dans les véhicules autonomes, des systèmes comme ceux de Waymo ou Tesla intègrent des mécanismes proches pour capturer des comportements de conduite complexes directement depuis des données réelles. Cette approche s'inscrit dans un mouvement plus large vers des IA capables d'acquérir des compétences sans supervision dense. Des laboratoires comme DeepMind, OpenAI ou le CNRS explorent activement ses limites, notamment le problème de distribution shift — le modèle échoue dès qu'il rencontre une situation hors du corpus d'imitation. Des hybrides combinant imitation learning et reinforcement learning, comme DAgger, cherchent à dépasser cette fragilité fondamentale.

UELe CNRS est cité parmi les laboratoires qui explorent activement l'imitation learning, positionnant la recherche française dans ce paradigme émergent.

RecherchePaper
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
375Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
Créez avec Lyria 3, notre nouveau modèle de génération musicale
376Google AI Blog 

Créez avec Lyria 3, notre nouveau modèle de génération musicale

Google lance Lyria 3, son nouveau modèle de génération musicale, désormais accessible en préversion payante via l'API Gemini et en test gratuit dans Google AI Studio. Cette mise à disposition marque une étape importante pour les développeurs souhaitant intégrer de la création musicale dans leurs applications. Lyria 3 représente la version la plus avancée de la famille Lyria, offrant des capacités de synthèse audio de haute qualité directement accessibles via API. Lyria est la gamme de modèles IA musicaux de Google DeepMind, concurrente directe d'outils comme Suno ou Udio. Son intégration à l'écosystème Gemini facilite son adoption par les développeurs déjà familiers avec les outils Google.

OutilsActu
1 source
Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole
377MarkTechPost 

Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole

Ce tutoriel implémente un agent d'apprentissage par renforcement basé sur le Deep Q-Learning (DQN) en combinant les bibliothèques JAX, RLax (Google DeepMind), Haiku et Optax, sans recourir à un framework RL préemballé. L'agent est entraîné sur l'environnement CartPole-v1 en construisant manuellement le pipeline complet : réseau de neurones, replay buffer, calcul des erreurs de différence temporelle via RLax, et optimisation par gradient. L'objectif pédagogique est de comprendre comment les primitives RL de RLax s'intègrent dans des pipelines personnalisés avec une architecture MLP à deux couches cachées de 128 neurones et l'optimiseur Adam.

OutilsTuto
1 source
Des employés d'OpenAI et de Google volent au secours d'Anthropic dans le procès du DOD
378TechCrunch AI 

Des employés d'OpenAI et de Google volent au secours d'Anthropic dans le procès du DOD

Plus de 30 employés d'OpenAI et de Google DeepMind ont signé une déclaration de soutien à Anthropic dans son procès contre le Département de la Défense américain (DoD), après que l'agence a qualifié l'entreprise d'IA de "risque pour la chaîne d'approvisionnement". Ce soutien inter-entreprises, rare dans le secteur, témoigne d'une solidarité notable face à une décision gouvernementale jugée préoccupante par l'industrie.

RégulationActu
1 source
Des employés d'OpenAI et de Google déposent un mémoire amicus curiae en soutien à Anthropic contre le gouvernement américain
379Wired AI 

Des employés d'OpenAI et de Google déposent un mémoire amicus curiae en soutien à Anthropic contre le gouvernement américain

Des chercheurs et ingénieurs en IA d'OpenAI et de Google, dont Jeff Dean, directeur scientifique de Google DeepMind, ont déposé une brève amicale en soutien à Anthropic dans son litige contre le gouvernement américain. Cette mobilisation témoigne d'une solidarité rare entre concurrents du secteur face à une menace juridique commune.

ÉthiqueActu
1 source
Google officialise son initiative en robotique industrielle basée sur l'IA – et c'est cette fois pour de sérieux affaires
380AI News 

Google officialise son initiative en robotique industrielle basée sur l'IA – et c'est cette fois pour de sérieux affaires

Google intégre officiellement Intrinsic, une société spécialisée dans l'IA pour la robotique industrielle, en tant que filiale autonome au sein d'Alphabet. L'objectif est de simplifier la programmation des robots industriels grâce à la plateforme Flowstate d'Intrinsic, qui nécessite peu ou pas de codage spécialisé. Cette intégration renforce la capacité de Google à offrir un ensemble complet d'outils pour les fabricants, y compris des modèles d'IA de DeepMind, des logiciels de déploiement d'Intrinsic et une infrastructure cloud de Google Cloud, pour répondre à un marché potentiel de 370 milliards de dollars d'IA robotique généraliste d'ici 2040.

RobotiqueActu
1 source
Créez de nouvelles mondes dans Project Genie avec ces 4 astuces
381Google AI Blog 

Créez de nouvelles mondes dans Project Genie avec ces 4 astuces

Créez de nouveaux mondes avec Project Genie, un outil développé par Google DeepMind, en suivant quatre conseils pour rédiger des prompts efficaces. L'article explique comment utiliser ces astuces pour générer des univers immersifs via l'intelligence artificielle.

OutilsTuto
1 source