Aller au contenu principal
Construction d'IA Agentic de prochaine génération : Un cadre complet pour des agents de temps d'exécution dirigés par un plan cognitif, équipés d'outils de mémoire et de validation
RobotiqueMarkTechPost8sem

Construction d'IA Agentic de prochaine génération : Un cadre complet pour des agents de temps d'exécution dirigés par un plan cognitif, équipés d'outils de mémoire et de validation

Résumé IASource uniqueImpact UE
Source originale ↗·

Cet article présente un cadre complet pour créer des agents intelligents autonomes (agentic AI) de prochaine génération. Il définit des plans cognitifs structurés pour l'identité, les objectifs, la planification, la mémoire, la validation et l'accès aux outils. Ces agents peuvent non seulement répondre, mais aussi planifier, exécuter, valider et améliorer systématiquement leurs sorties. Le même moteur d'exécution peut soutenir plusieurs personnalités et comportements d'agent grâce à la portabilité des plans, rendant ainsi le design modulaire, étendu et pratique pour l'expérimentation de l'agentic AI avancée.

Impact France/UE

Cet article propose un cadre pour construire des agents d'IA autonomes, potentiellement influençant les secteurs de l'automatisation et de l'intelligence artificielle en France et dans l'UE, en améliorant l'efficacité des systèmes basés sur l'IA, tout en respectant les réglementations comme le RGPD et l'AI Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire
1arXiv cs.RO 

Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire

Des chercheurs ont publié sur arXiv un nouveau solveur mathématique baptisé Marble, conçu pour résoudre une classe de problèmes d'optimisation particulièrement délicats en robotique : les programmes quadratiques avec contraintes de complémentarité linéaire, ou LCQPs. Le code est disponible en open source, implémenté en C++ avec des interfaces pour Julia et Python. L'article, référencé arXiv:2604.11991v2, propose une approche fondée sur la théorie des groupes de Lie pour contourner les limitations des solveurs existants sur ce type de problèmes. Les LCQPs interviennent au coeur de nombreux défis en robotique : modéliser le contact entre un bras manipulateur et un objet, ou gérer les phases d'appui et de décollage dans la locomotion. Ces problèmes sont non convexes et mélangent dynamique continue et événements discrets, ce qui les rend très difficiles à résoudre. Très peu de solveurs permettent aujourd'hui d'en calculer de bonnes solutions locales utilisables dans des pipelines de planification. Marble démontre sur une suite de benchmarks standardisés qu'il est compétitif face aux meilleures méthodes actuelles, et qu'il parvient à converger sur plusieurs problèmes robotiques concrets où les approches existantes échouent. L'intuition mathématique centrale du travail est que les contraintes de complémentarité forment un groupe de Lie sous relaxation infinitésimale, une structure géométrique qui permet d'effectuer l'optimisation directement sur la variété correspondante. Les auteurs introduisent une carte de rétraction numériquement stable, ce qui leur permet de paramétrer les contraintes de façon à ce qu'elles soient satisfaites par construction, éliminant les instabilités numériques classiques associées à ce type de contraintes. Cette avancée s'inscrit dans un effort plus large de la communauté robotique pour doter les systèmes autonomes de méthodes de planification capables de gérer des scénarios complexes impliquant contacts et transitions dynamiques, un verrou technique majeur pour les robots manipulateurs et les plateformes de locomotion avancées.

RobotiqueOpinion
1 source
Des blocs de construction assemblés par robots pour une construction plus efficace et durable
2MIT News Robotics 

Des blocs de construction assemblés par robots pour une construction plus efficace et durable

Des chercheurs du MIT ont développé un système de construction basé sur des blocs modulaires tridimensionnels, appelés "voxels", assemblés par des robots sur site. L'étude, publiée dans la revue Automation in Construction, a été menée par Miana Smith, doctorante au Center for Bits and Atoms (CBA) du MIT, en collaboration avec Paul Richard de l'École Polytechnique Fédérale de Lausanne, Alfonso Parra Rubio et Neil Gershenfeld, professeur au MIT et directeur du CBA. L'équipe a d'abord évalué huit designs de voxels existants, puis conçu trois nouveaux modèles basés sur une géométrie en treillis octet, capable de s'auto-aligner mécaniquement pour former des structures rigides sans nécessiter de nombreux connecteurs. Pour automatiser l'assemblage, les chercheurs ont développé les MILAbots, des robots qui se déplacent comme des chenilles sur la structure en cours de construction, en ancrant et étendant leur corps, et qui placent les voxels en place à l'aide de pinces avant de les verrouiller par emboîtement. Les résultats préliminaires sont saisissants sur le plan environnemental : ce système pourrait réduire le carbone incorporé, c'est-à-dire l'ensemble des émissions liées au cycle de vie des matériaux, de jusqu'à 82 % par rapport aux techniques courantes comme l'impression 3D en béton, le béton préfabriqué modulaire ou la charpente métallique. Le système serait également compétitif en termes de coût et de délais de construction. Le choix des matériaux utilisés pour fabriquer les voxels joue cependant un rôle déterminant dans leur bilan carbone et leur prix. Si ces chiffres se confirment à plus grande échelle, ce type d'approche pourrait transformer radicalement la manière dont on construit des bâtiments, un secteur qui représente aujourd'hui environ 40 % des émissions mondiales de CO2. Le CBA développe les voxels depuis plusieurs années, jusqu'ici appliqués à des domaines à haute performance comme l'aéronautique et le spatial, en partenariat avec la NASA, Airbus et Boeing, notamment pour des ailes d'avion, des pales d'éoliennes et des structures spatiales. L'idée centrale est d'importer dans la construction la rigueur d'ingénierie de l'industrie aéronautique. "Pourquoi ne pas construire des bâtiments aussi efficacement qu'on construit des avions ?" résume Neil Gershenfeld. Des questions essentielles restent encore à résoudre avant un déploiement à grande échelle : la robustesse à long terme, la résistance au feu, et la montée en puissance du système de robotique. Mais selon les chercheurs, ces premiers résultats valident la faisabilité de la fabrication numérique appliquée au bâtiment, un champ qui pourrait devenir central dans la course mondiale à la décarbonation de la construction.

UEL'implication de l'EPFL de Lausanne et les objectifs de décarbonation du bâtiment (40 % des émissions mondiales) s'inscrivent dans les priorités du Pacte Vert européen, bien que le système reste au stade de la recherche préliminaire.

RobotiqueActu
1 source
Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
3MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source
MOMO : un cadre pour l'apprentissage et l'adaptation des compétences robotiques, physiques, verbales et graphiques
4arXiv cs.RO 

MOMO : un cadre pour l'apprentissage et l'adaptation des compétences robotiques, physiques, verbales et graphiques

Des chercheurs ont présenté MOMO, un framework permettant à des utilisateurs non experts de programmer et d'adapter des robots industriels sans écrire une seule ligne de code. Le système repose sur trois modalités d'interaction complémentaires : la guidance physique directe (kinesthetic teaching), les commandes en langage naturel, et une interface web graphique permettant de visualiser les trajectoires, ajuster des paramètres et déplacer des points de passage par glisser-déposer. La validation a eu lieu sur un robot industriel à 7 degrés de liberté à contrôle par couple, présenté lors du salon Automatica 2025, l'une des principales foires mondiales de robotique et d'automatisation. Ce que MOMO change concrètement, c'est la barrière entre l'opérateur et la machine. Jusqu'ici, modifier le comportement d'un robot industriel nécessitait des compétences en programmation ou l'intervention d'un intégrateur spécialisé. Avec ce framework, un technicien peut corriger une trajectoire en guidant physiquement le bras, demander verbalement une modification sémantique ("sois plus lent sur le bord droit"), ou retoucher visuellement la courbe dans un navigateur. L'architecture LLM adoptée est dite "à base d'outils" : le modèle de langage ne génère pas de code libre, mais sélectionne et paramètre des fonctions prédéfinies, ce qui limite les risques d'erreurs et de comportements imprévus sur un vrai site de production. L'article s'inscrit dans un effort de recherche plus large pour démocratiser la robotique flexible, particulièrement dans un contexte de pénurie de compétences techniques et de demande croissante de personnalisation en usine. Les cinq composants du système, détection d'intention humaine par énergie, LLM outillé, Kernelized Movement Primitives pour l'encodage du mouvement, Virtual Fixtures probabilistes et contrôle ergodique pour la finition de surface, forment une architecture modulaire. Le fait que la même approche LLM fonctionne aussi bien pour les mouvements classiques que pour le contrôle ergodique (utilisé en polissage ou peinture de surface) suggère une généralisation possible à un large spectre de tâches industrielles. Les prochaines étapes pourraient inclure des tests en conditions réelles de production et une éventuelle commercialisation via des partenariats industriels.

UELa démocratisation de la programmation robotique via interfaces multimodales pourrait bénéficier aux PME manufacturières européennes confrontées à une pénurie de compétences en automatisation industrielle.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour