RobotiqueOpenAI Blog65sem· 1 min de lecture

Complément au carton du système GPT-4o pour la génération d'images

4o image generation, une méthode nettement plus performante que les modèles DALL·E 3 précédents, permet de produire des images photorealistes à partir d'images d'entrée et de les transformer.

Impact France/UE

4o image generation, grâce à ses performances supérieures à DALL·E 3, offre aux entreprises européennes comme Capgemini et BNP Paribas des outils pour générer des images photorealistes, influençant potentiellement le secteur de la publicité et du marketing, tout en évoluant dans un paysage réglementaire complexe post-AI Act et RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1ZDNET FR

ZD Tech : Niantic utilise les 30 milliards d'images de Pokémon Go pour créer un système de navigation pour les robots

Niantic, le studio derrière Pokémon Go, a exploité les 30 milliards d'images collectées par les joueurs dans le monde réel pour entraîner un système de navigation destiné aux robots. Ce projet révèle que la chasse aux Pokémon était en réalité un vaste programme de cartographie du monde physique à l'échelle industrielle. Ces données visuelles massives permettent désormais à des robots de se repérer et de se déplacer dans des environnements réels.

RobotiqueOpinion

1 source

2arXiv cs.RO

Système ouvert de bout en bout pour la navigation autonome de robots en conditions réelles

Des chercheurs ont présenté un système embarqué léger et à architecture ouverte permettant à un robot quadrupède de naviguer de manière autonome dans des environnements réels, inconnus et dynamiques, sans apprentissage préalable spécifique à ces lieux. Déployé sur un robot Unitree Go2 à quatre pattes, le système atteint un taux de réussite supérieur à 88 % dans plusieurs environnements intérieurs testés. Il repose sur ROS2 comme middleware de communication entre les différents composants embarqués, et accepte des instructions de navigation formulées en langage naturel. Les capteurs du robot alimentent en continu un système de localisation et de cartographie, qui construit des graphes de scènes hiérarchiques enrichis de sémantique ouverte, c'est-à-dire capables d'identifier des objets sans liste prédéfinie. Un planificateur basé sur un grand modèle de langage (LLM) exploite ces graphes pour générer et adapter des plans d'action en temps réel, au fur et à mesure que la scène évolue. Ce résultat est significatif car la navigation autonome en environnement réel reste un problème difficile que la majorité des systèmes actuels ne résolvent qu'en simulation, là où les conditions sont contrôlées et les incertitudes absentes. Le fait qu'un robot puisse interpréter une consigne en langue naturelle, construire une représentation sémantique de son environnement à la volée et s'y adapter dynamiquement ouvre la voie à des déploiements pratiques dans des bâtiments industriels, des entrepôts, des hôpitaux ou des espaces publics, sans configuration manuelle préalable. La robotique autonome bute depuis des années sur quatre obstacles fondamentaux : la perception imparfaite, l'observabilité partielle, l'incertitude de localisation et les contraintes de sécurité. L'intégration des LLM comme couche de planification symbolique, combinée à une cartographie sémantique continue, représente une approche émergente qui capitalise sur les progrès récents en traitement du langage naturel et en vision par ordinateur. Ce travail s'inscrit dans une tendance plus large visant à doter les robots de capacités de raisonnement général plutôt que de comportements pré-programmés, un chantier sur lequel rivalisent des équipes académiques et des acteurs industriels comme Boston Dynamics, Figure AI ou Agility Robotics.

RobotiqueActu

1 source

3OpenAI Blog

Présentation de l'environnement de déploiement étaté pour les agents sur Amazon Bedrock

L'environnement de exécution stataique pour les agents d'Amazon Bedrock introduit une orchestration persistante, une mémoire et une exécution sécurisée pour les flux de travail d'IA multi-étapes alimentés par OpenAI.

UEAucun impact direct — Cet article concerne une nouvelle fonctionnalité d'Amazon Bedrock, une plateforme d'IA, sans spécification d'applications ou implications pour des entreprises françaises ou européennes, ni référence à des lois spécifiques comme le RGPD ou l'AI Act.

RobotiqueOutil

1 source

4arXiv cs.RO

Libra-VLA : un double système asynchrone pour équilibrer l'apprentissage du global au précis

Des chercheurs ont présenté Libra-VLA, une nouvelle architecture de modèle robotique de type Vision-Langage-Action (VLA) capable de traduire des instructions en langage naturel en mouvements physiques précis. Publiée sur arXiv (référence 2604.24921), l'étude propose une rupture avec les approches dominantes qui mappent directement les commandes linguistiques vers des signaux moteurs à haute fréquence dans une logique plate et non hiérarchisée. Libra-VLA introduit à la place un système à deux niveaux : un Planificateur Sémantique qui prédit des tokens d'action discrets capturant l'intention directionnelle générale, et un Raffineur d'Action qui s'appuie sur cette intention grossière pour générer des mouvements continus à haute fréquence permettant un alignement de précision. Les deux modules s'exécutent de manière asynchrone, chacun opérant à son propre rythme. Ce découplage hiérarchique répond à un problème fondamental des robots manipulateurs actuels : le fossé entre la sémantique de haut niveau et l'actuation motrice. En forçant un seul modèle à simultanément interpréter une instruction comme "saisir l'objet rouge" et générer des milliers de commandes moteur par seconde, les architectures monolithiques imposent une charge représentationnelle excessive. Libra-VLA allège cette charge en la répartissant intelligemment entre deux sous-systèmes spécialisés, rendant l'entraînement plus stable et plus efficace. L'approche s'avère également plus résiliente et plus réactive dans des scénarios de manipulation en monde ouvert, là où les imprévus sont nombreux. L'analyse empirique centrale de l'équipe révèle un résultat surprenant : les performances suivent une courbe en U inversé selon la granularité de la décomposition des actions, avec un pic exactement lorsque la difficulté d'apprentissage est équilibrée entre les deux sous-systèmes. Ce concept d'"équilibre d'apprentissage" ouvre une nouvelle direction de recherche pour calibrer les architectures VLA. Le domaine de la robotique généraliste est en pleine effervescence, porté par des travaux récents de Google, Physical Intelligence et Figure AI. Libra-VLA s'inscrit dans cette course à des modèles capables de manipuler des objets variés dans des environnements non contrôlés, une condition sine qua non pour des robots véritablement utiles hors des laboratoires.

RobotiqueOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic