RobotiqueOpenAI Blog55sem

Réfléchir visuellement

Résumé IASource uniqueImpact UE

L'o3 et l'o4-mini d'OpenAI représentent une avancée majeure dans la perception visuelle grâce à leur capacité à raisonner avec des images dans leur processus de pensée. Cette innovation permet une meilleure compréhension et interprétation des images.

Impact France/UE

L'impact concret de cet article pour la France/UE réside dans le potentiel de transformer les secteurs de la surveillance des frontières, de la cybersécurité et des services de vérification d'images en renforçant les capacités de traitement visuel des systèmes alimentés par l'IA, tout en respectant les réglementations telles que le RGPD.

Dans nos dossiers

OpenAI

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Chef de la division matériel et robotique d'OpenAI quitte suite à un accord militaire jugé trop peu réfléchi par elle

Caitlin Kalinowski, directrice des robotiques chez OpenAI, quitte l'entreprise en raison d'un accord avec le Pentagone, critiquant le manque de délibération sur le respect des libertés et l'autonomie létale.

RobotiqueActu

1 source

2HuggingFace Blog

L'unité Cosmos Reason 2 d'NVIDIA apporte une raison avancée pour les intelligences artificielles physiques

NVIDIA présente Cosmos Reason 2, une technologie d'IA physique avancée offrant une raisonnement complexe et des capacités d'adaptation améliorées pour les robots et les systèmes de réalité augmentée. Cette innovation vise à permettre aux machines de mieux comprendre et interagir avec leur environnement physique.

RobotiqueActu

1 source

3arXiv cs.RO

VISION-SLS : contrôle sûr par représentations visuelles apprises via synthèse système

Des chercheurs ont publié VISION-SLS, une méthode de contrôle robotique capable de piloter un robot en temps réel à partir d'images RGB haute résolution tout en garantissant formellement la sécurité du comportement. La méthode a été testée sur plusieurs systèmes simulés : une voiture à 4 dimensions d'état, un quadrirotor à 10 dimensions, et un humanoïde à 59 dimensions opérant dans des conditions de visibilité partielle, le tout avec des flux vidéo d'au moins 512 x 512 pixels. Elle a également été validée sur un véritable véhicule terrestre contrôlé uniquement par ses caméras embarquées, surpassant les approches concurrentes en termes de taux de sécurité et de temps de calcul. Le code source est disponible sur GitHub. Ce qui distingue VISION-SLS des approches existantes, c'est sa capacité à combiner apprentissage profond et garanties formelles de sécurité, deux mondes qui s'ignoraient largement jusqu'ici. En robotique autonome, un système peut prendre de bonnes décisions en moyenne tout en échouant catastrophiquement dans des cas limites. VISION-SLS résout ce problème en construisant des bornes d'erreur calibrées empiriquement sur la représentation visuelle apprise, puis en intégrant ces incertitudes directement dans l'optimisation de la politique de contrôle via un cadre appelé System Level Synthesis (SLS). Résultat : le robot adopte un comportement actif de réduction d'incertitude, cherchant à mieux se localiser, tout en restant dans des zones certifiées sûres. Le défi fondamental que cherche à résoudre VISION-SLS est vieux comme la robotique moderne : comment piloter un système physique depuis des capteurs imparfaits, avec des dynamiques non linéaires, sans garanties de collision ? Les méthodes de contrôle classiques exigent un état complet et précis du système ; les méthodes d'apprentissage par renforcement offrent de bonnes performances moyennes mais sans garanties. SLS est un cadre de théorie du contrôle qui permet de concevoir des politiques robustes avec des garanties mathématiques, mais il était jusqu'ici inapplicable à des entrées visuelles haute dimension. VISION-SLS lève cet obstacle en apprenant une représentation compacte des images avec des bornes d'erreur exploitables, et en développant un solveur original basé sur la programmation convexe séquentielle couplée à des récursions de Riccati pour rendre le tout calculable en temps réel.

RobotiqueOpinion

1 source

4TechCrunch AI

Memories.ai développe une couche de mémoire visuelle pour les wearables et la robotique

Memories.ai développe un grand modèle de mémoire visuelle capable d'indexer et de retrouver des souvenirs enregistrés en vidéo pour l'IA physique. Cette technologie vise à constituer la couche de mémoire visuelle pour les wearables et la robotique. L'objectif est de permettre aux appareils physiques dotés d'IA de mémoriser et rappeler des expériences visuelles de manière efficace.

RobotiqueActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour