Recherche

50 sur 671 articles

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude

Les agents de codage dopés à l'intelligence artificielle, comme Claude Code d'Anthropic ou Codex d'OpenAI, souffrent d'un angle mort précis : ils localisent correctement le fichier contenant un bug, mais ratent la majorité des lignes critiques à l'intérieur de ce fichier. C'est ce que révèle SWE-Explore, un nouveau benchmark conçu spécifiquement pour évaluer la phase d'exploration du code, c'est-à-dire la recherche et la navigation dans une base de code, séparément de la phase de correction proprement dite. C'est une première dans l'évaluation des outils de développement automatisé. Ce découplage entre exploration et réparation change la façon d'interpréter les performances des agents de codage. Jusqu'ici, les benchmarks dominants comme SWE-bench mesuraient uniquement le résultat final : le bug est-il corrigé ou non ? SWE-Explore montre qu'un agent peut échouer non pas parce qu'il ne sait pas corriger le code, mais parce qu'il n'a pas identifié les bonnes lignes à modifier. Sans contexte suffisant, même le meilleur algorithme de correction produit un patch inutile. Les développeurs qui s'appuient sur ces outils en production s'exposent donc à des corrections en apparence valides mais ciblant les mauvaises sections. Ce travail s'inscrit dans une dynamique de remise en question des métriques utilisées pour comparer les agents de développement. L'industrie investit massivement dans ces outils, GitHub Copilot, Cursor, Devin, et les entreprises les vendent sur des taux de résolution de tickets. SWE-Explore suggère que ces chiffres masquent une faiblesse structurelle en amont : la compréhension fine d'une base de code existante reste un problème ouvert, et le résoudre conditionne tout le reste.

UELes développeurs français et européens qui s'appuient sur des agents de codage IA en production s'exposent à des corrections en apparence valides mais ciblant les mauvaises sections de code, une limite structurelle à évaluer avant tout usage professionnel critique.

Recherche

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude

Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît

SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

World Pilot : piloter les modèles VLA avec des a priori monde-action

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Les agents IA ancrés dans le monde réel

Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research

Les agents autonomes face au défi entre intention et exécution