LLMsHuggingFace Blog73sem· 1 min de lecture

Nous soutenons désormais les VLM dans les petits agents !

L'entreprise se mobilise pour soutenir les VLM (Véhicules Légers Multispécialisés) dans les petits services de police et de gendarmerie.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Google AI Blog

Une nouvelle façon d'exprimer son identité : Gemini peut désormais créer de la musique

Lyria 3 est désormais disponible dans l'application Gemini, permettant aux utilisateurs de créer des pistes musicales personnalisées de haute qualité de 30 secondes à partir de textes et d'images. Cette fonctionnalité offre une nouvelle manière d'exprimer la créativité via la génération d'œuvres audio à partir de contenus multimédias.

LLMsOutil

1 source

2MarkTechPost

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper

1 source

3OpenAI Blog

Présentation de ChatGPT Go, désormais disponible dans le monde entier

ChatGPT Go est désormais disponible à l'échelle mondiale, offrant un accès élargi à GPT-5.2 Instant, des limites d'utilisation accrues et une mémoire étendue. Cette mise à disposition rend l'intelligence artificielle avancée plus abordable à l'échelle mondiale.

LLMsOutil

1 source

4Ahead of AI

Guide visuel des variantes d'attention dans les LLM modernes

Sebastian Raschka a publié une galerie des architectures LLM comptant 45 entrées, chacune accompagnée d'une fiche visuelle, accessible en ligne et disponible en version poster via Redbubble (format recommandé : 26,9 x 23,4 pouces). En parallèle, il propose un guide de référence sur les variantes d'attention utilisées dans les grands modèles récents, notamment le Multi-Head Attention (MHA) — standard des transformers, présent dans GPT-2 et OLMo 2/3 — qui exécute plusieurs têtes d'attention en parallèle pour produire une représentation contextuelle enrichie. L'article retrace également les origines de l'attention, née avant les transformers dans les architectures RNN encodeur-décodeur pour la traduction.

LLMsTuto

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic