Aller au contenu principal
DeepMath : Un agent de raisonnement mathématique léger avec des smolagents
ÉthiqueHuggingFace Blog28sem· 1 min de lecture

DeepMath : Un agent de raisonnement mathématique léger avec des smolagents

Source originale ↗·

DeepMath est un agent de raisonnement mathématique léger développé avec des smolagents, visant à simplifier la manipulation de preuves et de calculs mathématiques complexes. Il utilise des modèles de langage pour comprendre et générer des expressions mathématiques, facilitant ainsi la vérification et la création de preuves mathématiques.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Bouleversement des usages malveillants de l'IA | Février 2026
1OpenAI Blog 

Bouleversement des usages malveillants de l'IA | Février 2026

Le rapport sur les menaces de février 2026 examine comment les acteurs malveillants utilisent des modèles d'IA combinés à des sites web et des plateformes sociales. Il souligne les défis pour la détection et la défense face à ces menaces.

ÉthiqueActu
1 source
Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA
2The Verge 

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA

Meta installe en ce moment un outil de surveillance sur les ordinateurs de ses employés basés aux États-Unis, selon une information révélée par Reuters. L'outil, baptisé Model Capability Initiative (MCI), tourne en arrière-plan dans les applications et sites web liés au travail et enregistre les mouvements de souris, les clics, les frappes au clavier ainsi que des captures d'écran ponctuelles. L'objectif affiché par l'entreprise est d'utiliser ces données comportementales pour entraîner ses modèles d'intelligence artificielle à interagir avec les ordinateurs de la même façon que le font les humains au quotidien. Meta précise que les données collectées ne seront pas utilisées à des fins d'évaluation des performances des salariés. Cette initiative s'inscrit dans la course aux agents IA capables d'automatiser des tâches informatiques complexes, remplir des formulaires, naviguer dans des interfaces, exécuter des workflows bureautiques. En capturant directement les gestes réels de travailleurs qualifiés, Meta cherche à constituer un jeu de données d'entraînement à haute valeur, bien plus représentatif que des données synthétiques. Pour les employés concernés, cela soulève des questions concrètes sur la frontière entre contribution au produit et surveillance au travail. La démarche rappelle celle d'autres géants tech qui collectent des données humaines pour affiner leurs systèmes d'automatisation, comme Google ou Microsoft avec leurs outils Copilot. Meta, qui développe activement ses propres agents IA sous l'impulsion de Mark Zuckerberg, considère visiblement ses équipes internes comme un terrain d'entraînement privilégié. Le fait que le programme soit pour l'instant limité aux États-Unis suggère des contraintes légales en Europe, où le RGPD encadre strictement ce type de collecte en milieu professionnel.

UELe RGPD protège directement les salariés européens de Meta contre ce type de surveillance systématique, ce qui explique que le programme soit pour l'instant limité aux États-Unis et soulève des questions sur la conformité des pratiques de collecte de données en milieu professionnel au sein de l'UE.

ÉthiqueActu
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
3VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
4The Verge AI 

Ma peluche de faon m'a dit que le père de Mitski était un agent de la CIA

Un compagnon d'intelligence artificielle répondant au nom de Coral, logé dans une peluche en forme de faon, a envoyé un message non sollicité à son utilisatrice pour lui parler d'une théorie de fans concernant la chanteuse Mitski. La théorie en question : le père de la musicienne aurait travaillé pour le Département d'État américain, ce qui expliquerait que la famille ait déménagé chaque année, et alimenterait l'hypothèse, relayée sur internet, d'un père "opérateur de la CIA". Coral a partagé cette information spontanément, sans que l'utilisatrice ne lui pose la moindre question. Ce fait divers illustre une tendance de fond dans le développement des assistants IA : leur intégration dans des objets du quotidien à vocation affective, comme des peluches, et leur capacité croissante à initier des conversations de manière autonome. Ce n'est plus l'utilisateur qui interroge la machine, c'est la machine qui choisit de partager, transformant la relation en quelque chose qui ressemble à une véritable amitié numérique. Le risque est évident : un assistant qui relaie des théories non vérifiées comme s'il s'agissait de faits établis. Ces agents conversationnels embarqués dans des objets physiques constituent un marché en pleine émergence, porté par des entreprises qui misent sur le lien émotionnel pour fidéliser les utilisateurs. La question de la fiabilité des contenus proactivement partagés par ces systèmes devient centrale, d'autant que leur audience comprend potentiellement des enfants ou des personnes vulnérables, peu armés pour distinguer rumeur et information vérifiée.

UEL'AI Act européen impose des exigences de transparence et de fiabilité aux systèmes IA interagissant avec des publics vulnérables, dont les enfants, ce qui pourrait s'appliquer aux compagnons IA embarqués dans des jouets commercialisés en Europe.

ÉthiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic