RechercheThe Decoder · 13 juin 2026, 20:00· 1 min de lecture

Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît

Résumé IASource uniqueImpact UE Take éditorial

Un nouveau modèle d'intelligence artificielle baptisé « Count Anything » vient d'être présenté comme le premier système capable de dénombrer des objets dans n'importe quel type d'image, qu'il s'agisse de foules humaines, de cellules observées au microscope ou de tout autre sujet visuel. Son fonctionnement repose sur une simple invite textuelle : l'utilisateur décrit ce qu'il souhaite compter, et le modèle s'exécute. Lors de tests comparatifs, Count Anything divise par deux le taux d'erreur par rapport aux systèmes précédents, ce qui représente un bond significatif en termes de précision.

Les applications potentielles couvrent des secteurs très différents. En médecine, compter automatiquement des cellules ou des bactéries sur des échantillons accélère le diagnostic et réduit la charge des techniciens de laboratoire. En gestion des foules, les organisateurs d'événements ou les forces de l'ordre pourraient estimer des effectifs en temps réel à partir d'une simple photo. Tout domaine nécessitant un inventaire visuel rapide, de l'agriculture au contrôle qualité industriel en passant par l'écologie, pourrait bénéficier d'un tel outil universel.

Le comptage d'objets en vision par ordinateur est un problème ancien et difficile : les approches traditionnelles nécessitaient des modèles entraînés spécifiquement pour chaque catégorie d'objets. L'ambition de Count Anything est de briser cette fragmentation avec un modèle généraliste piloté par le langage naturel, dans la lignée des grands modèles multimodaux comme GPT-4V ou Gemini. Des limites subsistent néanmoins : le modèle peine encore face à des scènes très denses ou lorsque les termes de la requête restent ambigus, deux points que de futures versions devront améliorer.

💬 L'analyse de Mathieu

Le comptage visuel, c'est le genre de tâche basique que les grands modèles multimodaux gèrent encore mal, et ça bloque des applications médicales ou industrielles pourtant simples à imaginer. Un modèle généraliste piloté par texte qui divise le taux d'erreur par deux, ça mérite mieux qu'un simple communiqué de recherche. J'attends de voir ça tourner sur des images de labo en conditions réelles, pas juste sur des benchmarks.

Dans nos dossiers

Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Meta Engineering ML

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel. L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications. Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

RecherchePaper

1 source

2VentureBeat AI

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper

1 source

3The Information AI

L'évaluation des modèles devient encore plus difficile

Ce succès pourrait sembler technique, mais il touche au cœur même de la course à l'intelligence artificielle : comment savoir si un modèle est réellement performant. Lors de la conférence ICML, qui s'est tenue la semaine dernière, plusieurs chercheurs ont souligné une difficulté grandissante. À mesure que les modèles progressent, ils saturent rapidement les référentiels d'évaluation existants, obligeant la communauté scientifique à concevoir sans cesse de nouveaux tests plus exigeants. Mais un problème plus insidieux se profile : certains modèles sont désormais capables de travailler sur une tâche pendant des heures, voire des jours entiers. Noam Brown, chercheur chez OpenAI, a averti lors d'un panel à l'ICML que l'on s'approche rapidement d'un point où les modèles pourront fonctionner "pendant des semaines, voire indéfiniment". Cette évolution pose un problème pratique majeur : si un modèle met des jours à accomplir une tâche, évaluer sa performance prend tout autant de temps. Brown a précisé que le processus de vérification pourrait bientôt durer plus longtemps que l'entraînement du modèle lui-même. Pour des applications comme la découverte de médicaments, un modèle pourrait passer des semaines à mener des expériences et à analyser les résultats obtenus, un scénario où cette autonomie prolongée devient un atout plutôt qu'un obstacle. Mais du point de vue de la recherche, cela complique considérablement le travail des équipes chargées de mesurer les progrès réels de l'IA. Ce constat s'inscrit dans un débat plus large sur la manière de mesurer le progrès en intelligence artificielle à l'heure où les capacités des modèles dépassent les outils censés les évaluer. Les benchmarks traditionnels, conçus pour des tâches courtes et ponctuelles, deviennent obsolètes face à des systèmes capables d'autonomie prolongée sur des missions complexes. Ce décalage risque de ralentir le rythme du développement des modèles, puisque les équipes de recherche devront attendre plus longtemps avant de pouvoir juger si une nouvelle version constitue réellement une amélioration. La question qui se pose désormais est de savoir comment concevoir des méthodes d'évaluation adaptées à des IA de plus en plus autonomes, sans pour autant freiner l'innovation.

💬 Les benchmarks classiques mesuraient des minutes de raisonnement, pas des semaines d'autonomie, et c'est tout le système d'évaluation qui craque. Ce que dit Noam Brown est limpide : bientôt, vérifier un modèle prendra plus de temps que l'entraîner. Et ça change la donne différemment selon le métier : un atout pour la découverte de médicaments qui a le temps devant elle, un vrai casse-tête pour les labos qui veulent itérer vite sur leurs versions.

RecherchePaper

1 source

4The Decoder

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse. Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières. SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic