Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît
Un nouveau modèle d'intelligence artificielle baptisé « Count Anything » vient d'être présenté comme le premier système capable de dénombrer des objets dans n'importe quel type d'image, qu'il s'agisse de foules humaines, de cellules observées au microscope ou de tout autre sujet visuel. Son fonctionnement repose sur une simple invite textuelle : l'utilisateur décrit ce qu'il souhaite compter, et le modèle s'exécute. Lors de tests comparatifs, Count Anything divise par deux le taux d'erreur par rapport aux systèmes précédents, ce qui représente un bond significatif en termes de précision.
Les applications potentielles couvrent des secteurs très différents. En médecine, compter automatiquement des cellules ou des bactéries sur des échantillons accélère le diagnostic et réduit la charge des techniciens de laboratoire. En gestion des foules, les organisateurs d'événements ou les forces de l'ordre pourraient estimer des effectifs en temps réel à partir d'une simple photo. Tout domaine nécessitant un inventaire visuel rapide, de l'agriculture au contrôle qualité industriel en passant par l'écologie, pourrait bénéficier d'un tel outil universel.
Le comptage d'objets en vision par ordinateur est un problème ancien et difficile : les approches traditionnelles nécessitaient des modèles entraînés spécifiquement pour chaque catégorie d'objets. L'ambition de Count Anything est de briser cette fragmentation avec un modèle généraliste piloté par le langage naturel, dans la lignée des grands modèles multimodaux comme GPT-4V ou Gemini. Des limites subsistent néanmoins : le modèle peine encore face à des scènes très denses ou lorsque les termes de la requête restent ambigus, deux points que de futures versions devront améliorer.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




