Détection d'objets avec Amazon Nova 2 Lite
Amazon a intégré à son service Bedrock un nouveau modèle multimodal, Nova 2 Lite, capable de détecter des objets dans des images via de simples instructions en langage naturel. Concrètement, il suffit de spécifier les éléments à repérer, une "voiture", une "personne", un "défaut", et le modèle retourne les coordonnées précises de chaque objet sous forme de JSON structuré, avec des boîtes englobantes normalisées sur une échelle de 0 à 1 000. Le déploiement repose sur trois services AWS : Bedrock pour l'inférence, Lambda pour l'exécution serverless, et API Gateway pour exposer l'endpoint. Le coût est particulièrement bas : 0,0003 dollar pour mille tokens en entrée et 0,0025 dollar pour mille tokens en sortie, ce qui revient à environ 5,69 dollars pour 10 000 images. Une intégration complète prend entre 30 et 45 minutes, sans aucun entraînement de modèle nécessaire.
L'intérêt principal est d'éliminer la barrière d'entrée de la vision par ordinateur traditionnelle. Jusqu'ici, mettre en place un système de détection d'objets exigeait des pipelines de données, une infrastructure d'entraînement, des ressources de calcul significatives et souvent une équipe dédiée de data scientists, un investissement prohibitif pour les petites structures. Nova 2 Lite rend cette capacité accessible à n'importe quel développeur Python maîtrisant boto3, sans expertise en machine learning. Les cas d'usage couverts sont concrets : contrôle qualité en fabrication pour repérer des défauts sur une chaîne de production, comptage de cultures en agriculture, suivi de colis en logistique. La précision repose sur le prompt engineering, la façon dont on formule la demande au modèle conditionne directement la qualité des détections.
Cette annonce s'inscrit dans une tendance de fond : les grands modèles de fondation multimodaux absorbent progressivement des tâches qui relevaient auparavant de pipelines spécialisés entraînés sur mesure. Amazon positionne Nova 2 Lite comme une alternative crédible aux solutions de computer vision classiques comme AWS Rekognition ou des bibliothèques comme YOLO, en misant sur la flexibilité du langage naturel plutôt que sur des catégories prédéfinies. Le fait que les coordonnées soient retournées dans un format standardisé et que l'architecture soit entièrement serverless facilite l'intégration dans des workflows existants. La prochaine étape logique pour les équipes adoptant cette approche sera d'évaluer les limites de précision face à des cas complexes, occlusions, objets de petite taille, scènes encombrées, là où les modèles spécialisés conservent encore un avantage.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



