Aller au contenu principal
L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle
OutilsAWS ML Blog1j· 2 min de lecture

L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle

Source originale ↗·

Vexcel, l'un des plus grands fournisseurs mondiaux d'imagerie aérienne, opère une flotte d'avions dédiés qui collecte des données haute résolution dans plus de 45 pays et territoires. Son catalogue comprend des orthomosaïques, des vues obliques à 360 degrés et des modèles d'élévation représentant des milliards de pixels. En partenariat avec le AWS Generative AI Innovation Center (GenAIIC), l'entreprise a développé une architecture de recherche sémantique reposant sur des embeddings multimodaux, la génération automatique de légendes par un grand modèle de langage, et une recherche vectorielle via Amazon Bedrock et Amazon OpenSearch Serverless. L'objectif : permettre à un utilisateur d'interroger cette immense bibliothèque d'images en langage naturel, sans entraîner de modèle de vision par ordinateur pour chaque nouveau cas d'usage. Les tests ont montré qu'Amazon Nova Multimodal Embeddings obtenait les meilleurs scores F1 sur l'ensemble des requêtes de référence évaluées. Ce système a depuis évolué en Vexcel Intelligence, un produit actuellement en phase de prévisualisation.

L'enjeu est considérable pour tous les secteurs qui s'appuient sur des données géospatiales : assurance, immobilier, administration publique, infrastructures et agriculture. Jusqu'ici, localiser des piscines dans un quartier résidentiel, cartographier des panneaux solaires à l'échelle d'une ville ou détecter des graffitis sur des entrepôts obligeait soit à examiner manuellement chaque tuile d'image, soit à entraîner un modèle de vision dédié pour chaque question, avec les données étiquetées, le temps d'ingénierie et les cycles de ré-entraînement que cela implique. La recherche sémantique par vecteurs supprime cette étape : une requête en langage naturel produit des résultats en quelques secondes, sans redévelopper de pipeline spécifique pour chaque nouveau besoin client. C'est un changement de paradigme opérationnel qui compresse des semaines de travail en une simple interrogation.

La recherche géospatiale pose des défis structurels absents de la recherche d'images classique : une même zone est représentée par plusieurs vues simultanées (nadir, oblique nord, est, sud, ouest), et les requêtes portent sur des objets physiques ancrés dans l'espace réel plutôt que sur des photographies isolées. Vexcel avait exploré trois approches préalables avant ce partenariat, dont un pipeline d'embeddings multimodaux tuilés avec légendes LLM qui montrait des résultats prometteurs mais soulevait des questions clés sur le choix du modèle, la fusion des vues multiples et la réelle valeur ajoutée des légendes textuelles. L'équipe a construit une méthodologie d'évaluation ancrée dans les données OpenStreetMap pour comparer quatre variables : modèle d'embedding, stratégie de fusion, approche de légendage et méthode de recherche. Vexcel Intelligence, désormais en prévisualisation, concrétise ces travaux et transforme des décennies de collecte aérienne en une base de connaissance interrogeable à la demande.

Impact France/UE

Les assureurs, collectivités et acteurs de l'immobilier européens utilisant des données géospatiales aériennes pourraient adopter Vexcel Intelligence pour remplacer des pipelines de vision par ordinateur coûteux par une simple recherche en langage naturel.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
1AWS ML Blog 

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
2AWS ML Blog 

Simulateur d'outils : tests à grande échelle pour agents IA

Amazon Web Services a lancé ToolSimulator, un framework de simulation d'outils propulsé par des LLM, intégré au SDK Strands Evals. Disponible dès maintenant, cet outil permet aux développeurs de tester en profondeur les agents IA qui dépendent d'API externes, de bases de données ou de services MCP, sans jamais déclencher d'appels réels. Concrètement, un développeur qui teste un agent de réservation de vols peut simuler des recherches, des confirmations et des annulations avec des données réalistes et cohérentes, sans envoyer de vraie requête à une compagnie aérienne. L'installation se résume à une commande pip install strands-evals, et aucun compte AWS n'est requis pour exécuter les simulations localement. L'enjeu est considérable pour les équipes qui industrialisent des agents IA. Tester contre des API en production expose des données personnelles, risque de déclencher des actions irréversibles comme l'envoi d'e-mails ou la modification de bases de données, et se heurte aux limites de débit qui rendent impraticable le passage à l'échelle sur des centaines de scénarios de test. Les mocks statiques, l'alternative habituelle, s'avèrent insuffisants dès qu'un agent enchaîne plusieurs appels dont le deuxième dépend de l'état laissé par le premier. ToolSimulator résout ce problème en maintenant un état partagé cohérent entre les appels successifs : une écriture affecte les lectures suivantes, exactement comme dans un système réel. Les schémas de réponse peuvent être imposés via des modèles Pydantic, ce qui garantit la validité structurelle des sorties simulées et permet de détecter les bugs d'intégration tôt dans le cycle de développement. Ce lancement s'inscrit dans la montée en maturité de l'outillage autour des agents IA autonomes, un segment en pleine explosion depuis l'essor des modèles capables d'utiliser des outils externes. AWS positionne Strands Evals comme une réponse aux besoins des équipes qui passent du prototype à la production : l'absence de cadre de test robuste est aujourd'hui l'un des principaux freins à ce passage. ToolSimulator rejoint un écosystème d'évaluation d'agents qui comprend déjà des solutions comme LangSmith d'Anthropic ou les environnements de sandbox d'OpenAI, mais mise sur l'intégration native avec le SDK Strands et la génération adaptative de réponses par LLM plutôt que sur des templates figés. La prochaine étape naturelle sera d'étendre ces capacités aux workflows MCP complexes et aux agents multi-modaux, à mesure que les cas d'usage en production se diversifient.

OutilsOutil
1 source
De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands
3AWS ML Blog 

De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands

Amazon Web Services a publié Strands Agents, un framework open source sous licence Apache 2.0 qui permet de construire un assistant de recherche IA fonctionnel en une trentaine de lignes de Python. L'outil s'appuie sur les modèles fondamentaux d'Amazon Bedrock pour doter les agents d'une capacité de raisonnement autonome, sans avoir à coder manuellement chaque étape logique. AWS affirme déjà utiliser Strands Agents en production dans plusieurs de ses propres services, notamment Amazon Q et AWS Glue. L'annonce s'accompagne de la présentation de Kiro, un environnement de développement intégré alimenté par l'IA, qui intègre un mécanisme d'extensions appelé "Kiro Powers" : plus de cinquante modules préconfigurés couvrant la conception, le déploiement, la sécurité et l'observabilité, installables en un clic. Le module Strands, par exemple, embarque la documentation du SDK, des guides de démarrage et les patterns d'API corrects pour que Kiro puisse générer des agents fiables dès le premier essai. L'enjeu est de taille pour les équipes de développement : orchestrer plusieurs appels d'API, gérer l'état des conversations et construire des agents capables de planifier leurs actions représentait jusqu'ici un chantier réservé aux spécialistes du traitement du langage naturel et des systèmes distribués. Strands Agents casse cette barrière grâce à une approche model-driven où c'est le LLM lui-même qui prend en charge la logique et l'enchaînement des outils, le développeur n'ayant plus qu'à fournir un prompt et une liste de fonctions décorées avec @tool. Le framework est agnostique en matière de fournisseur : il fonctionne avec Amazon Bedrock, Anthropic et OpenAI, et supporte des architectures allant du simple agent isolé aux réseaux multi-agents hiérarchiques. Les réponses en streaming temps réel le rendent particulièrement adapté aux interfaces interactives. Cette publication s'inscrit dans une offensive plus large d'AWS pour capter les développeurs dans l'écosystème d'agents IA, un marché en pleine structuration où Google, Microsoft et Anthropic proposent leurs propres frameworks et plateformes. En rendant Strands open source et en le couplant à un IDE maison, AWS mise sur l'effet de réseau et la fidélisation par les outils plutôt que par le seul accès aux modèles. La compatibilité native avec AWS Lambda et IAM Identity Center facilite le passage du prototype à la production sans réécriture, ce qui constitue un argument décisif pour les entreprises déjà ancrées dans l'écosystème cloud d'Amazon. Les prochaines étapes probables incluent l'extension de la bibliothèque de Kiro Powers par la communauté et l'intégration plus étroite de Strands avec d'autres services AWS d'analyse et d'automatisation.

UELes équipes de développement européennes peuvent adopter Strands Agents pour accélérer leurs projets d'agents IA, mais l'intégration native avec Lambda et IAM renforce la dépendance à l'écosystème AWS, ce qui soulève des questions de souveraineté numérique pour les entreprises françaises et européennes.

OutilsOutil
1 source
La recherche de Google fait un bond en avant grâce à l'IA
4The Information AI 

La recherche de Google fait un bond en avant grâce à l'IA

Lors de sa conférence Google I/O mardi dernier, Google a annoncé une refonte majeure de son moteur de recherche en y intégrant directement des fonctionnalités d'intelligence artificielle avancées, notamment des agents IA. Le PDG Sundar Pichai a dévoilé que la frontière entre Google Search et le chatbot Gemini est désormais en train de disparaître, les deux produits fusionnant progressivement en une seule expérience unifiée. Google Search compte 3 milliards d'utilisateurs mensuels, contre 900 millions pour Gemini. Ce changement redéfinit radicalement le paysage concurrentiel de l'IA grand public. La vraie bataille ne se joue plus entre ChatGPT et Gemini, deux chatbots aux usages encore relativement similaires, mais entre ChatGPT et Google Search, un produit ancré dans les habitudes quotidiennes de milliards de personnes. OpenAI revendique un peu plus de 900 millions d'utilisateurs actifs hebdomadaires pour ChatGPT, un chiffre impressionnant mais encore loin de la portée mondiale du moteur de recherche de Google. Intégrer l'IA directement dans Search donne à Google un avantage de distribution considérable qu'aucun concurrent ne peut facilement répliquer. Cette évolution s'inscrit dans une course effrénée entre les géants technologiques pour contrôler la porte d'entrée vers l'information sur internet. Google, dont le modèle publicitaire repose historiquement sur la recherche, cherche à préserver sa position dominante face à la montée des assistants IA capables de répondre directement aux questions sans passer par des liens sponsorisés. L'enjeu dépasse la technologie : il s'agit de savoir qui captera l'intention des utilisateurs, et donc les revenus, à l'ère de l'IA générative.

UELes entreprises européennes dépendant du trafic Google devront repenser leurs stratégies SEO et d'achat publicitaire, et la Commission européenne pourrait examiner cette fusion Search/Gemini au prisme du Digital Markets Act.

💬 3 milliards d'utilisateurs mensuels contre 900 millions pour Gemini, et Google choisit de fusionner les deux. C'est le genre de coup qui, une fois dit, semble évident : pourquoi construire un concurrent à ChatGPT quand tu peux transformer le produit le plus utilisé d'internet en assistant IA ? OpenAI peut revendiquer 900 millions d'actifs, c'est une bataille qu'ils ne peuvent pas gagner sur le terrain de la distribution.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic