
L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle
Vexcel, l'un des plus grands fournisseurs mondiaux d'imagerie aérienne, opère une flotte d'avions dédiés qui collecte des données haute résolution dans plus de 45 pays et territoires. Son catalogue comprend des orthomosaïques, des vues obliques à 360 degrés et des modèles d'élévation représentant des milliards de pixels. En partenariat avec le AWS Generative AI Innovation Center (GenAIIC), l'entreprise a développé une architecture de recherche sémantique reposant sur des embeddings multimodaux, la génération automatique de légendes par un grand modèle de langage, et une recherche vectorielle via Amazon Bedrock et Amazon OpenSearch Serverless. L'objectif : permettre à un utilisateur d'interroger cette immense bibliothèque d'images en langage naturel, sans entraîner de modèle de vision par ordinateur pour chaque nouveau cas d'usage. Les tests ont montré qu'Amazon Nova Multimodal Embeddings obtenait les meilleurs scores F1 sur l'ensemble des requêtes de référence évaluées. Ce système a depuis évolué en Vexcel Intelligence, un produit actuellement en phase de prévisualisation.
L'enjeu est considérable pour tous les secteurs qui s'appuient sur des données géospatiales : assurance, immobilier, administration publique, infrastructures et agriculture. Jusqu'ici, localiser des piscines dans un quartier résidentiel, cartographier des panneaux solaires à l'échelle d'une ville ou détecter des graffitis sur des entrepôts obligeait soit à examiner manuellement chaque tuile d'image, soit à entraîner un modèle de vision dédié pour chaque question, avec les données étiquetées, le temps d'ingénierie et les cycles de ré-entraînement que cela implique. La recherche sémantique par vecteurs supprime cette étape : une requête en langage naturel produit des résultats en quelques secondes, sans redévelopper de pipeline spécifique pour chaque nouveau besoin client. C'est un changement de paradigme opérationnel qui compresse des semaines de travail en une simple interrogation.
La recherche géospatiale pose des défis structurels absents de la recherche d'images classique : une même zone est représentée par plusieurs vues simultanées (nadir, oblique nord, est, sud, ouest), et les requêtes portent sur des objets physiques ancrés dans l'espace réel plutôt que sur des photographies isolées. Vexcel avait exploré trois approches préalables avant ce partenariat, dont un pipeline d'embeddings multimodaux tuilés avec légendes LLM qui montrait des résultats prometteurs mais soulevait des questions clés sur le choix du modèle, la fusion des vues multiples et la réelle valeur ajoutée des légendes textuelles. L'équipe a construit une méthodologie d'évaluation ancrée dans les données OpenStreetMap pour comparer quatre variables : modèle d'embedding, stratégie de fusion, approche de légendage et méthode de recherche. Vexcel Intelligence, désormais en prévisualisation, concrétise ces travaux et transforme des décennies de collecte aérienne en une base de connaissance interrogeable à la demande.
Les assureurs, collectivités et acteurs de l'immobilier européens utilisant des données géospatiales aériennes pourraient adopter Vexcel Intelligence pour remplacer des pipelines de vision par ordinateur coûteux par une simple recherche en langage naturel.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



