IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise
IBM a lancé Granite 4.0 3B Vision, un modèle de langage visuel (VLM) conçu spécifiquement pour l'extraction de données documentaires en entreprise. Contrairement aux grands modèles multimodaux monolithiques, ce modèle adopte une architecture modulaire : il se présente sous forme d'adaptateur LoRA d'environ 0,5 milliard de paramètres, conçu pour se greffer sur le modèle de base Granite 4.0 Micro (3,5 milliards de paramètres). Cette configuration permet un déploiement en « double mode » — le modèle texte fonctionne de manière autonome, et le composant visuel n'est activé qu'en cas de besoin. Pour traiter les images haute résolution, le modèle découpe les documents en tuiles de 384×384 pixels via l'encodeur visuel SigLIP2 de Google, tout en conservant une vue globale réduite de l'image. Les tokens visuels sont ensuite injectés dans le modèle de langage en 8 points d'ancrage distincts grâce à l'architecture DeepStack, assurant un alignement précis entre contenu sémantique et mise en page spatiale. En matière de performances, le modèle atteint 85,5 % de correspondance exacte en extraction de paires clé-valeur sur le benchmark VAREX (zéro-shot), et se classe troisième parmi les modèles de 2 à 4 milliards de paramètres sur ce leaderboard en mars 2026.
L'enjeu principal de cette sortie est de permettre aux entreprises d'automatiser l'extraction structurée de données à partir de documents complexes — tableaux financiers, graphiques analytiques, formulaires — avec un modèle compact et déployable localement. Là où les grands modèles généralistes sacrifient la précision structurelle au profit de la polyvalence, Granite 4.0 3B Vision est entraîné spécifiquement sur la conversion de graphiques en CSV ou JSON, la reconnaissance de structures de tableaux en HTML, et l'extraction de paires clé-valeur. IBM a notamment utilisé ChartNet, un dataset multimodal à l'échelle du million d'exemples, ainsi qu'une pipeline d'entraînement « guidée par le code » qui aligne le code de génération d'un graphique, son rendu visuel et la table de données sous-jacente. Cette approche permet au modèle de comprendre la relation structurelle entre une représentation visuelle et sa source, plutôt que de simplement décrire une image.
Ce lancement s'inscrit dans la stratégie d'IBM de positionner sa gamme Granite comme une alternative open-source et souveraine aux solutions propriétaires de Microsoft, Google ou Anthropic pour les usages entreprise. La tendance à l'architecture modulaire — un socle texte augmenté d'adaptateurs spécialisés — reflète une évolution plus large du secteur vers des modèles efficaces en ressources, déployables sur des infrastructures maîtrisées plutôt que dans le cloud public. Avec la prolifération des obligations réglementaires autour de la traçabilité des données (RGPD, AI Act européen), des modèles capables de traiter des documents sensibles en local représentent un avantage concurrentiel significatif. La prochaine étape pour IBM sera d'intégrer ce composant dans ses pipelines documentaires Watson et de le rendre accessible via watsonx, sa plateforme d'IA d'entreprise.
Le déploiement local de Granite 4.0 3B Vision facilite la conformité RGPD et AI Act pour les entreprises européennes traitant des documents sensibles, en évitant tout transfert vers le cloud américain.