
Google Research : Gemini-SQL2 domine les benchmarks text-to-SQL avec une large avance
Google Research a publié Gemini-SQL2, un système capable de convertir du langage naturel en requêtes SQL exécutables, construit sur le modèle Gemini 3.1 Pro. Sur le benchmark BIRD, référence industrielle pour évaluer la conversion texte-vers-SQL, Gemini-SQL2 atteint un taux de précision de 80,04 %, distançant significativement les solutions concurrentes d'OpenAI et d'Anthropic.
Cette performance place Google en tête d'un domaine à fort enjeu commercial : la capacité à interroger des bases de données en langage courant, sans écrire une seule ligne de code, ouvre l'accès à la donnée à des profils non techniques au sein des entreprises. Pour Google, l'intégration de cette technologie dans ses services de données comme BigQuery ou Looker pourrait accélérer l'adoption par des équipes analytiques qui dépendent aujourd'hui d'ingénieurs pour formuler leurs requêtes.
Le benchmark BIRD, qui évalue la robustesse des modèles sur des bases de données réelles et complexes, est devenu le baromètre de référence depuis 2023 pour comparer les approches text-to-SQL. La course à ce type de capacité s'inscrit dans une compétition plus large entre les grands laboratoires pour intégrer l'intelligence artificielle directement dans les flux de travail d'entreprise. Avec Gemini-SQL2, Google consolide sa position sur le segment des outils de productivité données, un marché où Microsoft, via Copilot for Azure, et les startups spécialisées comme Text2SQL.ai exercent également une pression croissante.
Les entreprises européennes pourraient simplifier l'accès à leurs données analytiques en permettant à des profils non techniques d'interroger leurs bases sans écrire de SQL.
80% sur BIRD sur des vraies bases de données complexes, c'est pas du benchmarking en chambre. Ce qui est intéressant c'est moins le score que l'intégration qui vient (BigQuery, Looker) : là, les équipes métier qui passaient leur vie à attendre un data engineer vont pouvoir requêter elles-mêmes. Reste à voir si ça tient quand les schémas sont vraiment sales, parce qu'en prod, c'est rarement aussi propre que dans les benchmarks.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




