Google Research : Gemini-SQL2 domine les…

Google met à jour Android Bench avec de nouveaux LLM, mais Gemini reste à la traîne

41

1Ars Technica AI

Google met à jour Android Bench avec de nouveaux LLM, mais Gemini reste à la traîne

Google a mis à jour Android Bench, son benchmark dédié à l'évaluation des grands modèles de langage sur des tâches de développement Android, lancé en mars. La nouvelle version intègre huit modèles supplémentaires parmi les plus récents du marché : Claude Fable 5, Claude Sonnet 5 et Claude Opus 4.8 d'Anthropic, GLM 5.2, Kimi K2.7 Code, MiniMax M3, ainsi que Qwen 3.7 Plus et Qwen 3.7 Max. Le classement repose sur une suite de 100 tâches de développement Android et adopte désormais un nouveau cadre de test présenté comme plus simple à utiliser. Google a également ajouté de nouvelles métriques, notamment le coût et l'efficacité des modèles, en plus d'intégrer des modèles à poids ouverts, qui n'étaient pas couverts jusqu'ici. Ce type de benchmark répond à un besoin concret pour les développeurs Android : la génération de code par IA s'est imposée comme l'un des usages les plus populaires des LLM, mais tous les modèles ne se valent pas selon les tâches. Distinguer les suggestions réellement utiles des résultats approximatifs suppose de savoir quel outil choisir pour quel contexte. En publiant des résultats comparatifs sur le coût, l'efficacité et la qualité du code produit, Google donne aux équipes de développement des repères concrets pour arbitrer entre les différents modèles disponibles, plutôt que de se fier uniquement à la réputation générale d'un LLM. Cette mise à jour s'inscrit dans une compétition de plus en plus dense entre fournisseurs de modèles, où Anthropic, la Chine avec GLM, Kimi et Qwen, et d'autres acteurs multiplient les versions spécialisées pour le code. Google invite désormais les développeurs à exécuter eux-mêmes ces tests sur leurs propres projets et à transmettre leurs retours, dans l'idée de faire évoluer Android Bench de façon continue. Reste à voir comment les modèles propres à Google, notamment Gemini, se positionneront face à cette concurrence croissante dans les prochaines itérations du benchmark.

LLMsOutil

1 source

Google temporise avec Gemini 3.5 Pro : le lancement aurait été repoussé

42

2Le Big Data

Google temporise avec Gemini 3.5 Pro : le lancement aurait été repoussé

Google prendrait plusieurs mois de retard sur le lancement de Gemini 3.5 Pro, son modèle d'intelligence artificielle le plus avancé. Présenté officiellement lors de la conférence Google I/O en mai 2026, ce modèle devait initialement arriver dès le mois de juin. Deux mois plus tard, aucune sortie publique n'a eu lieu. Selon un rapport de Bloomberg publié le 16 juillet 2026 par les journalistes Davey Alba et Julia Love, les résultats obtenus pendant l'entraînement du modèle n'auraient pas satisfait les équipes internes, en particulier sur les tâches liées au codage informatique. Une source proche du dossier évoque des résultats jugés "décevants". Face à ce constat, Google aurait lancé fin juin une nouvelle phase d'entraînement accompagnée d'une mise à jour des données utilisées, revoyant ainsi une partie du développement entre la présentation de mai et la date de lancement initialement prévue. L'entreprise n'a pas confirmé publiquement ces informations, mais a reconnu tester Gemini 3.5 Pro ainsi qu'une version améliorée de Gemini Flash et d'autres modèles auprès de partenaires sélectionnés, sans communiquer de nouvelle date de sortie. Ce retard illustre à quel point le développement logiciel assisté par IA est devenu un terrain de bataille stratégique entre les grands acteurs du secteur. OpenAI multiplie les annonces autour de GPT-5.6, Anthropic avance avec Claude Fable 5, tandis que xAI et Mistral cherchent eux aussi à imposer leurs assistants de codage. Pour Google, l'enjeu est d'autant plus sensible que l'entreprise utilise déjà massivement l'IA en interne : en avril 2026, le PDG Sundar Pichai indiquait que près de 75 % du nouveau code produit par ses équipes était généré avec l'aide de l'IA, contre environ 50 % quelques mois plus tôt. Un lancement raté de Gemini 3.5 Pro sur le codage exposerait donc Google à une contradiction difficile à assumer face à ses concurrents comme face à ses propres usages internes. Ce paradoxe s'explique aussi par une organisation interne encore fragmentée. Plusieurs équipes développent leurs propres outils d'IA pour le code, notamment Google DeepMind, Vertex AI et Android Studio, et l'unification de ces solutions reste un chantier en cours. Certains ingénieurs maison resteraient par ailleurs prudents face à une dépendance excessive au code généré automatiquement. Dans ce contexte, retarder la sortie de Gemini 3.5 Pro peut décevoir les utilisateurs qui l'attendaient depuis mai, mais ce choix vise avant tout à éviter un lancement raté qui aurait fragilisé la position de Google dans la course à l'IA générative appliquée au développement logiciel.

💬 Google temporise avec Gemini 3.5 Pro parce que les résultats sur le codage n'étaient pas au niveau, et ça en dit long : quand un labo repousse son propre modèle phare deux mois après l'avoir présenté sur scène, c'est que le gap avec la concurrence sur le code s'est révélé plus large que prévu en interne. Pichai qui annonce 75% de code généré par IA chez Google, et son propre modèle de référence qui coince sur cette tâche précise, ça fait une drôle de dissonance. Bonne nouvelle quand même : ils testent en vrai avant de sortir un truc à moitié cuit, plutôt que de lâcher un Gemini 3.5 Pro à la Bard.

LLMsActu

1 source

GPT-5.6 Sol égale presque Fable 5 sur les benchmarks agrégés, pour un tiers du coût

47

3The Decoder

GPT-5.6 Sol égale presque Fable 5 sur les benchmarks agrégés, pour un tiers du coût

OpenAI a présenté GPT-5.6 Sol, une nouvelle version de son modèle phare, qui obtient 59 points sur l'Artificial Analysis Intelligence Index, un indice qui agrège plusieurs benchmarks pour évaluer les capacités des grands modèles de langage. Ce score place Sol à seulement un point derrière Claude Fable 5, le modèle le plus avancé d'Anthropic, considéré jusqu'ici comme la référence du secteur. La différence la plus marquante se situe toutefois du côté du prix : chaque tâche traitée par Sol coûte 1,04 dollar, soit environ un tiers du tarif facturé par Anthropic pour Fable 5. Sur les benchmarks de codage agentique, qui évaluent la capacité d'un modèle à exécuter des tâches complexes de façon autonome, Sol devance même l'ensemble de ses concurrents, Fable 5 y compris. Pour les entreprises et les développeurs qui choisissent quel modèle intégrer dans leurs produits, cet écart de prix change la donne : obtenir des performances quasiment équivalentes à celles du modèle le plus coté du marché, pour un tiers du coût, rend Sol particulièrement attractif pour les usages à grande échelle, où la facture de l'API pèse lourd. Le secteur du codage agentique, en pleine expansion avec la multiplication des assistants capables d'écrire et d'exécuter du code sans supervision constante, est particulièrement concerné. En prenant la tête sur ces benchmarks tout en restant nettement moins cher, OpenAI met une pression tarifaire directe sur Anthropic, qui devra soit baisser ses prix, soit justifier son positionnement premium par des gains de performance plus nets. Cette annonce s'inscrit dans une compétition de plus en plus serrée entre les grands laboratoires d'IA, où les écarts de performance entre modèles concurrents se resserrent d'une génération à l'autre, tandis que la guerre des prix s'intensifie. Anthropic, OpenAI et leurs rivaux misent de plus en plus sur les capacités agentiques, jugées déterminantes pour convaincre les entreprises d'automatiser des tâches de développement logiciel. L'Artificial Analysis Intelligence Index, devenu une référence pour comparer les modèles de façon indépendante, illustre à quel point les positions en tête de classement peuvent désormais basculer en quelques mois. Reste à voir comment Anthropic réagira à cette pression sur ses tarifs, et si d'autres acteurs suivront la stratégie d'OpenAI consistant à combiner performances de pointe et prix agressifs.

LLMsOpinion

1 source

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

50

4VentureBeat AI

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

Google DeepMind a publié Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, un changement qui pourrait s'avérer plus décisif que n'importe quel score sur les benchmarks. Jusqu'ici, les versions précédentes de Gemma utilisaient une licence propriétaire avec des restrictions d'usage et des clauses modifiables unilatéralement par Google, ce qui poussait de nombreuses équipes entreprises à lui préférer Mistral ou Qwen d'Alibaba. Avec Gemma 4, Google adopte les mêmes termes permissifs que l'essentiel de l'écosystème open-weight : aucune restriction commerciale, aucune clause d'usage "nuisible" à interpréter juridiquement, redistribution libre. La famille se compose de quatre modèles répartis en deux niveaux. Le niveau "workstation" comprend un modèle dense à 31 milliards de paramètres et un modèle Mixture-of-Experts (MoE) de 26B A4B, tous deux capables de traiter texte et images avec une fenêtre de contexte de 256 000 tokens. Le niveau "edge" propose les modèles E2B et E4B, conçus pour smartphones, appareils embarqués et ordinateurs portables, supportant texte, image et audio avec 128 000 tokens de contexte. Ce changement de licence lève un frein majeur à l'adoption en entreprise. Les équipes juridiques et conformité qui bloquaient le déploiement de Gemma 3 n'auront plus de raison de le faire avec Gemma 4. Sur le plan architectural, le modèle MoE 26B A4B est particulièrement intéressant pour les décideurs IT : ses 25,2 milliards de paramètres totaux n'en activent que 3,8 milliards par inférence, ce qui lui permet de délivrer des performances comparables à un modèle dense de 27 à 31 milliards de paramètres, mais à la vitesse et au coût de calcul d'un modèle de 4 milliards. Pour les organisations qui opèrent des assistants de code, des pipelines de traitement documentaire ou des workflows agentiques multi-tours, cela se traduit directement par moins de GPU nécessaires, une latence réduite et un coût par token inférieur. Google propose également des checkpoints QAT (Quantization-Aware Training) pour maintenir la qualité à précision réduite, et les deux modèles "workstation" sont déjà disponibles en configuration serverless sur Google Cloud via Cloud Run avec des GPU NVIDIA RTX Pro 6000. Ce lancement s'inscrit dans une dynamique de marché significative. Alors que certains laboratoires chinois, dont Alibaba avec ses derniers modèles Qwen 3.5 Omni et Qwen 3.6 Plus, commencent à restreindre l'accès à leurs modèles les plus récents, Google fait le mouvement inverse en ouvrant pleinement son modèle le plus capable à ce jour, dont l'architecture s'inspire directement de la recherche derrière Gemini 3, son modèle commercial phare. Le choix des 128 petits experts dans le MoE plutôt qu'une poignée de grands experts reflète une optimisation délibérée pour les coûts d'inférence en production, un signal que Google cible désormais sérieusement les déploiements à grande échelle hors de ses propres infrastructures. Gemma 4 devrait apparaître rapidement dans des outils comme Ollama et LM Studio, ce qui accélérera encore son adoption.

UELa licence Apache 2.0 lève les blocages juridiques qui freinaient l'adoption de Gemma dans les entreprises européennes soumises à des obligations de conformité strictes.

💬 La licence Apache 2.0, c'est ce qui va faire la différence, pas les scores. Les équipes juridiques qui bloquaient Gemma 3 n'ont plus d'argument valable, et le MoE 26B qui n'active que 4B de paramètres à l'inférence, c'est du GPU économisé pour de vrai, pas du marketing. Reste à voir si Google tient la promesse de qualité à precision réduite sur des pipelines en production, mais l'angle est le bon.

LLMsOpinion

1 source

Google Research : Gemini-SQL2 domine les benchmarks text-to-SQL avec une large avance

À lire aussi

Google met à jour Android Bench avec de nouveaux LLM, mais Gemini reste à la traîne

Google temporise avec Gemini 3.5 Pro : le lancement aurait été repoussé

GPT-5.6 Sol égale presque Fable 5 sur les benchmarks agrégés, pour un tiers du coût

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks