Dossier Google DeepMind — page 4

878 articles · page 4 sur 18

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

151Ars Technica AI CréationActu

« Nano Banana 2 Lite » de Google : son nouveau modèle d'image, le plus rapide et le moins cher à ce jour

Google DeepMind a dévoilé Nano Banana 2 Lite, son nouveau modèle de génération d'images, présenté comme le plus rapide et le moins coûteux de sa gamme. Techniquement baptisé Gemini 3.1 Flash Lite Image, il appartient à la famille Gemini 3.1 et est disponible dès aujourd'hui sur l'ensemble de l'écosystème Google. Sa principale promesse est de produire des images en une fraction du temps requis par les modèles plus lourds de l'entreprise, tout en conservant une qualité proche de celle des versions standard. Pour étayer cette affirmation, Google s'appuie sur des scores Elo issus de la plateforme Arena.ai, qui montrent que les utilisateurs évaluent les résultats de Nano Banana 2 Lite presque aussi favorablement que ceux des versions non allégées du modèle. Cette nouveauté répond à un problème concret du secteur : les modèles d'image les plus qualitatifs sont généralement lents et onéreux, ce qui freine leur usage pour des tâches d'itération rapide. En misant sur la vitesse et le faible coût, Google cible explicitement les usages de prototypage et d'exploration créative, où la rapidité d'exécution compte davantage que la perfection du rendu final. Pour les développeurs et créateurs qui génèrent de nombreuses variantes avant de retenir une image définitive, ce gain de réactivité peut réduire significativement les coûts d'infrastructure et accélérer les flux de travail créatifs. Google reconnaît toutefois des limites : le modèle peine davantage avec le texte intégré aux images, en particulier les caractères de petite taille, et les infographies générées contiennent plus souvent des données erronées. La cohérence des personnages et des visages d'une génération à l'autre reste également moins fiable que sur les modèles complets. Ces compromis illustrent une tendance plus large du secteur de l'IA générative, où les éditeurs déclinent désormais leurs modèles phares en versions allégées afin de répondre à des besoins différenciés selon les usages, qu'il s'agisse de production finale soignée ou de simple exploration d'idées à grande échelle.

Aussi sur TechCrunch AI,01net,Le Big Data

152The Information AI

Pourquoi les boucles d'agents ont la cote

Les "agent loops", ou boucles d'agents, s'imposent comme l'une des approches les plus discutées dans la communauté des développeurs IA, notamment sur X et Reddit ces dernières semaines. Le principe consiste à faire tourner un ou plusieurs agents en boucle autonome, sans intervention humaine entre chaque étape : l'agent tente différentes approches pour accomplir une tâche, un second agent évalue son travail, et le processus recommence jusqu'à l'atteinte de l'objectif ou d'une condition d'arrêt prédéfinie. Cette méthode tranche avec l'approche classique qui consiste à soumettre un prompt, attendre la réponse, puis corriger manuellement. Lors de la conférence AI Engineers d'avril 2025, des ingénieurs d'Anthropic ont illustré le potentiel de la technique avec un exemple concret : ils ont demandé à Claude de développer une application générant des jeux vidéo rétro. Avec un prompt minimal, Claude a livré l'application en 20 minutes pour 9 dollars. La même tâche confiée à une boucle d'agents a pris six heures et coûté 200 dollars, mais le résultat était nettement supérieur. L'engouement pour les boucles d'agents tient à leur capacité à traiter des tâches longues ou mal définies, là où une simple requête atteint rapidement ses limites. Pour les développeurs qui construisent des applications complexes, l'approche offre un niveau de qualité qu'un échange ponctuel ne permet pas d'atteindre. Le compromis reste cependant significatif : un rapport de coût de 1 à 22 représente une barrière réelle à l'adoption généralisée. À court terme, cette méthode restera donc réservée aux cas d'usage où la qualité prime sur le budget, plutôt qu'aux tâches routinières à faible enjeu. Cette tendance s'inscrit dans une évolution plus large du secteur vers des systèmes d'IA toujours plus autonomes. L'industrie se déplace progressivement du modèle "prompt-réponse" vers des architectures multi-agents capables de s'auto-corriger et de raisonner sur de longues séquences d'actions. Anthropic, qui développe Claude, figure parmi les acteurs en pointe sur ce terrain, aux côtés d'OpenAI et Google DeepMind. L'enjeu à moyen terme sera de réduire le coût computationnel de ces boucles pour les rendre économiquement accessibles à grande échelle, condition nécessaire pour que les agent loops passent du statut d'expérimentation avancée à celui d'outil standard du développement IA.

💬 Ce qui me frappe dans l'exemple d'Anthropic, c'est pas que ça coûte 200 dollars au lieu de 9, c'est que le résultat est vraiment meilleur, pas juste un peu. Les boucles d'agents ne remplacent pas le prompt classique, elles font autre chose : du travail long et mal défini qui demande de l'itération sans intervention humaine entre chaque étape. Reste à voir quand les coûts tombent assez pour que tu puisses en faire un outil standard plutôt qu'un truc réservé aux projets où t'as un vrai budget.

Dossier Google DeepMind — page 4

« Nano Banana 2 Lite » de Google : son nouveau modèle d'image, le plus rapide et le moins cher à ce jour

Pourquoi les boucles d'agents ont la cote

Une startup affirme avoir surmonté un goulot d'étranglement qui freine les LLM

Google Cloud automatise les opérations de planification urbaine avec l'IA générative

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

OpenAI a dépensé 3,7 milliards de dollars au premier trimestre 2026

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

OpenAI acquiert Ona pour renforcer les agents IA de Codex

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Anthropic supplie Donald Trump de réguler l’IA (la raison va vous terrifier)

World Pilot : piloter les modèles VLA avec des a priori monde-action

La robotique ne connaîtra pas de moment Llama bien défini

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Meta tente de rattraper son retard dans l'IA

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Sous-espaces primitifs et transfert en quelques exemples dans les VLA

Mélange d'horizons dans le découpage en actions

Arthur Mensch : itinéraire d’un architecte de l’IA européenne

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cette IA vous permet de créer des jeux vidéo à partir de Google Maps, mais il y a une condition

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA

MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles

Agents IA : pourquoi Singapour attire OpenAI et Google ?

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Ce que Google va annoncer cette semaine

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Isomorphic Labs réalise une levée de fonds record de plus de 2 milliards de dollars

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Trois points sur l'IA à surveiller, selon un économiste nobélisé

Large Video Planner permet un contrôle robotique généralisable

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

Google, Microsoft, xAI… Trump va tester les nouvelles IA en avant-première

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Import AI 455 : automatiser la recherche en IA

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel