Aller au contenu principal

Dossier Gemini — page 12

582 articles · page 12 sur 12

Gemini, la famille de modèles de Google DeepMind : sorties Flash et Pro, intégration Apple/Siri, agents Robotics ER, capacités vocales temps réel.

Weis Markets adopte les chariots intelligents d'Instacart dans ses magasins
551AI News OutilsOutil

Weis Markets adopte les chariots intelligents d'Instacart dans ses magasins

Weis Markets, chaîne de supermarchés basée en Pennsylvanie avec 199 magasins, déploie les chariots intelligents Caper Carts d'Instacart dans plusieurs de ses points de vente. Ces chariots embarquent des caméras orientées vers le panier, des balances certifiées, des systèmes de géolocalisation et un écran tactile. Leur logiciel repose sur de l'IA entraînée sur plus de 1,6 milliard de commandes en ligne, combinée à du calcul embarqué sur l'appareil. Les clients peuvent suivre leurs dépenses en temps réel, accéder à des coupons géolocalisés, se connecter à leur compte Weis Rewards pour cumuler des avantages fidélité, et consulter une fonction "Buy It Again" qui affiche leurs achats habituels. Greg Zeh, directeur des systèmes d'information de Weis, présente ces chariots comme un moyen de fluidifier l'expérience en rayon tout en connectant les données du magasin physique à celles de la vente en ligne. Ce déploiement illustre l'accélération d'Instacart sur le segment des magasins connectés, après une période centrée sur la livraison à domicile. Les Caper Carts sont désormais présents dans plus de 100 villes, répartis dans 15 États américains, chez une douzaine d'enseignes dont Kroger, Schnucks et les bannières Wakefern comme ShopRite et Fairway Market. Des données opérationnelles commencent à émerger : chez Schnucks, un magasin équipé de seulement 10 chariots intelligents pour 160 classiques a vu ces derniers traiter plus de 10 % des ventes lors des journées chargées, selon Retail Dive. Pour les distributeurs, l'enjeu est double : améliorer l'expérience client tout en capturant des données comportementales en magasin jusqu'ici inaccessibles. Weis ne mise pas uniquement sur les chariots : en décembre 2025, la chaîne a finalisé le déploiement du système ELERA Security Suite de Toshiba sur les caisses libre-service de l'ensemble de ses 199 magasins, avec reconnaissance des fruits et légumes et outils anti-démarque inconnue basés sur l'IA embarquée. Plus de 94 % des clients ont utilisé la fonction de reconnaissance des produits. En parallèle, Albertsons, qui exploite plus de 2 000 magasins sous les enseignes Safeway, Jewel-Osco et ACME, a développé en interne un outil de contrôle qualité par vision artificielle pour détecter les fruits abîmés ou moisis avant leur mise en rayon, en commençant par les fraises et les raisins. Ce système, construit sur la plateforme Google Cloud Gemini Enterprise avec Vision AI, vise à standardiser les inspections dans les centres de distribution. La grande distribution américaine engage ainsi une transformation profonde de ses opérations, en intégrant l'IA à chaque étape de la chaîne, du centre logistique jusqu'au chariot du client.

1 source
Google lance Dreambeans, cette appli IA crée des petites histoires basées sur votre vie
552Le Big Data 

Google lance Dreambeans, cette appli IA crée des petites histoires basées sur votre vie

Google a lancé le 3 juin 2026 Dreambeans, une application mobile expérimentale développée par Google Labs qui génère chaque matin entre 10 et 14 histoires personnalisées à partir des données de l'utilisateur. Pendant la nuit, l'application analyse le contenu de Gmail, Google Agenda, Google Photos, YouTube et l'historique de recherche pour produire des récits illustrés par intelligence artificielle. Ces histoires peuvent prendre la forme d'une recommandation de café détectée dans les recherches récentes, d'informations liées à un voyage planifié dans l'agenda, ou d'idées inspirées des vidéos regardées sur YouTube. Certains récits vont jusqu'à proposer une action concrète, comme réserver une place pour un événement. Les illustrations sont générées grâce au modèle Nano Banana 2 de Google, et peuvent intégrer les visages de l'utilisateur ou de ses proches en s'appuyant sur le regroupement facial de Google Photos. Pour l'instant, l'application est réservée aux abonnés Google AI Ultra résidant aux États-Unis et âgés d'au moins 18 ans. L'application incarne une philosophie délibérément opposée au modèle dominant des réseaux sociaux : au lieu d'un flux infini conçu pour maximiser le temps passé sur l'écran, Dreambeans propose une poignée d'histoires quotidiennes puis encourage l'utilisateur à reprendre sa journée. Cette approche pourrait résonner auprès d'utilisateurs de plus en plus critiques envers les mécaniques addictives des plateformes classiques. En pratique, l'impact reste cependant très circonscrit : l'accès est conditionné à un abonnement Google AI Ultra facturé 100 dollars par mois, soit l'offre la plus coûteuse de Google, ce qui réduit considérablement le nombre d'utilisateurs potentiels à court terme. Google reconnaît par ailleurs que l'application reste un projet expérimental, avec des recommandations parfois peu pertinentes et des visuels qui peuvent s'avérer inexacts. Dreambeans s'inscrit dans la stratégie plus large de Google autour de ce qu'il appelle l'"intelligence personnelle", soit la capacité à croiser les données des différents services Google pour offrir une expérience hyper-contextualisée. L'application arrive dans un moment où les géants technologiques cherchent à valoriser leurs écosystèmes fermés face à la concurrence de nouveaux entrants en IA. La question de la vie privée est centrale : Google indique que les utilisateurs contrôlent quels services sont connectés à Dreambeans et peuvent effacer leurs données à tout moment, et que les paramètres de l'appli n'influencent pas Gemini ni le mode IA de Google. Un système de retour d'expérience est intégré pour affiner les résultats. La prochaine étape sera de déterminer si ce positionnement, intime, limité, et payant, séduira au-delà du cercle des early adopters fortunés, ou si Google élargira progressivement l'accès à d'autres marchés.

OutilsOutil
1 source
Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks
553MarkTechPost 

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

La synthèse vocale par intelligence artificielle a connu une accélération spectaculaire en 2026, au point que la frontière entre voix humaine et voix synthétique est devenue difficile à percevoir. Les deux références de l'industrie pour comparer ces modèles sont le classement Artificial Analysis Speech Arena, qui attribue un score ELO basé sur les préférences humaines en aveugle, et le TTS Arena de Hugging Face, qui fonctionne sur le même principe de vote A/B. Au 30 mai 2026, le top 5 de l'Artificial Analysis Speech Arena est occupé par Gemini 3.1 Flash TTS de Google, Realtime TTS-2 d'Inworld (en Research Preview), Sonic 3.5, Realtime TTS 1.5 Max et Fun-Realtime-TTS-Preview. Parmi les acteurs les plus remarquables, Inworld AI, un laboratoire fondé par des anciens de Google et DeepMind, a lancé TTS-1.5 le 21 janvier 2026, suivi de Realtime TTS-2 plus tard dans l'année. Son modèle propose deux niveaux : Mini, optimisé pour la latence avec un temps avant premier audio inférieur à 130 millisecondes au 90e percentile, et Max, sous 250 millisecondes. La tarification va de 25 dollars par million de caractères pour le Mini jusqu'à 5 dollars en offre Enterprise. Google DeepMind, de son côté, a publié Gemini 3.1 Flash TTS le 15 avril 2026, accessible via l'API Gemini, AI Studio et Vertex AI. Ces évolutions ont des implications directes pour les développeurs et les entreprises qui intègrent la voix dans leurs produits. Une latence sous les 100 millisecondes est désormais atteignable pour certains systèmes temps réel, ce qui rend les agents vocaux réellement utilisables dans des contextes grand public, comme le service client automatisé ou les jeux vidéo. Inworld revendique 30 % de plage expressive supplémentaire et 40 % de stabilité en plus par rapport à sa génération précédente, deux critères critiques pour des applications qui ne peuvent se permettre ni monotonie ni erreurs de prononciation. Les tarifs agressifs, notamment l'offre Enterprise à 5 dollars le million de caractères, signalent une course vers la commoditisation du TTS, similaire à ce que le marché des LLM a vécu entre 2023 et 2025. La comparaison entre modèles reste néanmoins complexe, car aucun benchmark ne capture l'ensemble des dimensions pertinentes. La qualité perçue, le taux d'erreur de caractères mesuré par méthode aller-retour (transcription ASR puis comparaison avec l'entrée), la latence de queue et la couverture linguistique obéissent à des logiques distinctes. Inworld couvre 15 langues pour TTS-1.5 mais plus de 100 pour TTS-2, tandis que les classements ELO fluctuent d'une semaine à l'autre. L'enjeu pour les équipes produit est d'identifier l'axe non négociable de leur application, qu'il s'agisse de la latence pour un assistant vocal ou de la fidélité phonétique pour un usage éditorial, avant de choisir leur fournisseur dans un marché qui reste en recomposition permanente.

💬 Le TTS vit ce que les LLM ont traversé entre 2023 et 2025. 5 dollars le million de caractères en Enterprise chez Inworld, Gemini Flash TTS qui s'installe en tête des classements, la course vers la commoditisation est enclenchée et ça va aller vite. La vraie nouveauté, c'est la latence sous 100ms qui rend enfin les agents vocaux utilisables en vrai, pas juste en démo.

CréationOutil
1 source
Construire un agent IA avancé avec planification, appel d'outils, mémoire et auto-critique via l'OpenAI API
554MarkTechPost 

Construire un agent IA avancé avec planification, appel d'outils, mémoire et auto-critique via l'OpenAI API

Un tutoriel publié sur la plateforme de notebooks Colab détaille comment construire un système d'IA agentique avancé en s'appuyant sur l'API OpenAI et le modèle GPT-5.2. L'architecture proposée repose sur un pipeline de trois rôles spécialisés et distincts : un planificateur qui décompose les objectifs complexes en étapes, un exécuteur qui mobilise des outils concrets pour agir, et un critique qui évalue la qualité des résultats avant de les valider. Quatre outils sont intégrés directement dans le système : une calculatrice sécurisée qui accepte uniquement des expressions numériques sans variables, un moteur de recherche dans une base de connaissances interne simulant des playbooks d'équipe, un extracteur JSON pour produire des sorties structurées, et un module d'écriture de fichiers qui sauvegarde les livrables finaux avec une empreinte SHA-256 de vérification. La clé API est transmise via getpass() pour éviter toute exposition dans le code ou les sorties du notebook. Cette approche modulaire représente un changement de paradigme dans la façon de concevoir des agents IA. En séparant strictement la stratégie, l'action et le contrôle qualité en trois couches distinctes, le système évite les dérives courantes des agents monolithiques qui mélangent raisonnement et exécution sans garde-fous. Le composant critique intégré permet une autocorrection systématique avant la réponse finale, ce qui réduit les hallucinations et améliore la fiabilité des sorties dans des contextes professionnels. Pour les développeurs et les entreprises qui cherchent à automatiser des workflows complexes (rédaction de comptes-rendus de réunion, traitement de données structurées, génération de rapports), ce type d'architecture offre une robustesse que les chatbots conversationnels classiques ne peuvent pas atteindre. Ce tutoriel s'inscrit dans une vague plus large d'intérêt pour les systèmes multi-agents et les architectures dites "agentic", portées notamment par les travaux d'Anthropic sur Claude, de Google avec Gemini, et d'OpenAI elle-même avec ses API d'assistants et de function calling. L'émergence de GPT-5.2, le modèle utilisé ici, illustre la rapidité avec laquelle les capacités de base progressent et rendent ces architectures accessibles à un plus grand nombre de développeurs. La tendance de fond est claire : les LLM cessent d'être de simples générateurs de texte pour devenir des orchestrateurs capables de planifier, d'agir sur des systèmes externes et de s'autocorriger, ce qui rapproche concrètement l'IA générative des promesses d'automatisation avancée que l'industrie promet depuis plusieurs années.

OutilsTuto
1 source
Les techniques de distillation des LLM expliquées
555MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM
556Apple Machine Learning 

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM

Des chercheurs ont présenté BalCapRL, un nouveau cadre d'entraînement par apprentissage par renforcement (RL) conçu pour améliorer la génération automatique de légendes d'images par les grands modèles de langage multimodaux (MLLM). Face aux limites des méthodes RL existantes, BalCapRL cherche à équilibrer plusieurs dimensions de qualité simultanément dans la description d'images, une tâche considérée comme fondamentale en vision par ordinateur et qui a gagné en importance avec l'essor des MLLM. Les approches RL actuelles pour la génération de légendes souffrent d'un défaut structurel : en optimisant une métrique unique orientée utilité, elles produisent des descriptions trop longues, bruitées ou carrément hallucinées. Ces travers ont des conséquences concrètes pour les applications industrielles qui dépendent de légendes fiables, comme l'accessibilité numérique, l'indexation d'images ou les moteurs de recherche visuelle. BalCapRL propose un cadre plus équilibré qui préserve plusieurs critères de qualité en même temps, évitant les compromis indésirables qu'introduisent les métriques d'évaluation trop étroites. La génération de légendes d'images a connu un regain d'intérêt avec l'essor de modèles comme GPT-4V, LLaVA ou Gemini, capables de décrire des scènes visuelles en langage naturel. L'application du RL à ces modèles, popularisée par les travaux sur le RLHF dans les LLM textuels, est devenue une piste prometteuse mais difficile à maîtriser. BalCapRL s'inscrit dans cette dynamique en cherchant à corriger les biais induits par des objectifs d'optimisation trop réducteurs, un enjeu central pour l'alignement des modèles multimodaux à mesure qu'ils s'imposent dans les usages professionnels.

RecherchePaper
1 source
De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux
557Apple Machine Learning 

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Des chercheurs ont publié SFI-Bench (Spatial-Functional Intelligence Benchmark), un nouveau cadre d'évaluation conçu pour tester une forme plus avancée d'intelligence spatiale chez les grands modèles de langage multimodaux. Le benchmark comprend plus de 1 700 questions tirées de vidéos égocentrées d'intérieurs domestiques filmées sous différents angles, couvrant des environnements variés du quotidien. Contrairement aux benchmarks existants comme VSI-Bench, SFI-Bench ne se contente pas de demander aux modèles où se trouvent les objets, mais cherche à évaluer s'ils comprennent à quoi ces objets servent dans leur contexte réel. Cette distinction est fondamentale pour le développement d'agents IA capables d'agir dans le monde physique. Un robot ou un assistant visuel qui sait qu'une tasse est posée sur la table, mais ne comprend pas qu'elle sert à boire, sera incapable de planifier des actions cohérentes dans un environnement domestique. SFI-Bench cible précisément ce niveau cognitif supérieur, appelé intelligence fonctionnelle, qui conditionne l'autonomie réelle des agents multimodaux dans des tâches de robotique domestique, d'assistance aux personnes ou de navigation intelligente. La course aux benchmarks spatiaux s'est accélérée ces deux dernières années, à mesure que les modèles comme GPT-4o, Gemini et les LLM open-source progressaient en perception visuelle. Les évaluations géométriques de base ne suffisent plus à différencier les systèmes les plus capables. SFI-Bench s'inscrit dans un effort plus large de la communauté pour définir des critères d'évaluation alignés sur des usages concrets, et pourrait devenir une référence incontournable pour mesurer la maturité des agents embarqués ou des assistants visuels de prochaine génération.

RecherchePaper
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
558arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

RobotiqueActu
1 source
Migrer un agent texte vers un assistant vocal avec Amazon Nova 2 Sonic
559AWS ML Blog 

Migrer un agent texte vers un assistant vocal avec Amazon Nova 2 Sonic

Amazon a publié un guide technique détaillé sur la migration d'agents textuels vers des assistants vocaux en utilisant Amazon Nova 2 Sonic, son modèle de traitement de la parole en temps réel. L'article, publié en avril 2026, s'adresse aux équipes d'ingénierie qui ont déjà déployé des agents conversationnels textuels et souhaitent les adapter à des interfaces vocales. Les secteurs visés sont larges : finance, santé, éducation, réseaux sociaux et commerce de détail, tous confrontés à une demande croissante d'interactions orales naturelles et instantanées. Amazon propose même un outil intégré dans des IDE comme Kiro et Claude Code, capable de convertir automatiquement un agent textuel en agent vocal à partir d'un référentiel de code existant. La différence entre un agent texte et un agent vocal est bien plus profonde qu'il n'y paraît, et c'est là l'enjeu central du guide. Un agent textuel peut retourner des tableaux, des listes à puces et des liens cliquables, le tout en une seule réponse que l'utilisateur lit à son rythme. Un agent vocal doit fonctionner différemment : les réponses doivent être courtes, séquentielles, avec des confirmations intermédiaires. Exemple concret : là où l'agent textuel d'une banque affiche un récapitulatif complet de trois comptes en une fois, l'agent vocal annonce un compte, demande si l'utilisateur veut continuer, puis présente le suivant. La latence devient également un critère critique : quelques secondes d'attente sont tolérables à l'écrit, mais créent une impression de coupure à l'oral, où chaque appel d'outil ajoute un silence perceptible. Cela oblige à repenser l'architecture en profondeur : streaming audio bidirectionnel permanent, détection d'activité vocale, gestion des interruptions en cours de phrase, et traitement asynchrone des outils pour ne pas bloquer le flux. Cette publication intervient alors que les grandes plateformes cloud cherchent à démocratiser la voix comme interface standard pour les applications d'entreprise. Amazon Nova 2 Sonic s'inscrit dans une compétition directe avec des modèles comme GPT-4o Audio d'OpenAI et Gemini Live de Google, tous capables de traitement vocal en temps réel avec de faibles temps de latence. La migration vers la voix soulève des enjeux techniques considérables, notamment la gestion des tours de parole fluides, la réduction des délais lors des appels à des API externes, et l'adaptation des prompts système pour un style oral plutôt qu'écrit. Le fait qu'Amazon intègre un outil de conversion automatique dans les IDE suggère que l'entreprise veut abaisser le seuil d'entrée pour accélérer l'adoption, tout en conservant une dépendance à son écosystème cloud pour l'inférence et le déploiement.

OutilsOutil
1 source
L'évolution des encodeurs : des modèles simples à l'IA multimodale
560AI News 

L'évolution des encodeurs : des modèles simples à l'IA multimodale

Les systèmes d'intelligence artificielle que nous utilisons chaque jour, des moteurs de recherche aux chatbots en passant par la détection de fraude bancaire, reposent tous sur une technologie rarement évoquée : les encodeurs. Ces composants agissent comme des traducteurs, convertissant l'information brute du monde réel (texte, images, sons) en représentations mathématiques que les machines peuvent traiter. Dans les années 1990 et 2000, cette conversion était entièrement manuelle : les développeurs décidaient eux-mêmes comment représenter chaque donnée. Un système de recommandation e-commerce pouvait catégoriser des chaussures de running comme "sport", mais ne pouvait établir de lui-même le lien avec les montres connectées ou les gourdes, sauf si ce lien avait été explicitement programmé. Les machines traitaient des chiffres, pas du sens. Tout a changé avec l'avènement des réseaux de neurones, qui ont permis aux encodeurs d'apprendre à partir des données plutôt que de suivre des règles fixes. Entraîné sur des milliers d'images de chats, un système identifie progressivement les oreilles, les moustaches, la queue, sans qu'aucun ingénieur ne lui ait décrit ces caractéristiques. Appliqué au langage, ce principe a conduit à la représentation des mots sous forme de vecteurs mathématiques capturant leur signification : c'est pourquoi Google comprend aujourd'hui que "vols pas chers" et "billets d'avion économiques" renvoient au même besoin. Une étape supplémentaire a été franchie avec les autoencodeurs, conçus pour comprimer l'information puis la reconstruire, forçant le modèle à identifier l'essentiel. Cette approche est désormais au cœur des systèmes anti-fraude des banques : un encodeur apprend ce qu'est une transaction "normale" et signale automatiquement toute anomalie, comme un achat à l'étranger inhabituellement élevé, sans avoir été programmé pour ce cas précis. La véritable rupture est venue avec les modèles Transformer, apparus à partir de 2017. Contrairement à leurs prédécesseurs qui traitaient l'information séquentiellement, ces architectures analysent la totalité d'une phrase ou d'une image en une seule passe, en pondérant dynamiquement quels éléments sont les plus pertinents. Face à l'ambiguïté de "Elle a vu l'homme avec le télescope", un encodeur Transformer analyse l'ensemble du contexte pour proposer l'interprétation la plus cohérente, là où les anciens modèles échouaient. Ces encodeurs alimentent aujourd'hui les assistants vocaux, les outils de traduction en ligne, les systèmes de recommandation de Netflix ou Spotify. L'étape suivante, déjà engagée dans des modèles comme CLIP ou Gemini, consiste à unifier texte, image, audio et vidéo dans un même espace de représentation : les encodeurs multimodaux, qui permettent à une IA de relier une photo, une description et un son comme le ferait un être humain.

LLMsPaper
1 source
561The Verge AI 

Yelp rend son chatbot IA bien plus utile

Yelp vient d'annoncer une refonte majeure de son assistant chatbot, baptisé Yelp Assistant, avec l'ambition de transformer la plateforme en véritable concierge numérique. Selon le communiqué officiel de l'entreprise, le bot sera désormais placé "au centre de l'expérience applicative", capable de répondre à des questions, formuler des recommandations personnalisées et gérer des réservations au sein d'une seule et même conversation. Cette mise à jour s'inscrit dans une série d'évolutions axées sur l'IA que Yelp déploie depuis plusieurs mois. L'enjeu est de taille : faire passer l'IA d'un rôle purement informatif à un rôle d'action concrète. Plutôt que de simplement lire des avis, l'utilisateur peut désormais accomplir une tâche complète sans quitter l'application. Pour Yelp, dont le modèle repose sur des millions d'avis générés par les utilisateurs, c'est aussi une façon de monétiser autrement cette base de données unique en guidant l'utilisateur jusqu'à la réservation finale. Cette initiative reflète une tendance plus large dans l'industrie tech : les plateformes à forte base de données propriétaires cherchent à transformer leur actif en avantage compétitif face aux assistants IA généralistes comme ChatGPT ou Google Gemini. Yelp, qui reste une référence aux États-Unis pour les avis locaux sur les restaurants et commerces, mise sur la profondeur de ses données de contexte local pour se différencier. La prochaine étape sera de voir si les utilisateurs adoptent réellement ce mode de navigation conversationnel plutôt que la recherche classique.

OutilsOutil
1 source
562Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source
563Le Big Data 

Ne supprimez pas vos réunions ! Elles sont votre meilleure protection face à l’IA

Alors que l'intelligence artificielle compresse le temps de production des tâches intellectuelles, réduisant des projets de plusieurs mois à quelques heures, une constante résiste : les réunions. Dan Sirk, directeur marketing travaillant simultanément pour deux entreprises grâce à ChatGPT, Gemini et Claude, produit plus vite, seul, à moindre coût. Pourtant, il identifie les réunions comme la limite concrète à son expansion : déjà une dizaine par semaine, son agenda serait saturé au-delà de trois entreprises. Cette observation illustre un phénomène documenté par le New York Times : l'IA ne réduit pas la charge globale de travail, elle la déplace vers la coordination humaine. La raison est structurelle. Plus l'IA génère d'options, de stratégies et de prototypes, plus les équipes doivent arbitrer, prioriser et s'aligner. Ces décisions ne peuvent pas être déléguées à des systèmes automatisés : présenter une idée, convaincre des collègues, rassurer un client, négocier un compromis, ces dimensions restent irréductiblement humaines. Les réunions deviennent ainsi le lieu où la production brute se transforme en décisions concrètes. Chez Salesforce, des employés cherchent à renforcer leurs liens clients au-delà des échanges automatisés, par l'écoute active et l'accompagnement émotionnel. Chez PolicyFly, l'IA a divisé par deux le temps d'intégration client, mais les réunions demeurent : les clients veulent être rassurés, poser des questions, valider leurs choix en direct. Ce phénomène prolonge une tendance identifiée dès 2017 par le National Bureau of Economic Research : l'automatisation augmente la valeur des compétences sociales. Plus les machines absorbent les tâches techniques, plus les postes exigeant de fortes interactions humaines se multiplient. L'IA de 2024-2026 amplifie cette dynamique à grande échelle. Dans les processus de recrutement des entreprises technologiques, les compétences techniques cèdent du terrain face à la capacité à proposer des idées pertinentes et à convaincre. Dans le conseil, les présentations sont en partie générées par l'IA, mais les consultants performants sont ceux qui comprennent les modes de décision de leurs clients, une connaissance qui s'acquiert en réunion. Loin d'être des espaces d'inefficacité à éliminer, les réunions deviennent le terrain où se joue la valeur ajoutée humaine dans un monde où la production est largement automatisée.

SociétéOpinion
1 source
564VentureBeat AI 

Des dirigeants de Google, dont Demis Hassabis, contestent les allégations d'une adoption inégale de l'IA en interne

Un post publié le 13 avril sur X par Steve Yegge, ancien ingénieur Google reconverti en directeur de l'ingénierie chez Sourcegraph, a déclenché une vive polémique dans la Silicon Valley. Yegge y relayait les propos d'un ami, ingénieur actuel chez Google, selon lesquels l'adoption interne de l'IA chez Google serait bien plus banale que ce que l'entreprise laisse entendre. Selon cette source anonyme, les équipes de Google suivraient une distribution classique : 20 % de refractaires à l'IA, 60 % d'utilisateurs intermédiaires cantonnés aux assistants de code basiques, et seulement 20 % d'ingénieurs véritablement engagés dans des workflows agentiques avancés. Le post a rapidement enflammé les réseaux, atteignant 4 500 likes, 458 commentaires et 1,9 million de vues en moins de 24 heures. L'ami en question aurait également affirmé que certains Googlers ne pouvaient pas utiliser Claude Code d'Anthropic, perçu en interne comme "l'ennemi", et que Gemini n'était pas encore à la hauteur pour les cas d'usage les plus avancés. La réaction du côté de Google a été immédiate et tranchante. Demis Hassabis, cofondateur et PDG de Google DeepMind, a répondu directement à Yegge : "Dis à ton ami de faire un vrai travail plutôt que de propager des absurdités. Ce post est complètement faux, du pur clickbait." Addy Osmani, directeur chez Google Cloud AI, a livré une réfutation plus détaillée, affirmant que "plus de 40 000 ingénieurs utilisent des outils de codage agentiques chaque semaine" et que les équipes ont accès à des modèles personnalisés, des CLIs et des MCPs maison. Il a précisé que les Googlers peuvent même utiliser les modèles d'Anthropic via Vertex AI, concluant que "Google est tout sauf dans la moyenne." L'ingénieure Jaana Dogan a abondé dans ce sens, décrivant un usage quasi continu des outils IA dans son environnement quotidien. L'écho considérable de ce débat s'explique en grande partie par le profil de Yegge : avec treize ans chez Google, des passages chez Amazon et Grab, il s'est construit au fil des années une réputation d'insider-outsider au franc-parler, dont les analyses circulent largement dans les milieux tech. Un mémo interne qu'il avait rédigé chez Google en 2011 avait fuité et fait le tour des médias spécialisés, lui conférant un statut particulier. La polémique s'inscrit dans un contexte plus large : alors que les grandes entreprises tech rivalisent de communication autour de leur adoption de l'IA, la question de ce qui se passe réellement derrière les portes devient un enjeu de crédibilité. Pour Google, dont Gemini est à la fois un produit stratégique et un outil interne, toute suggestion d'un usage tiède en interne touche directement à la cohérence de son discours public.

BusinessOpinion
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
565MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible
566Google AI Blog 

Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible

Google a mis en disponibilité Veo 3.1 Lite, sa nouvelle version allégée de modèle de génération vidéo, en accès payant via l'API Gemini et en test gratuit sur Google AI Studio. Présenté comme le modèle de génération vidéo le plus économique de la gamme, il s'adresse aux développeurs et entreprises souhaitant intégrer la création vidéo IA dans leurs applications sans supporter les coûts de la version complète Veo 3.1. Ce lancement répond à une demande croissante de solutions vidéo IA accessibles pour les équipes produit et les startups. En proposant une alternative moins coûteuse, Google ouvre la génération vidéo à une base bien plus large de développeurs, au-delà des grandes entreprises capables d'absorber les tarifs premium. La disponibilité directe via l'API Gemini facilite l'intégration dans des pipelines existants. Veo 3.1 Lite s'inscrit dans la stratégie de Google de démocratiser ses outils d'IA générative face à la concurrence de Sora d'OpenAI et Runway. La famille Veo, lancée en 2024, monte progressivement en accessibilité après avoir ciblé initialement les partenaires enterprise. La phase de "paid preview" suggère une disponibilité générale prochaine, avec des tarifs définitifs à préciser.

UELes développeurs et startups européens peuvent désormais intégrer la génération vidéo IA dans leurs pipelines applicatifs à moindre coût via l'API Gemini.

OutilsOutil
1 source
STADLER réinvente le travail intellectuel dans une entreprise vieille de 230 ans
567OpenAI Blog 

STADLER réinvente le travail intellectuel dans une entreprise vieille de 230 ans

STADLER, entreprise vieille de 230 ans spécialisée dans les systèmes de tri et de gestion des déchets, a déployé ChatGPT auprès de 650 collaborateurs pour transformer leur façon de traiter l'information et de produire du contenu. L'initiative, menée en partenariat avec OpenAI, vise à automatiser les tâches répétitives à forte valeur cognitive — rédaction de documents, synthèse de rapports, recherche interne — afin de libérer du temps pour des activités à plus forte valeur ajoutée. Des gains de productivité mesurables ont déjà été observés dans plusieurs départements depuis le déploiement. L'enjeu est de taille pour une entreprise industrielle traditionnelle : intégrer des outils d'IA générative dans des processus métiers souvent rigides constitue un changement culturel autant que technologique. Pour les 650 employés concernés, cela représente une nouvelle façon de travailler au quotidien, avec des assistants IA capables de rédiger, résumer et structurer l'information en quelques secondes là où il fallait auparavant plusieurs heures. Le cas STADLER illustre une tendance de fond : les entreprises industrielles centenaires, longtemps considérées comme réfractaires à l'innovation numérique rapide, accélèrent désormais leur adoption de l'IA générative. OpenAI multiplie ce type de partenariats avec des entreprises B2B pour ancrer ChatGPT Enterprise dans les flux de travail réels, face à la concurrence de Microsoft Copilot et Google Gemini for Workspace. La prochaine étape pour STADLER sera probablement d'étendre ces usages à l'ensemble de la chaîne de valeur, de la conception à la relation client.

UEUne entreprise industrielle européenne de 650 salariés adopte ChatGPT Enterprise, illustrant l'accélération de l'IA générative dans le tissu industriel traditionnel du continent.

OutilsActu
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
568Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
Créez avec Lyria 3, notre nouveau modèle de génération musicale
569Google AI Blog 

Créez avec Lyria 3, notre nouveau modèle de génération musicale

Google lance Lyria 3, son nouveau modèle de génération musicale, désormais accessible en préversion payante via l'API Gemini et en test gratuit dans Google AI Studio. Cette mise à disposition marque une étape importante pour les développeurs souhaitant intégrer de la création musicale dans leurs applications. Lyria 3 représente la version la plus avancée de la famille Lyria, offrant des capacités de synthèse audio de haute qualité directement accessibles via API. Lyria est la gamme de modèles IA musicaux de Google DeepMind, concurrente directe d'outils comme Suno ou Udio. Son intégration à l'écosystème Gemini facilite son adoption par les développeurs déjà familiers avec les outils Google.

OutilsActu
1 source
OpenAI veut doubler son nombre d’employés en 2026 : comment postuler ?
570Le Big Data 

OpenAI veut doubler son nombre d’employés en 2026 : comment postuler ?

OpenAI prévoit de doubler ses effectifs, passant de 4 500 à 8 000 employés d'ici fin 2026 (soit +80 %), selon Reuters. Face à la concurrence de Google et de ses modèles Gemini, l'entreprise a déclenché un "code red" fin 2025 pour accélérer ses développements. Au-delà des profils techniques, OpenAI recrute aussi des rôles hybrides comme les "technical ambassadors", chargés d'accompagner les entreprises dans l'adoption de ses outils.

BusinessActu
1 source
Google teste un bouton pour discuter avec son IA directement dans Chrome
571Siècle Digital 

Google teste un bouton pour discuter avec son IA directement dans Chrome

Google expérimente sur Chrome mobile (iPhone) un bouton « Ask Gemini » intégré directement dans le navigateur, visant à faire de l'IA une fonctionnalité native plutôt qu'un outil annexe. Cette initiative s'inscrit dans la tendance générale d'accélération de l'intégration de l'IA dans les navigateurs web.

UELes utilisateurs européens de Chrome sur iPhone pourraient bénéficier de cette fonctionnalité, mais son déploiement en UE reste soumis aux contraintes du DMA.

OutilsOutil
1 source
Rohit Patel (Meta) : « L’IA actuelle est une base largement suffisante pour transformer profondément la société »
572La Tribune 

Rohit Patel (Meta) : « L’IA actuelle est une base largement suffisante pour transformer profondément la société »

Rohit Patel, directeur du Superintelligence Labs de Meta, estime que les grands modèles de langage actuels (Llama, ChatGPT, Gemini) constituent une base suffisante pour transformer profondément la société, contrairement à Yann LeCun qui juge nécessaire d'aller au-delà de l'IA générative. Il reconnaît cependant des limitations importantes à ces modèles, notamment l'absence de mémoire robuste et l'incapacité à percevoir le passage du temps.

LLMsOpinion
1 source
Comment concevoir un agent IA prêt pour la production qui automatise les workflows Google Colab avec Colab-MCP, MCP Tools, FastMCP et l'exécution du kernel
573MarkTechPost 

Comment concevoir un agent IA prêt pour la production qui automatise les workflows Google Colab avec Colab-MCP, MCP Tools, FastMCP et l'exécution du kernel

Google a publié colab-mcp, un serveur MCP open-source permettant à des agents IA (comme Claude ou Gemini) de contrôler programmatiquement des notebooks Google Colab via le protocole JSON-RPC. Le tutoriel couvre deux modes opérationnels : le Session Proxy (pont WebSocket entre navigateur et agent) et le Runtime Mode (exécution directe de code dans le kernel Jupyter avec état persistant). Il détaille également la construction d'une boucle d'agent complète avec FastMCP, incluant gestion des erreurs, retries exponentiels, et séquençage de cellules dépendantes pour un usage en production.

OutilsOutil
1 source
574Frandroid 

Votre Mac va enfin accueillir l’une des meilleures IA

Google prépare le lancement d'une application native Gemini pour macOS, rejoignant ainsi les offres déjà proposées par Anthropic et OpenAI sur la plateforme d'Apple. Cette application offrira aux utilisateurs Mac un accès amélioré à l'IA Gemini. Aucune date de sortie précise n'est mentionnée.

OutilsOutil
1 source
575Le Big Data 

La presse et l’IA : l’importance de la visibilité médiatique à l’heure des moteurs d’Intelligence Artificielle

Constance Blanc, fondatrice d'Évidemment l'Agence, alerte sur un nouvel enjeu pour les entreprises : sans présence médiatique, elles risquent de disparaître des réponses des IA génératives comme GPT-4, Claude ou Gemini. Ces modèles privilégient les sources journalistiques car elles offrent trois garanties — éditorialisation, attribution et validation — que les algorithmes reconnaissent comme des signaux de confiance (Trust Signals). En 2026, la visibilité dans la presse devient donc un prérequis à l'autorité numérique, supplantant le SEO classique.

UELes entreprises françaises doivent repenser leur stratégie de relations presse pour maintenir leur visibilité dans les réponses des moteurs d'IA génératifs.

OutilsOpinion
1 source
576Numerama 

Adieu Figma ? Google réinvente Stitch pour vous permettre de designer des apps à la voix

Google Labs a annoncé le 18 mars 2026 une refonte de Stitch, son outil de design d'interfaces web et mobiles basé sur les modèles Gemini. Stitch permet de générer des interfaces à partir de prompts texte, d'images ou de croquis. La nouveauté majeure est l'ajout de la commande vocale pour designer des applications.

OutilsOutil
1 source
577Wired AI 

Pourquoi Walmart et OpenAI remettent à plat leur accord de shopping agentique

Walmart intègre désormais son assistant IA Sparky directement dans ChatGPT et Google Gemini, après l'échec de la fonctionnalité Instant Checkout d'OpenAI. Ce changement de stratégie marque un tournant dans leur partenariat commercial axé sur le shopping agentique.

BusinessOpinion
1 source
La puissance de Personal Intelligence accessible au plus grand nombre
578Google AI Blog 

La puissance de Personal Intelligence accessible au plus grand nombre

Google étend sa fonctionnalité Personal Intelligence à davantage d'utilisateurs, en l'intégrant au mode IA de Search, à l'application Gemini et à Gemini dans Chrome. Cette expansion vise à offrir une expérience plus personnalisée à travers les différents produits Google alimentés par l'IA.

UELes utilisateurs européens de Google Search, Gemini et Chrome pourront bénéficier de fonctionnalités de personnalisation IA accrues, sous réserve des contraintes du RGPD.

OutilsOutil
1 source
Employés d'OpenAI et Google soutiennent le recours d'Anthropic contre le Pentagone
579The Verge AI 

Employés d'OpenAI et Google soutiennent le recours d'Anthropic contre le Pentagone

Anthropic a déposé lundi une plainte contre le Département de la Défense américain après avoir été désigné comme "risque pour la chaîne d'approvisionnement" — une classification habituellement réservée aux entreprises étrangères. Dans la foulée, près de 40 employés d'OpenAI et Google, dont Jeff Dean (chef scientifique de Google et responsable de Gemini), ont soumis un mémoire d'amicus curiae en soutien à Anthropic. Cette désignation par l'administration Trump soulève de vives inquiétudes sur ses implications pour le secteur de l'IA américain.

RégulationActu
1 source
Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts
580Le Big Data 

Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts

Sam Altman qualifie GPT-5.4 de son modèle préféré, saluant ses performances en code et sa personnalité, mais l'investisseur Matt Schumer identifie trois faiblesses notables. Le modèle génère des interfaces fonctionnelles mais visuellement médiocres comparées à Claude Opus 4.6 ou Gemini 3.1 Pro, et peine à intégrer le contexte réel (ex. : itinéraires de voyage ignorant les périodes de vacances scolaires). Ces lacunes freinent encore son adoption dans certains cas d'usage malgré ses performances techniques globalement élevées.

LLMsOpinion
1 source
Créez avec Nano Banana 2, notre meilleur modèle de génération et d'édition d'images
581Google AI Blog 

Créez avec Nano Banana 2, notre meilleur modèle de génération et d'édition d'images

Nano Banana 2 (Gemini 3.1 Flash Image) est le nouveau modèle de génération et d'édition d'images de Google, offrant une intelligence et une fidélité de niveau Pro pour toutes les applications d'image. Il apporte les capacités du modèle Pro dans un format optimisé pour les développeurs souhaitant intégrer la génération d'images dans leurs projets.

OutilsOutil
1 source
Salesforce déploie un nouveau agent Slackbot AI alors qu'il se bat contre Microsoft et Google dans l'IA au travail
582VentureBeat AI 

Salesforce déploie un nouveau agent Slackbot AI alors qu'il se bat contre Microsoft et Google dans l'IA au travail

Salesforce a introduit une nouvelle version redéveloppée de Slackbot, un assistant de bureau transformé en agent d'IA autonome capable de rechercher des données d'entreprise, rédiger des documents et agir en nomme des employés. Disponible pour les clients Business+ et Enterprise+, cette mise à jour montre l'ambition de Salesforce de positionner Slack au cœur du mouvement de l'IA agentic, où les agents logiciels collaborent avec les humains pour accomplir des tâches complexes. Cette initiative fait partie de l'effort de Salesforce pour convaincre les investisseurs que l'IA renforcera ses produits plutôt que de les rendre obsolètes. Le nouveau Slackbot, basé sur le grand modèle linguistique (LLM) d'Anthropic appelé Claude, respecte les exigences de certification FedRAMP Moderate pour les clients gouvernementaux américains, mais Salesforce envisage d'intégrer d'autres modèles comme Gemini de Google et ceux d'OpenAI à l'avenir.

BusinessActu
1 source