Aller au contenu principal

Outils — page 19

1368 articles · page 19 sur 28

Les meilleurs outils IA : applications, produits et services propulsés par l'intelligence artificielle.

Mistral AI lance un modèle de synthèse vocale
901AI Business OutilsOpinion

Mistral AI lance un modèle de synthèse vocale

Mistral AI, la startup française spécialisée dans les modèles de langage, a lancé son premier modèle de synthèse vocale (text-to-speech), baptisé Mistral TTS. Compatible avec neuf langues — dont le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le polonais et le russe —, le modèle est disponible via l'API de la plateforme La Plateforme et vise en priorité les applications d'agents vocaux en production. Ce lancement représente une extension stratégique de l'offre Mistral au-delà du texte pur. Les agents vocaux — utilisés dans le service client, les assistants embarqués ou la téléphonie automatisée — nécessitent des modèles TTS rapides, naturels et multilingues. En intégrant cette brique directement dans son écosystème, Mistral permet aux développeurs de construire des workflows vocaux complets sans dépendre de fournisseurs tiers comme ElevenLabs ou la voix de Google. Fondée en 2023 par d'anciens chercheurs de Google DeepMind et Meta, Mistral s'est imposée comme le principal challenger européen face aux géants américains de l'IA. Après avoir consolidé ses modèles de texte et de code, l'entreprise comble progressivement les manques de sa plateforme pour proposer une suite complète. Le TTS multilingue arrive dans un marché en pleine effervescence, où la voix devient un vecteur central d'interaction entre humains et systèmes d'IA.

UEMistral TTS offre aux entreprises européennes une alternative souveraine aux solutions vocales américaines pour déployer des agents vocaux multilingues sans dépendre de fournisseurs tiers.

1 source
openJiuwen publie 'JiuwenClaw', un agent IA auto-évolutif pour la gestion de tâches
902MarkTechPost 

openJiuwen publie 'JiuwenClaw', un agent IA auto-évolutif pour la gestion de tâches

La communauté openJiuwen a publié JiuwenClaw, un agent IA conçu pour exécuter des tâches complexes de bout en bout, sans perdre le fil en cours de route. Contrairement aux agents conversationnels classiques qui traitent chaque modification comme une nouvelle requête indépendante, JiuwenClaw maintient un état d'exécution continu : il gère les interruptions, les réordonnancementset les ajouts de tâches sans perdre le contexte accumulé. Concrètement, dans un scénario bureautique sous Excel, l'agent peut enchaîner organisation de tableau, déduplication, ajout de synthèse et changement de format de sortie — en suivant les intentions de l'utilisateur, et non en recommençant à zéro à chaque nouvelle instruction. Pour la création de contenu, il conserve plusieurs couches de contexte : il distingue une modification structurelle d'un ajustement de ton, préserve le style entre les itérations, et s'appuie sur le brouillon existant plutôt que de régénérer. Ce que JiuwenClaw tente de résoudre est un problème structurel qui plombe la majorité des agents IA actuels : l'amnésie contextuelle. La plupart des systèmes paraissent intelligents en conversation mais s'effondrent dès que la tâche dure plus de quelques échanges. Pour les professionnels — rédacteurs, analystes, développeurs — cela se traduit par une friction constante : reformuler, réexpliquer, reprendre depuis le début. L'agent introduit également une approche d'automatisation navigateur radicalement différente : au lieu d'opérer dans un navigateur virtuel isolé, il prend directement le contrôle du navigateur local de l'utilisateur, avec ses cookies, ses sessions actives et son identité. Cela permet de contourner les protections anti-bot et les CAPTCHAs qui rendent inutilisables la quasi-totalité des agents web en conditions réelles. Techniquement, JiuwenClaw repose sur deux innovations architecturales clés. La première est un système de mémoire hiérarchique à trois couches — une couche d'identité stable, une couche de contexte long terme, et une couche de trajectoire dynamique — qui permet à l'agent d'accumuler des préférences et du contexte au fil du temps, à la manière d'un collaborateur qui apprend. La seconde est une compression intelligente du contexte : une technologie propriétaire qui élimine les informations redondantes tout en conservant les éléments clés, évitant ainsi les explosions de tokens et réduisant significativement les coûts d'usage. JiuwenClaw s'inscrit dans une tendance de fond où les équipes de recherche cherchent à dépasser le paradigme "chat" pour construire des agents véritablement opérationnels. La compétition dans ce segment — aux côtés de projets comme AutoGPT, Devin ou les agents Anthropic — s'intensifie, mais peu ont jusqu'ici démontré une fiabilité satisfaisante sur des tâches longues et évolutives.

OutilsOutil
1 source
Gemini facilite le passage depuis ChatGPT : voici comment
903ZDNET AI 

Gemini facilite le passage depuis ChatGPT : voici comment

Google a annoncé que Gemini permet désormais aux utilisateurs d'importer leurs souvenirs, leur historique de conversations et leurs préférences depuis d'autres assistants IA comme ChatGPT. Cette fonctionnalité de migration, déployée en 2026, vise à éliminer l'un des principaux freins au changement de plateforme : la perte de tout le contexte accumulé avec un assistant au fil du temps. Concrètement, un utilisateur de ChatGPT qui a configuré ses préférences, alimenté sa mémoire personnalisée et accumulé des mois d'historique peut basculer vers Gemini sans repartir de zéro. C'est un changement significatif dans l'expérience utilisateur : jusqu'ici, changer d'assistant IA ressemblait à changer de téléphone sans pouvoir transférer ses données — une friction délibérée qui fidélisait les utilisateurs malgré eux. Cette initiative s'inscrit dans une guerre d'acquisition d'utilisateurs qui s'intensifie entre Google et OpenAI. Alors que ChatGPT reste le leader avec plusieurs centaines de millions d'utilisateurs actifs, Google mise sur l'intégration profonde de Gemini dans son écosystème (Android, Workspace, Search) et sur ce type de fonctionnalités pour convaincre les indécis de franchir le pas. La portabilité des données IA pourrait devenir un argument compétitif central en 2026, voire un terrain de régulation à venir.

UELa portabilité des données entre assistants IA pourrait devenir un terrain réglementaire en Europe, dans le cadre du DMA ou d'extensions futures de l'AI Act visant à garantir l'interopérabilité des plateformes numériques.

OutilsOutil
1 source
Sur YouTube, l’IA de Google remplace les titres et embrouille tout
90401net 

Sur YouTube, l’IA de Google remplace les titres et embrouille tout

Google teste actuellement une nouvelle fonctionnalité sur YouTube qui remplace automatiquement les titres des vidéos par des résumés générés par intelligence artificielle. Repérée par plusieurs utilisateurs, l'expérimentation s'affiche directement sur la page d'accueil de la plateforme, substituant les intitulés choisis par les créateurs par des descriptions synthétiques produites par le modèle IA de Google. Le déploiement semble limité à un sous-ensemble d'utilisateurs dans le cadre d'un test A/B, sans annonce officielle de la part de la firme de Mountain View. Le problème est double : d'une part, les créateurs de contenu perdent le contrôle sur la présentation de leurs vidéos, titre et accroche étant des éléments cruciaux pour le référencement et le taux de clics. D'autre part, les résumés générés par IA introduisent les défauts habituels de la génération automatique de texte — hallucinations, approximations, reformulations qui trahissent le sens original. Pour les créateurs qui travaillent leurs titres comme un outil marketing précis, voir leur contenu réinterprété par un algorithme représente une perte de maîtrise concrète sur leur audience. Cette expérimentation s'inscrit dans la stratégie plus large de Google d'intégrer Gemini à l'ensemble de ses produits, parfois de manière forcée. YouTube, avec ses 2,7 milliards d'utilisateurs mensuels, est un terrain d'expérimentation massif. Mais la greffe de l'IA générative sur des interfaces déjà rodées suscite une résistance croissante des utilisateurs et des créateurs, qui reprochent à Google de dégrader l'expérience au nom de l'innovation — une tension qui devrait s'accentuer à mesure que ces déploiements se généralisent.

UELes créateurs de contenu français et européens pourraient perdre le contrôle de la présentation de leurs vidéos YouTube, avec un impact direct sur leur référencement et leur taux de clics.

OutilsOutil
1 source
WhatsApp passe à la vitesse supérieure avec l’IA et peut désormais répondre à votre place
905Siècle Digital 

WhatsApp passe à la vitesse supérieure avec l’IA et peut désormais répondre à votre place

WhatsApp franchit une nouvelle étape dans l'intégration de l'intelligence artificielle avec le déploiement d'une fonctionnalité permettant à Meta AI de suggérer des réponses complètes directement dans les conversations. Contrairement aux suggestions automatiques basiques déjà présentes sur d'autres plateformes, le système analyse le contexte de l'échange en cours pour proposer des formulations adaptées au ton et au contenu du fil de discussion. Cette mise à jour s'inscrit dans une série de nouveautés IA annoncées par Meta pour son application de messagerie, qui compte plus de deux milliards d'utilisateurs actifs dans le monde. L'enjeu est considérable : pour la première fois, une IA intégrée à une messagerie grand public peut potentiellement rédiger des messages à la place de l'utilisateur, sans que le destinataire en soit informé. Cela soulève des questions concrètes sur l'authenticité des échanges privés, mais répond aussi à une demande réelle — gagner du temps sur des réponses répétitives ou formuler plus facilement des messages dans une langue étrangère. Pour les professionnels utilisant WhatsApp Business, l'impact pourrait être immédiat sur la gestion du service client. Cette évolution s'inscrit dans la stratégie d'ensemble de Meta, qui déploie depuis 2023 son assistant Meta AI sur l'ensemble de ses plateformes — Facebook, Instagram, Messenger et WhatsApp. La firme de Mark Zuckerberg cherche à rattraper son retard face à Google (avec Gemini dans Android Messages) et Apple (avec Apple Intelligence dans iMessage), tandis que la question de la confidentialité des données utilisées pour entraîner ces modèles reste entière, notamment en Europe où le RGPD encadre strictement ce type de traitement.

UEL'intégration de Meta AI dans les conversations WhatsApp soulève des questions de conformité RGPD sur le traitement des données des échanges privés des utilisateurs européens.

OutilsOutil
1 source
Google Lyria : l’IA de musique passe au niveau suivant avec ces nouveautés
906Le Big Data 

Google Lyria : l’IA de musique passe au niveau suivant avec ces nouveautés

Google a dévoilé Lyria Pro, une nouvelle version majeure de son IA de création musicale, capable de générer des morceaux complets pouvant atteindre trois minutes de durée structurée — intros, couplets, refrains et ponts inclus. Un bond considérable par rapport à la version précédente, limitée à des extraits d'une trentaine de secondes. La fonctionnalité est réservée aux abonnés payants des formules Business, Enterprise, Google AI Pro et Ultra, avec une intégration directe dans l'application de productivité Vids. Les morceaux peuvent être générés en français et dans sept autres langues, et la plateforme propose également un générateur de pochettes d'albums via l'outil Nano Banana. L'accès pour les clients Education Plus et Google AI Pro est présenté comme une phase promotionnelle limitée jusqu'à fin mai 2026. Cette évolution change concrètement la donne pour les équipes de communication, les créateurs de contenu vidéo et les entreprises qui produisent des supports audiovisuels en volume. Jusqu'ici, obtenir une bande sonore originale impliquait soit de payer des licences musicales externes, soit de faire appel à des compositeurs. Lyria Pro court-circuite ces deux options en permettant à n'importe quel collaborateur, sans formation musicale, de générer en quelques clics une musique cohérente et adaptée à l'identité visuelle d'une marque. L'intégration dans Vids vise précisément la post-production professionnelle, transformant la création sonore en tâche ordinaire de bureautique. Pour les entreprises, le calcul économique est direct : réduire la dépendance aux bibliothèques de licences et accélérer les cycles de production. Cette montée en puissance s'inscrit dans un contexte de tension croissante entre les grandes plateformes technologiques et l'industrie musicale traditionnelle, qui durcit ses positions face à la prolifération de contenus générés algorithmiquement. Google choisit délibérément la trajectoire inverse — non pas limiter ces contenus, mais les rendre omniprésents dans son écosystème d'outils professionnels. Lyria devient ainsi un levier de rétention pour l'abonnement Ultra, dans une logique de suite intégrée comparable à ce qu'Adobe tente avec Firefly sur le visuel. Les questions sur la valeur artistique de la musique de stock générée par IA, déjà soulevées par les syndicats de musiciens, prennent ici une dimension nouvelle : ce n'est plus un outil de niche, mais une fonctionnalité embarquée dans des produits utilisés quotidiennement par des millions d'entreprises. La prochaine bataille se jouera probablement sur le terrain juridique des droits d'auteur liés aux données d'entraînement.

UELes entreprises françaises abonnées à Google Workspace (Business, Enterprise, AI Pro) peuvent désormais générer des musiques originales en français pour leurs productions vidéo, réduisant leur dépendance aux bibliothèques de licences musicales.

OutilsOutil
1 source
Motorola Project Maxwell : la marque fait un grand bond en avant
907Le Big Data 

Motorola Project Maxwell : la marque fait un grand bond en avant

Motorola a dévoilé le Project Maxwell lors du CES 2026 et du Lenovo Tech World, un prototype de wearable IA développé par ses 312 Labs sous la forme d'une broche magnétique ultra-légère. Ce pendentif intelligent embarque une caméra grand angle et des microphones pour capter en continu l'environnement visuel et sonore de son porteur, sans écran ni boutons physiques. L'interaction se fait uniquement par la voix ou par gestes naturels face à l'optique intégrée. Le dispositif s'appuie sur la plateforme Qira de Lenovo pour traiter les données multimodales en temps réel et fournir des recommandations personnalisées, fonctionnant de façon autonome, sans dépendre d'un smartphone. L'enjeu central de ce projet est de proposer une assistance proactive qui anticipe les besoins avant même qu'ils soient formulés — ce que Motorola appelle une « informatique ambiante ». Là où les wearables IA précédents, notamment les tentatives ratées de 2024 comme l'Humane AI Pin ou le Rabbit R1, ont souffert d'une interface intrusive et d'une autonomie décevante, le Project Maxwell mise sur la discrétion et la légèreté. Pour les utilisateurs professionnels ou les early adopters, cela représente un changement de paradigme : passer d'un outil qu'on consulte à un outil qui observe et agit en arrière-plan. La broche ne cherche pas à capter l'attention visuelle mais à enrichir la perception de manière quasi invisible, ce qui change fondamentalement la relation entre l'humain et sa technologie. Ce prototype s'inscrit dans une réflexion entamée par Motorola dès 2025 sur l'ère post-smartphone, au moment où le marché des écrans pliables commence à stagner et où l'industrie cherche le prochain facteur de forme dominant. La collaboration avec Lenovo, maison mère de Motorola, apporte la puissance de calcul et l'écosystème logiciel nécessaires pour crédibiliser la vision. En choisissant de présenter un proof-of-concept fonctionnel plutôt qu'un produit commercial, Motorola adopte une stratégie prudente, tirée des leçons des lancements précipités de ses concurrents. Aucune date de commercialisation ni prix n'ont été communiqués pour l'instant, ce qui laisse entendre que le projet reste en phase d'exploration active. La vraie question est de savoir si Motorola parviendra à transformer ce concept séduisant en produit grand public viable, dans un segment où les attentes en matière de confidentialité des données — caméra et microphone actifs en permanence — représentent un obstacle majeur à la adoption massive.

UELe dispositif, s'il venait à être commercialisé, se heurterait en Europe à des obstacles réglementaires majeurs liés au RGPD, notamment en raison de la captation continue d'images et de sons dans l'espace public.

OutilsOutil
1 source
Tencent mise sur OpenClaw pour rattraper son retard dans la course à l'IA en Chine
908The Information AI 

Tencent mise sur OpenClaw pour rattraper son retard dans la course à l'IA en Chine

Tencent a lancé ce mois-ci pas moins de huit applications et services basés sur OpenClaw, le framework open source de création d'agents IA devenu viral en janvier 2026. Parmi eux, QClaw — imaginé par Shuyu Zhang, un chef de produit récemment embauché — permet d'installer un agent IA en un clic et de le piloter directement depuis WeChat, l'application de messagerie dominante en Chine. Dimanche dernier, Tencent a également lancé Weixin ClawBot, un outil qui intègre OpenClaw nativement dans Weixin, le nom chinois de WeChat. Cette offensive illustre l'urgence ressentie au sein du géant technologique de Shenzhen : après des années perçu comme un suiveur dans la course à l'IA en Chine, Tencent tente de rattraper son retard en s'appuyant sur l'engouement mondial pour OpenClaw. L'intégration dans WeChat est stratégique — avec plus d'un milliard d'utilisateurs actifs, la plateforme offre une rampe de distribution sans équivalent pour déployer des agents IA à grande échelle auprès du grand public chinois. OpenClaw a déclenché une vague d'adoption frénétique dans l'industrie technologique mondiale depuis son émergence en janvier, et la Chine ne fait pas exception. Tencent affronte sur ce terrain des rivaux comme Alibaba, ByteDance et Baidu, tous engagés dans une course effrénée aux agents IA. La capacité de Tencent à tirer parti de l'écosystème WeChat pourrait lui donner un avantage décisif, mais la vitesse de déploiement et la qualité des agents restent des variables critiques dans une compétition qui s'intensifie semaine après semaine.

OutilsOutil
1 source
OpenAI améliore Codex pour automatiser les workflows et concurrencer Claude Code
909ZDNET AI 

OpenAI améliore Codex pour automatiser les workflows et concurrencer Claude Code

OpenAI a annoncé une mise à jour significative de Codex, son assistant de programmation, en lui ajoutant un système de plugins conçus pour étendre ses capacités bien au-delà de la simple génération de code. Ces nouvelles intégrations permettent à Codex d'automatiser des flux de travail complets, en interagissant avec des outils tiers, des APIs et des services externes directement depuis l'environnement de développement. Cette évolution vise à repositionner Codex face à Claude Code d'Anthropic, qui a pris une avance notable auprès des développeurs professionnels ces derniers mois. En transformant Codex en un agent capable d'agir sur des workflows entiers plutôt que de se limiter à l'écriture de fonctions isolées, OpenAI cherche à récupérer une part de cet écosystème très convoité, où les développeurs constituent une audience stratégique à forte valeur d'influence. La bataille pour le poste de travail des développeurs s'intensifie entre les deux leaders de l'IA générative. Claude Code a su séduire par sa capacité à comprendre des codebases complexes et à exécuter des tâches multi-étapes de façon autonome. OpenAI riposte en misant sur l'extensibilité via les plugins, une stratégie qui rappelle le succès du plugin store de ChatGPT. L'enjeu dépasse le simple outillage : celui qui s'impose dans l'environnement de développement influence directement les choix d'infrastructure et de modèles de toute une génération d'applications IA.

OpenAI étend son API Responses pour en faire une base pour les agents autonomes
910InfoQ AI 

OpenAI étend son API Responses pour en faire une base pour les agents autonomes

OpenAI a annoncé une extension majeure de son API Responses, transformant cette interface en fondation dédiée à la création d'agents autonomes. Parmi les nouvelles fonctionnalités dévoilées figurent un outil shell intégré, une boucle d'exécution agentique native, un espace de travail conteneurisé hébergé par OpenAI, un mécanisme de compaction du contexte pour gérer les longues sessions, et un système de compétences réutilisables permettant de composer des agents modulaires. Cette mise à jour positionne explicitement l'API Responses comme le socle recommandé pour les workflows multi-étapes et les agents capables d'agir de manière prolongée sans intervention humaine. Pour les développeurs, ces ajouts réduisent considérablement la complexité de construire des agents fiables. Auparavant, gérer une boucle d'exécution, maintenir un contexte cohérent sur de longues chaînes d'actions ou orchestrer des outils système nécessitait une infrastructure personnalisée lourde. En intégrant ces mécanismes directement dans l'API, OpenAI abaisse la barrière d'entrée et permet à des équipes réduites de déployer des agents capables d'accomplir des tâches complexes — automatisation de code, analyse de données, interactions avec des systèmes externes — sans réinventer l'infrastructure sous-jacente. Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA pour capter l'écosystème développeur autour de l'agentique. Anthropic pousse son SDK Claude Agent, Google déploie ses propres outils d'orchestration, et des frameworks comme LangChain ou AutoGen tentent de rester pertinents face à ces offres natives. En intégrant l'outillage directement dans son API, OpenAI cherche à fidéliser les développeurs dans son écosystème et à standardiser sa vision de ce que doit être un agent — une pression supplémentaire sur les concurrents pour accélérer leurs propres offres.

UELes développeurs européens peuvent adopter directement ces nouvelles capacités agentiques natives via l'API Responses d'OpenAI, réduisant la dépendance aux frameworks tiers comme LangChain ou AutoGen.

OutilsOutil
1 source
Le Codex d'OpenAI s'intègre à Slack, Notion, Figma et d'autres outils via une place de marché de plugins
911The Decoder 

Le Codex d'OpenAI s'intègre à Slack, Notion, Figma et d'autres outils via une place de marché de plugins

OpenAI enrichit son assistant de codage Codex avec une place de marché de plugins permettant de l'intégrer directement aux outils de travail les plus répandus : Slack, Figma, Notion, Gmail et Google Drive sont parmi les premières intégrations annoncées. Cette extension transforme Codex, jusqu'ici centré sur la génération et la révision de code, en un hub connecté à l'environnement de travail quotidien des équipes techniques. L'enjeu est de supprimer les frictions entre l'assistant IA et les workflows existants. Un développeur pourra, par exemple, demander à Codex de lire un ticket Notion, générer le code correspondant et poster un résumé dans un canal Slack, sans quitter l'interface. Pour les équipes produit et design, la connexion à Figma ouvre la possibilité de transformer des maquettes directement en code, réduisant les allers-retours entre designers et ingénieurs. Cette annonce s'inscrit dans la course que se livrent OpenAI, GitHub Copilot (Microsoft) et Google avec Gemini Code Assist pour dominer le marché des outils de développement assistés par IA. En misant sur l'intégration aux outils de collaboration plutôt que sur la seule performance du modèle, OpenAI adopte une stratégie d'écosystème similaire à celle qui a fait le succès de Slack ou Notion eux-mêmes — et qui pourrait rendre Codex difficile à déloger une fois ancré dans les habitudes des équipes.

OutilsOutil
1 source
Gemini veut récupérer vos conversations issues de ChatGPT et Claude
912Blog du Modérateur 

Gemini veut récupérer vos conversations issues de ChatGPT et Claude

Google a lancé deux nouvelles fonctionnalités pour Gemini conçues explicitement pour attirer les utilisateurs de ChatGPT et Claude : un importateur de conversations et un outil de comparaison côte à côte. L'importateur permet de transférer l'historique de ses échanges depuis les assistants concurrents directement dans Gemini, tandis que le comparateur affiche en parallèle les réponses de Gemini et d'un autre modèle sur la même requête. Ces outils sont actuellement déployés aux États-Unis, mais restent indisponibles en France et dans l'Union européenne. Pour Google, l'enjeu est de réduire le coût du changement qui freine les utilisateurs à quitter un assistant IA pour un autre. L'historique de conversations représente une forme de fidélisation puissante — perdre ses échanges passés, ses contextes de travail, ses habitudes de prompt, c'est recommencer à zéro. En supprimant cette friction, Google espère convertir une partie des 400 millions d'utilisateurs hebdomadaires déclarés par OpenAI pour ChatGPT. Cette offensive intervient dans un contexte de guerre d'attrition entre les grands acteurs de l'IA grand public. OpenAI domine toujours le marché avec ChatGPT, Anthropic consolide Claude comme alternative premium, et Google cherche à capitaliser sur son intégration native dans Android, Search et Workspace pour imposer Gemini. L'absence de déploiement européen reflète probablement des contraintes liées au RGPD, notamment sur le transfert et le traitement des données personnelles issues de services tiers — un obstacle réglementaire qui pourrait retarder l'arrivée de ces fonctionnalités en France.

UELes fonctionnalités d'importation de conversations et de comparaison ne sont pas disponibles en France ni dans l'UE, probablement bloquées par le RGPD sur le transfert de données personnelles issues de services tiers concurrents.

OutilsOutil
1 source
iOS 27 : Apple va ouvrir Siri à ChatGPT, Claude, Gemini et aux IA tierces
913Blog du Modérateur 

iOS 27 : Apple va ouvrir Siri à ChatGPT, Claude, Gemini et aux IA tierces

Apple prépare pour iOS 27 un système baptisé Extensions qui permettra à des assistants IA tiers — dont Gemini de Google, Claude d'Anthropic et Perplexity — de s'intégrer directement à Siri. Cette ouverture met fin à l'exclusivité dont bénéficiait jusqu'ici OpenAI, dont ChatGPT avait été intégré à Siri dans iOS 18 comme seul partenaire IA externe. Ce changement représente une rupture stratégique majeure pour l'écosystème mobile. Les utilisateurs pourront choisir leur assistant IA préféré et l'invoquer via Siri sans quitter l'interface native d'Apple, ce qui transforme l'iPhone en plateforme neutre plutôt qu'en porte d'entrée exclusive vers un seul fournisseur. Pour les entreprises comme Anthropic, Google et Perplexity, c'est un accès direct à plus d'un milliard d'appareils Apple actifs. Ce mouvement intervient alors qu'Apple subit des critiques persistantes sur le retard de Siri face à des concurrents comme ChatGPT ou Gemini. Plutôt que de tout miser sur le développement interne de son IA, Apple adopte une approche de plateforme ouverte — une stratégie qui rappelle ce qu'elle a fait avec les extensions de navigateur ou les widgets. La question reste entière : Apple conservera-t-elle un contrôle éditorial sur quels modèles peuvent s'intégrer, et selon quelles conditions commerciales ?

UEL'ouverture de Siri aux assistants IA tiers s'inscrit dans la logique du DMA européen qui contraint Apple à ouvrir son écosystème, offrant aux utilisateurs français et européens la liberté de choisir leur assistant IA sur iPhone.

OutilsOutil
1 source
Carrefour débarque sur ChatGPT : voici comment l’IA va faciliter vos courses
914Presse-citron 

Carrefour débarque sur ChatGPT : voici comment l’IA va faciliter vos courses

Carrefour a lancé son application officielle sur ChatGPT, permettant aux utilisateurs d'interagir directement avec l'offre commerciale de l'enseigne depuis l'interface d'OpenAI. Concrètement, le plugin donne accès à trois fonctionnalités : trouver des recettes adaptées aux ingrédients disponibles, vérifier la disponibilité d'un produit en rayon, et composer un panier de courses complet, transférable ensuite sur le site carrefour.fr pour finaliser l'achat. L'intégration supprime une étape de friction dans le parcours d'achat : plutôt que de jongler entre un moteur de recherche, un site de recettes et un e-commerce, le client peut tout orchestrer en langage naturel depuis une seule interface. Pour Carrefour, c'est aussi un levier d'acquisition sur un canal où des millions d'utilisateurs passent déjà du temps — transformer une conversation en commande représente un débouché commercial direct et mesurable. Cette initiative s'inscrit dans la stratégie d'OpenAI d'ouvrir ChatGPT aux intégrations tierces via les GPT Actions, un écosystème que les grandes marques commencent à investir sérieusement. Carrefour, qui teste l'IA depuis plusieurs années (assistant virtuel, personnalisation des promotions), confirme ici son positionnement comme distributeur technophile en Europe. La prochaine étape logique serait une intégration permettant le paiement directement dans l'interface, sans redirection vers le site.

UECarrefour, premier distributeur français, ouvre un canal de vente directement dans ChatGPT, testable immédiatement par les consommateurs français.

OutilsOutil
1 source
La fonctionnalité iPhone que vous attendez depuis 2024 arriverait enfin (une bonne nouvelle pour Gemini, Claude et Perplexity)
915Presse-citron 

La fonctionnalité iPhone que vous attendez depuis 2024 arriverait enfin (une bonne nouvelle pour Gemini, Claude et Perplexity)

Apple s'apprêterait à ouvrir Siri à d'autres assistants IA que ChatGPT avec la sortie d'iOS 27, dont la présentation est prévue en juin 2026. Selon les informations disponibles, des services comme Google Gemini, Claude d'Anthropic et Perplexity pourraient bénéficier de la même intégration native qu'OpenAI dans l'interface de Siri sur les appareils compatibles avec Apple Intelligence. Cette ouverture représente un changement majeur pour les utilisateurs d'iPhone qui souhaitent utiliser un assistant IA différent de ChatGPT sans quitter l'écosystème Apple. Concrètement, cela signifierait un accès rapide à ces modèles directement depuis Siri, sans avoir à basculer vers une application tierce — un avantage d'usage considérable qui pourrait redistribuer les parts d'attention entre les grands acteurs de l'IA conversationnelle sur mobile. Jusqu'ici, Apple avait accordé un accès privilégié et exclusif à OpenAI dans le cadre d'un partenariat annoncé lors de la WWDC 2024. L'extension de ce dispositif à des concurrents comme Google ou Anthropic reflète probablement des pressions réglementaires autour de l'interopérabilité, mais aussi la volonté d'Apple de ne pas apparaître comme favorisant un seul acteur. Les détails de ces intégrations — et leur profondeur technique — devraient être dévoilés à la WWDC de juin 2026.

UEL'ouverture de Siri à plusieurs assistants IA s'inscrit probablement dans le cadre des pressions réglementaires européennes liées au DMA, qui impose l'interopérabilité aux gatekeepers, et bénéficierait directement aux utilisateurs d'iPhone en Europe.

OutilsOpinion
1 source
Claude, ChatGPT, Gemini ou Perplexity : Apple pourrait vous laisser choisir votre IA préférée
916Frandroid 

Claude, ChatGPT, Gemini ou Perplexity : Apple pourrait vous laisser choisir votre IA préférée

Apple envisage de transformer Siri en une interface ouverte permettant aux utilisateurs de choisir leur assistant IA préféré parmi les grandes plateformes disponibles sur le marché — Claude d'Anthropic, ChatGPT d'OpenAI, Gemini de Google ou encore Perplexity. Cette évolution représenterait un changement majeur dans la stratégie IA d'Apple, qui cherche à combler son retard face à des concurrents bien installés dans l'usage quotidien des consommateurs. Pour les utilisateurs d'iPhone et d'iPad, cette ouverture signifierait la possibilité de piloter leur IA de prédilection directement depuis Siri, sans quitter l'écosystème Apple. Concrètement, un utilisateur abonné à Claude ou habitué à ChatGPT pourrait continuer à utiliser son modèle favori via les interactions vocales et les raccourcis système d'iOS. Cela repositionnerait Siri non plus comme un assistant en compétition directe, mais comme une couche d'orchestration — ce qui pourrait séduire des millions d'utilisateurs frustrés par les limites actuelles de l'assistant natif. Apple a déjà amorcé cette direction avec l'intégration de ChatGPT dans iOS 18 via Apple Intelligence, annoncée à la WWDC 2024. Cette première alliance avec OpenAI avait marqué une rupture dans la posture historiquement fermée d'Apple. Élargir ce modèle à d'autres acteurs s'inscrirait dans une logique de neutralité compétitive, tout en évitant de dépendre d'un seul partenaire. La question reste entière quant aux conditions d'accès, aux données partagées et au calendrier de déploiement d'une telle fonctionnalité.

UELes millions d'utilisateurs d'iPhone en France pourraient bientôt piloter leur assistant IA favori directement via Siri, transformant l'usage quotidien pour les abonnés européens à Claude, ChatGPT ou Gemini.

OutilsOutil
1 source
ChatGPT et Claude : Gemini veut devenir votre IA principale en aspirant la mémoire des autres
917Frandroid 

ChatGPT et Claude : Gemini veut devenir votre IA principale en aspirant la mémoire des autres

Google a lancé une nouvelle fonctionnalité pour Gemini permettant aux utilisateurs d'importer leurs mémoires et préférences depuis d'autres chatbots, notamment ChatGPT d'OpenAI et Claude d'Anthropic. Concrètement, l'outil récupère l'historique de personnalisation — préférences de ton, informations personnelles, habitudes de travail — accumulé dans ces assistants concurrents, et les transfère en quelques clics vers Gemini. La fonctionnalité est déployée progressivement auprès des utilisateurs via l'interface web et mobile de Gemini. L'enjeu est considérable : la mémoire personnalisée est devenue l'un des principaux facteurs de rétention dans la guerre des chatbots. Un utilisateur qui a passé des mois à "éduquer" ChatGPT sur ses préférences hésite à tout recommencer à zéro ailleurs. En supprimant cette friction, Google retire le principal obstacle qui empêche les utilisateurs de migrer. Pour les professionnels et les utilisateurs intensifs, c'est un signal fort : Gemini veut devenir l'IA centrale du quotidien, et non plus un outil secondaire. Cette manœuvre s'inscrit dans une bataille de parts de marché où ChatGPT reste dominant malgré la montée en puissance de Claude et Gemini. Google a fortement investi dans Gemini depuis 2023, intégrant le modèle dans l'ensemble de son écosystème (Gmail, Docs, Android). L'importation de mémoire est une tactique d'acquisition directe, similaire à ce que font les banques ou opérateurs téléphoniques pour faciliter la portabilité — sauf qu'ici, c'est Google qui fixe les règles du jeu sur sa propre plateforme.

UELes utilisateurs européens de Gemini peuvent désormais importer leurs préférences depuis ChatGPT ou Claude, réduisant la friction de migration vers l'écosystème Google sur le marché européen des assistants IA.

OutilsOutil
1 source
Gemini permet désormais d'importer vos conversations et données depuis d'autres chatbots
918TechCrunch AI 

Gemini permet désormais d'importer vos conversations et données depuis d'autres chatbots

Google a annoncé le lancement d'outils de migration baptisés « switching tools », conçus pour permettre aux utilisateurs d'autres chatbots de transférer leurs conversations et informations personnelles directement vers Gemini. Cette fonctionnalité s'inscrit dans une logique de portabilité des données : un utilisateur ayant accumulé des échanges avec ChatGPT, Claude ou d'autres assistants pourra importer cet historique dans Gemini sans repartir de zéro. L'enjeu est considérable dans un marché des assistants IA ultra-concurrentiel. La barrière principale au changement de service reste précisément la perte du contexte accumulé — préférences, habitudes, historique de conversations. En supprimant ce frein, Google espère attirer une part des dizaines de millions d'utilisateurs actuellement fidélisés chez ses rivaux, notamment OpenAI et Anthropic. Pour les utilisateurs, c'est une avancée concrète vers la liberté de choix sans sacrifice de continuité. Cette initiative s'inscrit dans un contexte réglementaire favorable à l'interopérabilité, notamment sous l'impulsion du Digital Markets Act européen qui pousse les grandes plateformes à faciliter la mobilité des données. Google, qui accuse un retard d'adoption face à ChatGPT malgré la puissance de son infrastructure, mise sur cette ouverture pour accélérer la croissance de Gemini et consolider sa position dans la course aux assistants IA grand public.

UELe Digital Markets Act européen est directement à l'origine de cette initiative de portabilité des données, renforçant concrètement le droit des utilisateurs européens à changer de plateforme IA sans perdre leur historique.

OutilsOutil
1 source
Google facilite l'importation de la mémoire d'une autre IA dans Gemini
919The Verge AI 

Google facilite l'importation de la mémoire d'une autre IA dans Gemini

Google lance ce jeudi deux nouvelles fonctionnalités pour son assistant Gemini, baptisées « Import Memory » et « Import Chat History », destinées à faciliter la migration depuis d'autres chatbots IA comme ChatGPT ou Claude. Le principe est simple : l'utilisateur copie une invite suggérée par Gemini dans son IA actuelle, récupère la réponse générée, puis la colle dans Gemini — qui intègre alors automatiquement les préférences, habitudes et contexte personnel déjà accumulés. La fonctionnalité d'importation d'historique de conversation permet quant à elle de transférer des échanges passés via un export de fichier. Ces outils s'attaquent à l'un des freins majeurs au changement d'assistant IA : la perte du « contexte personnel » accumulé au fil des mois d'utilisation. Un utilisateur qui a appris à ChatGPT son style d'écriture, ses projets ou ses préférences n'a jusqu'ici aucun moyen simple de transposer cela ailleurs. En abaissant ce coût de migration, Google réduit concrètement la fidélité par inertie qui bénéficiait aux acteurs déjà installés, notamment OpenAI. Cette initiative s'inscrit dans une bataille féroce pour la rétention et l'acquisition d'utilisateurs dans le secteur des assistants IA grand public. Gemini, longtemps perçu comme en retrait face à ChatGPT, monte en puissance avec des intégrations profondes dans l'écosystème Google (Search, Workspace, Android). La portabilité des données personnelles entre IA pourrait devenir un enjeu réglementaire à part entière en Europe, où le principe d'interopérabilité est déjà au cœur du DMA. D'autres acteurs pourraient rapidement proposer des mécanismes similaires pour ne pas se retrouver désavantagés.

UELa portabilité des données entre assistants IA pourrait devenir un enjeu réglementaire européen, le DMA imposant déjà des principes d'interopérabilité qui pourraient s'appliquer à ce type de migration.

OutilsOutil
1 source
Apple envisage d'ouvrir Siri à d'autres chatbots IA
920The Verge AI 

Apple envisage d'ouvrir Siri à d'autres chatbots IA

Apple prévoit d'ouvrir Siri à d'autres assistants d'intelligence artificielle avec la sortie d'iOS 27, selon un rapport de Mark Gurman pour Bloomberg. Le nouveau système, baptisé « Extensions », permettra aux utilisateurs de connecter des chatbots tiers téléchargés depuis l'App Store directement à Siri — notamment Google Gemini et Claude d'Anthropic. Ces intégrations fonctionneront sur iPhone, iPad et Mac, avec la possibilité d'activer ou de désactiver chaque chatbot selon ses préférences. Cette ouverture représente un tournant majeur dans la stratégie d'Apple. Jusqu'ici, Siri ne pouvait s'appuyer que sur ChatGPT d'OpenAI, un partenariat introduit avec iOS 18. En élargissant ce modèle à l'ensemble de l'écosystème, Apple transforme Siri en une interface neutre plutôt qu'en un assistant propriétaire fermé. Les utilisateurs gagneront en flexibilité, pouvant choisir le modèle le plus adapté à leurs usages — que ce soit pour la créativité, le code, ou la recherche — sans quitter l'environnement Apple. Cette décision s'inscrit dans un contexte où Siri a longtemps été perçu comme à la traîne face à des concurrents comme ChatGPT ou Gemini. Apple avait commencé à rattraper ce retard avec l'annonce d'« Apple Intelligence » en 2024, mais le développement a été laborieux et plusieurs fonctionnalités ont été retardées. En s'appuyant sur des acteurs externes plutôt que de tout construire en interne, Apple adopte une approche pragmatique qui pourrait redéfinir le rôle de Siri comme couche d'orchestration entre l'utilisateur et les meilleurs modèles du marché.

UELes utilisateurs européens d'iPhone, iPad et Mac pourront accéder directement à des assistants IA tiers via Siri dès iOS 27, renforçant la diversité et la flexibilité des assistants IA sur le marché européen.

OutilsOutil
1 source
Apple prévoit d'ouvrir Siri à d'autres assistants IA
921The Information AI 

Apple prévoit d'ouvrir Siri à d'autres assistants IA

Apple prévoit d'ouvrir Siri à d'autres assistants d'intelligence artificielle tiers, selon Bloomberg. Cette évolution majeure sera annoncée en juin lors de la Worldwide Developers Conference (WWDC) 2026, dans le cadre d'une refonte en profondeur de l'assistant vocal d'Apple. L'intégration permettrait à des assistants comme ChatGPT d'OpenAI, Gemini de Google ou d'autres solutions IA de se connecter directement à Siri, offrant aux utilisateurs la possibilité de basculer vers ces outils sans quitter l'écosystème Apple. Ce changement représente un tournant stratégique considérable pour Apple, qui a longtemps maintenu Siri comme un système fermé. Pour les utilisateurs d'iPhone et d'iPad, cela signifie un accès direct aux modèles les plus puissants du marché depuis l'interface native d'iOS, sans friction. Pour les développeurs d'IA, c'est une opportunité d'atteindre des centaines de millions d'appareils Apple dans le monde. Cette ouverture pourrait également répondre aux critiques persistantes sur les lacunes de Siri face à des concurrents comme ChatGPT ou Claude. Cette décision intervient alors qu'Apple accuse un retard notable dans la course à l'IA générative. Apple Intelligence, lancé en 2024, a reçu des retours mitigés, et plusieurs fonctionnalités promises ont été reportées. En ouvrant son assistant à des partenaires extérieurs, Cupertino adopte une stratégie de plateforme plutôt que de tout développer en interne — une approche qui rappelle ce qu'Apple a fait avec l'App Store en 2008. Les modalités exactes de ces partenariats, notamment les conditions commerciales et les accès aux données, restent à préciser avant la WWDC.

UELes utilisateurs européens d'iPhone pourraient accéder directement à ChatGPT ou Gemini via Siri, une évolution qui pourrait attirer l'attention des régulateurs EU sur l'interopérabilité et les conditions de partage des données.

OutilsActu
1 source
Il n’y a pas que ChatGPT dans la vie : Apple préparerait un Siri compatible avec toutes les IA
92201net 

Il n’y a pas que ChatGPT dans la vie : Apple préparerait un Siri compatible avec toutes les IA

Avec iOS 27, Apple préparerait une refonte majeure de Siri en lui permettant de dialoguer avec n'importe quel chatbot d'intelligence artificielle installé sur l'iPhone, et non plus uniquement ChatGPT. Selon les informations disponibles, cette nouvelle architecture transformerait Siri en véritable hub d'IA, capable de router les requêtes des utilisateurs vers le modèle de leur choix — qu'il s'agisse de Gemini, Claude, Mistral ou d'autres assistants à venir. Ce changement représente un virage stratégique considérable pour Apple, qui reconnaît implicitement que son assistant vocal natif ne peut rivaliser seul avec les grands modèles de langage du marché. Pour les utilisateurs, cela signifie une liberté de choix inédite sur iPhone : accéder à la puissance de n'importe quel LLM sans quitter l'écosystème Apple, simplement en ayant l'application correspondante installée. Cette évolution s'inscrit dans un contexte où Apple accuse un retard significatif en IA générative face à Google, Microsoft et OpenAI. Le partenariat avec OpenAI, annoncé en 2024 et intégré dès iOS 18, n'était qu'une première étape. En ouvrant Siri à toutes les IA tierces, Apple adopte une posture de plateforme plutôt que de compétiteur direct — une approche qui rappelle sa stratégie avec les applications tierces lors du lancement de l'App Store.

UELes utilisateurs européens d'iPhone pourraient bénéficier d'un accès facilité à des modèles comme Mistral directement via Siri, renforçant la visibilité des LLMs européens sur iOS.

OutilsOutil
1 source
Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis
923Le Monde Pixels 

Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis

Manus, l'agent IA développé par la startup chinoise Butterfly Effect (filiale de Monica), a fait irruption sur la scène mondiale début mars 2025, déclenchant une vague d'enthousiasme sans précédent. En quelques jours, la liste d'attente pour accéder à la version bêta a dépassé un million de personnes, tandis que les démonstrations virales montraient l'agent accomplir de manière autonome des tâches complexes : recherche approfondie, rédaction de rapports, gestion de fichiers, navigation web. Contrairement aux chatbots classiques, Manus agit sans supervision humaine continue. L'émergence de Manus s'inscrit dans un contexte de compétition technologique féroce entre Pékin et Washington. Après le choc DeepSeek en janvier 2025, qui avait démontré qu'une IA chinoise pouvait rivaliser avec les meilleurs modèles américains à moindre coût, Manus confirme que la Chine n'entend pas rester en marge de la révolution des agents IA — un segment jugé stratégique par les deux puissances. Cette montée en puissance intervient alors que les États-Unis ont renforcé leurs restrictions sur l'exportation de puces vers la Chine. Nvidia, dont les GPU H100 sont au cœur du développement IA, se retrouve au centre de ces tensions. La capacité des équipes chinoises à produire des résultats compétitifs malgré ces contraintes matérielles soulève des questions sur l'efficacité réelle des sanctions américaines, et laisse présager une intensification de la rivalité technologique entre les deux blocs.

UELa rivalité sino-américaine sur les puces IA et l'émergence d'agents autonomes chinois compétitifs renforcent la pression sur l'Europe pour accélérer sa propre souveraineté technologique en matière d'IA.

OutilsOpinion
1 source
Novo Nordisk affirme que les agents IA accélèrent ses essais cliniques
924The Information AI 

Novo Nordisk affirme que les agents IA accélèrent ses essais cliniques

Novo Nordisk, le fabricant danois du médicament amaigrissant Ozempic, a annoncé utiliser des agents d'intelligence artificielle pour réduire de plusieurs semaines, voire plusieurs mois, la durée de ses essais cliniques. Selon Stephanie Bova, directrice digitale du groupe, ces outils automatisés interviennent à la fois pour accélérer le lancement de nouveaux essais et pour en raccourcir la phase de complétion. L'entreprise n'a pas précisé quels modèles ou fournisseurs d'IA sont utilisés, mais l'impact financier attendu est significatif : des dizaines, voire des centaines de millions de dollars de revenus supplémentaires, tout en permettant de limiter les embauches. Dans l'industrie pharmaceutique, chaque semaine gagnée sur un essai clinique représente un avantage concurrentiel direct. Pour Novo Nordisk, qui a engrangé près de 100 milliards de dollars de ventes grâce à Ozempic et Wegovy, la pression est forte : Eli Lilly dispute désormais ce marché très lucratif des traitements contre l'obésité. Accélérer les essais, c'est protéger et étendre sa fenêtre d'exclusivité commerciale avant l'arrivée de génériques ou de nouvelles molécules concurrentes. Cette annonce s'inscrit dans une tendance de fond : les grands groupes pharmaceutiques investissent massivement dans l'IA pour automatiser les tâches administratives et réglementaires qui ralentissent traditionnellement la recherche clinique — rédaction de protocoles, gestion des données patients, soumissions aux autorités sanitaires. Novo Nordisk rejoint ainsi Pfizer, Roche ou AstraZeneca dans cette course à l'automatisation, qui redessine profondément les métiers du développement médicamenteux et soulève des questions sur l'évolution des effectifs dans le secteur.

UENovo Nordisk, groupe danois coté en Europe, illustre comment l'automatisation IA des essais cliniques redessine les métiers pharmaceutiques et les effectifs dans le secteur en UE.

OutilsOutil
1 source
OpenClaw : le guide ultime des meilleurs Skills pour booster votre agent IA
925Le Big Data 

OpenClaw : le guide ultime des meilleurs Skills pour booster votre agent IA

OpenClaw, l'agent IA local et open source lancé fin 2025, a rapidement dépassé Linux et React sur GitHub pour atteindre plus de 330 000 étoiles, s'imposant comme l'un des projets les plus suivis de la plateforme. Contrairement aux chatbots classiques, OpenClaw agit directement sur la machine de l'utilisateur de manière autonome. Pour étendre ses capacités, la communauté a développé une marketplace d'extensions appelée ClawHub, proposant des milliers de modules baptisés Skills. Parmi les plus plébiscités : le Skill Obsidian, qui synchronise l'agent avec une base de notes locale en Markdown ; le module RAG (Retrieval-Augmented Generation) pour interroger des documents PDF et archives internes sans envoyer de données vers des serveurs externes ; le Skill GOG pour connecter l'agent à Gmail, Google Calendar et Drive via OAuth ; et enfin le Skill GitHub, qui s'appuie sur le CLI officiel gh pour gérer le cycle de vie complet d'un dépôt de code. Ce qui distingue OpenClaw des assistants IA classiques, c'est précisément cette capacité à passer de la consultation à l'exécution concrète. Un utilisateur peut demander à l'agent de trier sa boîte mail, rédiger une note structurée dans Obsidian, ou créer une pull request sur GitHub — le tout sans ouvrir un seul onglet de navigateur. Le module RAG est particulièrement stratégique pour les entreprises : il permet d'interroger des gigaoctets de documentation interne sensible en restant entièrement en local, éliminant le risque de fuite de données vers des API tierces. Pour les développeurs, le Skill GitHub transforme l'agent en ingénieur DevOps autonome capable de gérer des workflows complexes sans supervision constante. OpenClaw s'inscrit dans une tendance de fond : la montée des agents IA locaux, souverains et extensibles, portée par la communauté open source. Son ascension fulgurante rappelle celle de projets comme Docker ou Kubernetes en leur temps — des outils qui ont redéfini les pratiques professionnelles en quelques mois. La marketplace ClawHub joue un rôle central dans cet écosystème, en reproduisant le modèle de distribution des extensions de VS Code ou des plugins npm, mais appliqué à l'automatisation par IA. Les prochains enjeux tournent autour de la sécurité des Skills tiers, de la standardisation des interfaces entre modules, et de l'émergence d'agents capables de chaîner plusieurs Skills de manière fiable sur des tâches longues — un défi technique que la communauté commence à peine à adresser.

UELe module RAG local d'OpenClaw répond aux exigences de souveraineté des données imposées par le RGPD, permettant aux entreprises européennes de traiter des documents internes sensibles sans transférer de données vers des serveurs tiers.

OutilsOutil
1 source
Créer une IA adaptée à l'âge et au contexte avec Amazon Bedrock Guardrails
926AWS ML Blog 

Créer une IA adaptée à l'âge et au contexte avec Amazon Bedrock Guardrails

Amazon Web Services a dévoilé une architecture serverless permettant d'adapter automatiquement les réponses d'une IA générative selon le profil de l'utilisateur — son âge, son rôle professionnel et son niveau d'expertise. La solution repose sur Amazon Bedrock Guardrails, un système de filtrage centralisé qui sélectionne dynamiquement l'un des cinq profils de protection disponibles au moment de l'inférence : enfants (conforme COPPA), adolescents en contexte éducatif, professionnels de santé, patients, et adultes grand public. L'authentification passe par Amazon Cognito, les profils utilisateurs sont stockés dans Amazon DynamoDB, et l'ensemble est exposé via Amazon API Gateway et AWS Lambda, sans serveur à gérer. Concrètement, un même prompt reçoit une réponse différente selon que l'appelant est un pédiatre ou un enfant de dix ans. Cette approche répond à un problème réel dans les déploiements IA à grande échelle : les garde-fous basés uniquement sur le prompt sont contournables par des techniques de manipulation — les modèles peuvent être amenés à ignorer leurs instructions de sécurité. En centralisant les politiques dans une couche d'application indépendante du code métier, AWS rend les règles de modération non débordables par l'application elle-même. Pour les secteurs sensibles comme la santé ou l'éducation, où une réponse inappropriée peut avoir des conséquences réelles sur des utilisateurs vulnérables, ce niveau de contrôle devient un prérequis de conformité. Le résultat est aussi une réduction de la complexité opérationnelle : au lieu de maintenir des logiques de personnalisation dans chaque application, une seule configuration centralisée s'applique à l'ensemble du parc. La montée en puissance des applications IA dans des environnements réglementés — santé, éducation, services publics — a mis en lumière les limites du prompt engineering comme seule ligne de défense. Les grandes organisations déploient désormais des couches de gouvernance distinctes du modèle lui-même, une tendance que Google, Microsoft et AWS adressent chacun avec leurs propres systèmes de guardrails. La spécificité de cette implémentation Bedrock est d'associer l'identité authentifiée de l'utilisateur à une politique d'inférence en temps réel, plutôt que de laisser l'application décider. Les suites probables incluent une adoption dans les plateformes e-learning et les portails patients, où le respect du COPPA et du HIPAA est légalement contraignant, et où la traçabilité des décisions de modération devient un enjeu d'audit.

UEL'architecture proposée peut aider les entreprises européennes à se conformer à l'AI Act et au RGPD en déployant des garde-fous contextuels pour les secteurs réglementés comme la santé et l'éducation.

OutilsOutil
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
927AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source
Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
928AWS ML Blog 

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel

Amazon vient d'annoncer une nouvelle API de streaming bidirectionnel pour son service de synthèse vocale Amazon Polly, baptisée StartSpeechSynthesisStream. Contrairement aux approches traditionnelles, cette API permet d'envoyer du texte et de recevoir de l'audio simultanément, en flux continu sur une connexion HTTP/2 unique. Les tests de performance réalisés par Amazon portaient sur 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24 kHz, en simulant une génération de tokens à environ 30 ms par mot — soit les conditions réelles d'un grand modèle de langage en production. L'API accepte des fragments de texte au fil de l'eau via des TextEvent, retourne des chunks audio via des AudioEvent, et confirme la fin du flux avec un StreamClosedEvent. Pour les applications d'IA conversationnelle, cette avancée supprime un goulot d'étranglement fondamental. Jusqu'ici, il fallait attendre que le LLM ait terminé de générer l'intégralité de sa réponse, puis envoyer ce texte complet au service TTS, puis attendre l'audio avant de lancer la lecture — trois étapes séquentielles qui s'ajoutaient les unes aux autres. Avec le streaming bidirectionnel, la synthèse vocale démarre dès les premiers tokens générés, ce qui réduit drastiquement la latence perçue par l'utilisateur final. Pour les assistants virtuels, les agents téléphoniques automatisés ou les interfaces vocales en temps réel, cela se traduit par des conversations nettement plus naturelles, sans les silences artificiels qui trahissent une architecture en pipeline. Le lancement s'inscrit dans une course plus large à la latence dans l'écosystème de l'IA générative vocale, où des acteurs comme ElevenLabs, OpenAI (avec son API audio temps réel) et Google se disputent le marché des applications conversationnelles. AWS avait déjà un avantage avec Polly grâce au streaming audio sortant, mais l'entrée simultanée était jusqu'ici absente. La nouvelle API élimine également la complexité côté serveur : les développeurs n'ont plus besoin d'implémenter leur propre logique de découpage de texte en phrases, ni de gérer plusieurs appels API parallèles et le réassemblage audio qui en découlait. Une seule connexion persistante remplace cette infrastructure maison. Les prochaines étapes logiques concerneront probablement l'extension à davantage de voix et de langues avec le moteur Generative, ainsi que l'intégration native dans les frameworks d'agents AWS comme Bedrock.

OutilsOutil
1 source
Meta se prépare à lancer deux nouvelles lunettes Ray-Ban avec IA
929The Verge AI 

Meta se prépare à lancer deux nouvelles lunettes Ray-Ban avec IA

Meta et son partenaire fabricant EssilorLuxottica se préparent à lancer la prochaine génération de leurs lunettes connectées Ray-Ban AI. Des dépôts auprès de la FCC (Federal Communications Commission) américaine, publiés début mars 2026, révèlent l'existence de deux nouveaux modèles Ray-Ban Meta. Ces documents décrivent les appareils testés comme des « unités de production », ce qui indique généralement une commercialisation imminente. Ce lancement marque une nouvelle étape dans la course aux lunettes intelligentes grand public. Les Ray-Ban Meta, dotées d'une caméra, de microphones et d'un assistant IA vocal, ont déjà redéfini ce segment en combinant un design familier avec des fonctionnalités d'IA embarquées. Deux nouveaux modèles simultanés suggèrent une stratégie d'élargissement de la gamme, possiblement pour toucher différents segments de prix ou d'usages. Pour des millions de consommateurs, cela pourrait signifier des lunettes encore plus capables, avec de meilleures performances d'IA ou une autonomie améliorée. Meta avait dévoilé ses Ray-Ban de deuxième génération fin 2023, un peu plus d'un mois après les dépôts FCC correspondants — ce précédent laisse penser qu'une annonce officielle pourrait intervenir rapidement. La collaboration avec EssilorLuxottica, géant mondial de l'optique, donne à Meta un avantage de distribution et de légitimité que ses concurrents peinent à égaler. Alors qu'Apple et Google restent discrets sur leurs propres lunettes AR, Meta consolide sa position de leader incontesté du marché des lunettes connectées à l'IA.

UEEssilorLuxottica, groupe franco-italien (Essilor étant d'origine française), est co-fabricant des lunettes Ray-Ban Meta, ce qui positionne un acteur européen majeur au cœur du marché des wearables IA grand public.

OutilsOutil
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
930MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Vercel lance JSON-Render : un framework d'interface générative pour la composition pilotée par l'IA
931InfoQ AI 

Vercel lance JSON-Render : un framework d'interface générative pour la composition pilotée par l'IA

Vercel a mis en open source json-render, un nouveau framework de génération d'interfaces utilisateur piloté par l'intelligence artificielle. Publié sous licence Apache 2.0, cet outil permet à des modèles de langage de composer des interfaces graphiques structurées à partir d'instructions en langage naturel. Concrètement, un développeur définit un catalogue de composants — boutons, formulaires, cartes, listes — et le modèle d'IA sélectionne et assemble ces blocs selon le contexte de la requête. Le framework est compatible avec plusieurs environnements frontend, ce qui lui confère une portée technique large dès sa sortie. L'enjeu principal est de permettre aux applications d'IA de ne plus se limiter à du texte brut, mais de produire des interfaces dynamiques et contextuelles sans intervention manuelle d'un développeur à chaque étape. Pour les équipes qui construisent des agents ou des assistants intégrés à des produits web, cela ouvre la voie à des expériences utilisateurs generatives : l'interface s'adapte à la demande en temps réel, réduisant le besoin de coder chaque scénario à l'avance. La sortie de json-render intervient dans un contexte de foisonnement autour des « generative UI », un concept popularisé notamment par Vercel lui-même avec sa bibliothèque AI SDK et les React Server Components. La communauté accueille l'initiative avec un mélange d'enthousiasme et de réserve : certains saluent la simplicité de l'approche, d'autres pointent ses divergences avec des standards existants comme les spécifications de composants structurés déjà portées par d'autres acteurs. La question de la compatibilité et de la standardisation dans l'écosystème reste ouverte.

OutilsOutil
1 source
Claude rattrape OpenClaw
932The Information AI 

Claude rattrape OpenClaw

Anthropic a multiplié les nouvelles fonctionnalités pour ses agents Claude ces dernières semaines, au point de rivaliser directement avec OpenClaw, l'outil open-source de développement d'agents IA personnels devenu viral. Parmi les ajouts récents : la prise de contrôle complète de l'ordinateur de l'utilisateur pour exécuter des tâches complexes dans n'importe quelle application — lancée lundi soir avec beaucoup de communication —, la réception de commandes via des messageries comme Telegram ou iMessage, la mémorisation d'informations entre les sessions, et l'exécution automatique de tâches récurrentes selon un planning. L'avantage de Claude sur OpenClaw réside surtout dans l'accessibilité et la sécurité. Là où OpenClaw exige une installation en ligne de commande, une configuration manuelle des modèles et des intégrations, Claude ne nécessite qu'une application desktop. Sur le plan de la cybersécurité, Claude Cowork demande une confirmation avant de modifier des fichiers et s'exécute dans une machine virtuelle isolée du système principal — une précaution qui évite les risques qui ont longtemps terni la réputation d'OpenClaw, et qui poussaient certains utilisateurs à acquérir des Mac Mini ou des machines Nvidia dédiées pour cloisonner leurs agents IA. Malgré cette concurrence frontale, OpenClaw reste une force considérable. Les données NPM indiquent que l'outil a été téléchargé plus de 400 000 fois le mardi suivant l'annonce d'Anthropic, proche de son record absolu de 500 000 téléchargements quotidiens atteint plus tôt dans le mois — et ces chiffres n'incluent pas les innombrables forks, comme NemoClaw développé par Nvidia. La bataille pour l'agent IA dominant se joue désormais sur deux terrains : la puissance technique des solutions open-source d'un côté, et la commodité des offres commerciales packagées de l'autre.

UELes nouvelles fonctionnalités d'agents Claude (contrôle d'ordinateur, mémoire persistante, tâches planifiées) sont directement accessibles aux développeurs et entreprises européens souhaitant automatiser leurs workflows.

OutilsOutil
1 source
Un aperçu des outils en ligne de commande
933Ben's Bites 

Un aperçu des outils en ligne de commande

Les agents d'intelligence artificielle fonctionnent en combinant un modèle de langage avec des outils concrets — et les interfaces en ligne de commande (CLI) constituent leur outil de prédilection. Concrètement, un agent peut exécuter une séquence de commandes bash pour renommer 400 photos produit selon un format SKU précis, les redimensionner en 1200x1200 pixels, les trier dans des sous-dossiers par catégorie, puis vérifier le résultat — le tout en quelques secondes, là où un humain y passerait plusieurs heures. Chaque étape correspond à une commande réelle : ls pour lister les fichiers, mkdir pour créer les dossiers, mogrify pour redimensionner les images, mv pour déplacer et renommer. L'agent enchaîne ces opérations de façon autonome, interprète les sorties, et s'adapte à ce qu'il découvre. Ce mécanisme de "tool use" est au cœur de ce qui distingue un agent d'un simple chatbot. Plus on lui donne accès à des CLIs spécialisées — Stripe CLI pour les données de paiement, Playwright pour contrôler un navigateur web, AWS CLI pour gérer une infrastructure cloud, Vercel CLI pour déployer un site en une commande — plus ses capacités s'étendent. Un agent équipé de bash seul peut organiser des fichiers ; ajoutez Stripe et il peut analyser vos revenus ; ajoutez Playwright et il peut naviguer sur le web ; ajoutez Vercel et il peut déployer ce qu'il vient de construire. C'est cette combinaison d'outils qui définit concrètement ce qu'un agent est capable d'accomplir. Des outils comme Claude Code permettent d'ailleurs de voir les commandes défiler en temps réel, ou de les retrouver via un panneau extensible. Ce modèle technique s'inscrit dans une période d'accélération notable pour les outils d'agents IA. Anthropic vient justement de lancer un "auto mode" pour Claude Code, un régime intermédiaire entre la validation manuelle de chaque action et l'exécution sans aucune permission — une réponse directe aux tensions entre autonomie et sécurité dans les workflows développeurs. En parallèle, les connecteurs Claude pour les outils professionnels sont désormais disponibles sur mobile, et Anthropic travaille sur une fonctionnalité "auto-dream" dédiée à la compaction de mémoire des agents pendant la nuit. Claude Code peut également envoyer des messages iMessage pour notifier l'utilisateur en cours de tâche. Ces annonces illustrent une tendance de fond : les grands labs ne cherchent plus seulement à améliorer les modèles, mais à rendre les agents réellement opérationnels dans des environnements de production réels, avec des garde-fous calibrés pour des usages professionnels quotidiens.

OutilsOutil
1 source
L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt
934Frandroid 

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Google a élargi les capacités de Lyria, son modèle d'intelligence artificielle dédié à la génération audio, en portant la durée maximale des compositions musicales à trois minutes à partir d'un simple prompt textuel. Cette mise à jour, annoncée début 2026, représente un bond significatif par rapport aux extraits courts que l'outil produisait jusqu'alors, et positionne Lyria comme un concurrent direct des solutions de génération musicale longue durée déjà sur le marché. Cette évolution ouvre des possibilités concrètes pour les créateurs de contenu, les développeurs de jeux vidéo, les réalisateurs indépendants et les professionnels du marketing qui cherchent à générer rapidement des habillages sonores sans faire appel à des compositeurs. Trois minutes correspondent à la durée standard d'une chanson pop ou d'un générique, ce qui rend l'outil directement exploitable dans des productions réelles, sans post-traitement nécessaire. Lyria s'inscrit dans la course effrénée que se livrent les grandes entreprises technologiques sur le terrain de la création audio générative. Suno et Udio avaient ouvert la voie avec des titres complets incluant paroles et voix, tandis que Meta et OpenAI développent également leurs propres approches. Google, fort de ses décennies de recherche en traitement du signal et de ses infrastructures TPU, cherche à s'imposer comme la référence professionnelle du secteur, notamment via son intégration dans l'écosystème YouTube et Google Cloud.

UELes créateurs de contenu, réalisateurs indépendants et développeurs de jeux européens disposent désormais d'un outil de génération musicale complète (3 minutes) directement exploitable dans leurs productions sans recourir à des compositeurs.

OutilsOutil
1 source
ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux
935Le Big Data 

ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux

ElevenLabs et IBM ont annoncé le 25 mars 2026 un partenariat stratégique visant à intégrer les technologies vocales d'ElevenLabs — synthèse vocale (TTS) et reconnaissance vocale (STT) — à IBM WatsonX Orchestrate, la plateforme unifiée d'IBM pour la création, le déploiement et la gestion d'agents IA. Concrètement, les clients d'IBM auront accès à un catalogue de plus de 10 000 voix générées par IA, avec des garanties de conformité de niveau entreprise : certification PCI, mode « Zéro rétention » pour les données HIPAA, et résidence des données configurable. ElevenLabs, fondée en janvier 2023, compte aujourd'hui plus de 10 millions d'utilisateurs enregistrés et plus d'un million d'utilisateurs actifs quotidiens. Sa base de clients entreprise est passée d'environ 50 à 500 en dix-huit mois, signe d'une adoption rapide dans les secteurs exigeants. Ce partenariat marque un tournant concret dans la façon dont les entreprises déploient leurs agents conversationnels. Jusqu'ici, la majorité des agents IA en entreprise fonctionnaient en mode texte — chatbots, assistants intégrés aux workflows. L'ajout d'une couche vocale expressive et multilingue change radicalement l'expérience utilisateur : les banques, assureurs, établissements de santé ou fournisseurs d'énergie peuvent désormais proposer une assistance vocale naturelle, dans plusieurs langues et accents régionaux, sans sacrifier la conformité réglementaire. Les administrations publiques y voient également un levier pour informer leurs citoyens dans des contextes sensibles — santé, services sociaux, éducation — avec une accessibilité accrue. Comme le résume Nick Holda, vice-président des partenariats technologiques IA chez IBM : « Nos clients veulent des expériences intuitives et accessibles. » Ce rapprochement s'inscrit dans une tendance de fond : la voix devient le prochain front de bataille pour les agents IA en entreprise. IBM, déjà solide sur l'orchestration des agents et la gestion des données d'entreprise via WatsonX, manquait d'une brique vocale crédible. ElevenLabs apporte exactement cela — une synthèse vocale réputée quasi humaine, déjà adoptée massivement dans les médias, le divertissement et l'éducation. Pour ElevenLabs, l'alliance avec IBM ouvre l'accès aux grands comptes dans des secteurs régulés (finance, santé, télécoms) où sa crédibilité seule n'aurait pas suffi à convaincre les directions des systèmes d'information. Mati Staniszewski, cofondateur d'ElevenLabs, l'a dit sans détour : « C'est par la voix que l'IA gagne ou perd la confiance. » La suite logique pourrait inclure une intégration plus profonde avec Red Hat OpenShift et les environnements cloud hybrides d'IBM, positionnant les deux entreprises face à des concurrents comme Microsoft Azure AI Speech ou Google Cloud Text-to-Speech sur le marché des agents vocaux d'entreprise.

UELes garanties de conformité (résidence des données configurable, mode zéro rétention) et le support multilingue ouvrent des perspectives pour les entreprises et administrations européennes des secteurs régulés, en cohérence avec les exigences du RGPD.

OutilsOutil
1 source
OpenAI va vous faire oublier Amazon : le shopping sur ChatGPT s’offre une refonte
936Le Big Data 

OpenAI va vous faire oublier Amazon : le shopping sur ChatGPT s’offre une refonte

OpenAI a déployé une refonte majeure de sa fonctionnalité shopping intégrée à ChatGPT, transformant l'expérience d'achat au sein du chatbot en une interface nettement plus visuelle et personnalisée. Fini les blocs de texte : les résultats produits s'affichent désormais sous forme de fiches visuelles, avec des comparaisons côte à côte, des filtres budgétaires et la possibilité d'envoyer des images pour affiner une recherche. Le déploiement est progressif et concerne tous les niveaux d'abonnement, du compte gratuit aux formules professionnelles. En coulisses, la mise à jour repose sur un protocole baptisé ACP (Agentic Commerce Protocol), une infrastructure technique propriétaire qui synchronise en temps réel les données entre marchands et interface conversationnelle. Walmart est le premier grand partenaire à s'y connecter, permettant aux utilisateurs de lier leur compte pour retrouver leurs options de paiement habituelles et leurs avantages fidélité directement dans la conversation. Ce repositionnement marque un virage stratégique important : OpenAI abandonne partiellement la fonctionnalité Instant Checkout — qui permettait d'acheter sans quitter ChatGPT — pour se recentrer sur ce que les utilisateurs plébiscitent réellement, à savoir l'aide à la décision. Les données d'usage ont révélé un paradoxe : les gens apprécient le conseil de l'IA, mais préfèrent finaliser leurs achats sur des plateformes qu'ils connaissent déjà. ChatGPT devient ainsi un intermédiaire d'influence plutôt qu'un point de vente direct, captant l'attention en amont de la transaction là où se joue véritablement la décision d'achat. Pour les marchands, c'est une logique claire : ils gardent la main sur la conversion, tandis qu'OpenAI s'installe comme prescripteur incontournable. Cette évolution s'inscrit dans une bataille plus large pour le contrôle du commerce conversationnel, un marché en pleine structuration. En imposant l'ACP comme standard technique, OpenAI tente de devancer ses concurrents directs — notamment Anthropic avec son propre protocole MCP — et de fédérer un écosystème de partenaires marchands autour de sa plateforme. Le contexte est celui d'une transformation profonde des comportements de recherche produit : Google reste dominant, mais des études récentes montrent une érosion de son usage au profit des chatbots pour les requêtes d'achat complexes. Si ChatGPT parvient à capter même une fraction de ce trafic de décision, les implications pour Amazon, Google Shopping et les comparateurs traditionnels pourraient être considérables. Le partenariat avec Walmart, première enseigne mondiale de distribution physique, donne un signal fort aux autres retailers : l'intégration à l'écosystème OpenAI est désormais un enjeu de visibilité commerciale.

UELes e-commerçants européens devront surveiller l'adoption du protocole ACP d'OpenAI pour maintenir leur visibilité sur ChatGPT, qui s'impose comme prescripteur dans les décisions d'achat au détriment de Google Shopping.

OutilsOutil
1 source
The Download : le virage des batteries vers l'IA, et la réécriture des maths
937MIT Technology Review 

The Download : le virage des batteries vers l'IA, et la réécriture des maths

Meta et YouTube ont été condamnés à verser 6 millions de dollars de dommages et intérêts pour avoir conçu des produits délibérément addictifs ciblant les jeunes utilisateurs. Ces verdicts, rendus par des jurys américains, s'inscrivent dans une vague de procédures judiciaires contre les grandes plateformes sur la question de la sécurité en ligne des mineurs. Dans le même temps, SpaceX prépare le dépôt de son introduction en bourse potentiellement dès cette semaine, visant une valorisation supérieure à 75 milliards de dollars — une annonce qui a fait bondir les actions de ses concurrents dans le secteur spatial. Sur le front de l'intelligence artificielle, la startup californienne Axiom Math a lancé un outil gratuit avec une ambition peu commune : non pas résoudre des problèmes mathématiques existants, mais découvrir des patterns encore jamais identifiés, susceptibles d'ouvrir la voie à des percées sur des problèmes non résolus depuis des décennies. Ces développements traduisent des mutations profondes dans plusieurs secteurs technologiques. Les condamnations de Meta et YouTube pourraient redessiner le cadre juridique de responsabilité des grandes plateformes et avoir des répercussions sur les marchés mondiaux des réseaux sociaux — les jurys s'imposant désormais comme acteurs clés dans la régulation de la sécurité numérique des enfants. L'IPO de SpaceX, si elle se concrétise, représenterait l'une des plus grandes introductions en bourse de l'histoire technologique américaine, dans un contexte où la domination de l'entreprise commence à être contestée par des concurrents émergents. Quant à l'outil d'Axiom Math, il illustre un glissement de l'IA vers des usages plus fondamentaux : non plus seulement optimiser l'existant, mais générer des idées véritablement nouvelles dans des domaines aussi formalisés que les mathématiques pures. Ces actualités s'inscrivent dans un paysage technologique sous haute tension. Google a publié une mise en garde selon laquelle les ordinateurs quantiques pourraient compromettre l'ensemble de la cryptographie actuelle d'ici 2029, poussant l'industrie à accélérer la transition vers des standards post-quantiques. Le sénateur Bernie Sanders a introduit un projet de loi sur la sécurité de l'IA qui bloquerait la construction de nouveaux datacenters, au moment où la demande énergétique de l'IA devient une préoccupation politique majeure. Meta a par ailleurs licencié 700 employés après avoir relevé les rémunérations de ses meilleurs talents — un signal contradictoire sur la direction prise par le groupe de Mark Zuckerberg. Enfin, Uber et la startup Pony AI ont annoncé leur intention de lancer le premier service de robotaxis en Europe, en Croatie, tandis que des essais sont déjà en cours au Luxembourg et à Londres.

UELe lancement du premier service de robotaxis en Europe par Uber et Pony AI (Croatie, Luxembourg, Londres) crée un précédent réglementaire direct pour l'encadrement des véhicules autonomes dans l'UE.

OutilsPaper
1 source
J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts
938ZDNET AI 

J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts

Claude, l'assistant IA d'Anthropic, est désormais capable de prendre le contrôle d'un ordinateur Mac pour y exécuter des tâches concrètes : rechercher des fichiers, rédiger et envoyer des e-mails, naviguer dans des applications, et accomplir des actions complexes sans intervention manuelle. Un test pratique réalisé récemment a démontré que cette fonctionnalité, baptisée « computer use », fonctionne de manière quasi irréprochable, malgré deux accrocs mineurs signalés lors de l'expérience. L'enjeu est considérable : il ne s'agit plus d'un simple chatbot répondant à des questions, mais d'un agent capable d'agir directement dans l'environnement de l'utilisateur. Pour les professionnels, cela ouvre la voie à une automatisation réelle des tâches répétitives — gestion de fichiers, traitement d'e-mails, navigation web — sans nécessiter de compétences techniques particulières. Cette évolution redéfinit ce qu'on entend par « assistant IA ». Anthropic a introduit cette capacité d'utilisation de l'ordinateur fin 2024, dans le cadre de la course aux agents autonomes qui mobilise aussi OpenAI, Google et Microsoft. L'objectif à terme est de créer des IA capables de mener des workflows entiers de façon indépendante. Les deux limitations observées lors du test rappellent toutefois que la technologie, prometteuse, reste en phase de maturation.

UELes professionnels français peuvent adopter cette fonctionnalité pour automatiser des tâches bureautiques répétitives, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
Mozilla cq : l’incroyable projet qui va permettre aux IA de se partager leur savoir
939Le Big Data 

Mozilla cq : l’incroyable projet qui va permettre aux IA de se partager leur savoir

Mozilla a lancé en mars 2026 un projet open source baptisé cq, conçu pour créer une mémoire collective partagée entre agents IA. Inspiré du modèle de Stack Overflow, cq permet à chaque agent, avant de traiter un problème, d'interroger un espace commun appelé « cq commons » pour vérifier si une solution existe déjà. Les connaissances y sont stockées sous forme de « knowledge units » — des blocs décrivant un problème, sa solution et son contexte technique. Un système de confiance dynamique complète le dispositif : plus une solution est utilisée avec succès par différents agents, plus sa crédibilité augmente. Un proof of concept est d'ores et déjà disponible, avec des plugins pour Claude Code et OpenCode. L'enjeu dépasse le simple gain d'efficacité opérationnelle. Aujourd'hui, des millions d'agents IA résolvent les mêmes problèmes de manière indépendante, en consommant à chaque fois des tokens — ce qui se traduit par des coûts financiers et énergétiques significatifs. En mutualisant les solutions, cq pourrait réduire ces redondances à grande échelle pour les entreprises qui déploient des agents en continu. Plus profondément, le projet introduit un déplacement potentiel de la valeur dans l'écosystème IA : jusqu'ici, la puissance brute des modèles constituait l'avantage concurrentiel principal ; avec des systèmes comme cq, c'est l'accès à une base de connaissances partagée, fiable et enrichie en permanence qui pourrait devenir déterminant. Ce projet s'inscrit dans un contexte révélateur : le déclin de Stack Overflow, longtemps référence du partage de savoir technique. La plateforme est passée de 200 000 questions mensuelles à son apogée en 2014 à seulement 3 862 en décembre 2025, retombant à son niveau de lancement. Les développeurs interrogent désormais directement des IA, qui produisent des réponses instantanées mais éphémères — sans mémoire collective, sans capitalisation. Chaque erreur peut être résolue des milliers de fois sans jamais être retenue. Mozilla tente précisément de combler ce vide structurel en transposant la logique communautaire de Stack Overflow au monde des agents autonomes. Si cq parvient à s'imposer comme standard, il pourrait recomposer la manière dont l'intelligence artificielle apprend et progresse — non plus par modèle isolé, mais par accumulation collective d'expériences validées.

UELes entreprises françaises et européennes déployant des agents IA en continu pourraient réduire leurs coûts en tokens grâce à cette mutualisation open source, mais aucun impact réglementaire ou institutionnel direct.

OutilsOutil
1 source
IA : les 10 générateurs d’images les plus performants en mars 2026
940Blog du Modérateur 

IA : les 10 générateurs d’images les plus performants en mars 2026

GPT Image 1.5 conserve la première place du classement des générateurs d'images IA de mars 2026, résistant à l'arrivée de Nano Banana 2, lancé il y a un mois seulement. Malgré les attentes autour de ce nouveau modèle, il n'est pas parvenu à détrôner le leader, qui maintient son avance sur un marché dominé par une poignée d'acteurs majeurs. Ce classement illustre la difficulté pour les nouveaux entrants de s'imposer face à des modèles établis, même lorsqu'ils bénéficient d'un lancement récent et d'une forte communication. La concentration du marché autour de quelques outils phares soulève des questions sur la capacité d'innovation à redistribuer les cartes rapidement. La génération d'images par IA est devenue un secteur très compétitif, où les performances techniques et l'adoption des utilisateurs déterminent rapidement les hiérarchies.

OutilsOutil
1 source
L'automatisation robotisée reste pertinente, mais l'IA en transforme le fonctionnement
941AI News 

L'automatisation robotisée reste pertinente, mais l'IA en transforme le fonctionnement

L'automatisation robotisée des processus (RPA) s'est imposée comme une solution fiable pour réduire les tâches manuelles répétitives dans les entreprises — saisie de données, traitement de factures, génération de rapports. Adoptée massivement dans la finance, les opérations et le support client, cette technologie repose sur des bots logiciels qui suivent des règles fixes. Des éditeurs comme Blue Prism (désormais intégré à SS&C Technologies) et Appian ont construit des plateformes entières autour de ce modèle. Mais avec la montée en puissance de l'intelligence artificielle, ces mêmes acteurs élargissent aujourd'hui leur offre vers ce qu'ils appellent l'« automatisation intelligente ». La limite fondamentale du RPA classique, c'est sa rigidité : dès que les données ne sont pas structurées — un message, un document, une image — les bots échouent ou nécessitent une maintenance coûteuse. Les grands modèles de langage (LLM) changent la donne en permettant d'interpréter du texte libre, d'extraire des informations pertinentes et de prendre des décisions contextuelles. McKinsey estime que l'IA générative pourrait automatiser des tâches de communication et de prise de décision, là où le RPA ne touchait que la gestion de données routinières. En pratique, les deux technologies se complètent : l'IA interprète les entrées variables et passe des données structurées aux bots RPA pour l'exécution. Cette combinaison permet d'étendre l'automatisation sans abandonner les systèmes existants. Le RPA conserve un avantage réel là où la prévisibilité est critique — paie, conformité réglementaire, audit financier — car ses bots produisent des résultats traçables et reproductibles, qualités indispensables dans les environnements régulés. La transition reste progressive : la plupart des organisations continuent de s'appuyer sur leurs infrastructures RPA existantes tout en intégrant des couches d'IA là où elles apportent une valeur ajoutée concrète, ce qui reflète une réalité de marché où le remplacement brutal cède la place à une hybridation pragmatique.

UELes entreprises européennes utilisant des plateformes RPA dans des secteurs régulés (finance, conformité) peuvent s'appuyer sur cette analyse pour planifier une hybridation progressive avec l'IA générative sans refonte de leurs systèmes existants.

OutilsOutil
1 source
Productivité CMS : WordPress.com transforme les agents IA en véritables gestionnaires de contenu
942ZDNET FR 

Productivité CMS : WordPress.com transforme les agents IA en véritables gestionnaires de contenu

WordPress.com a annoncé une mise à jour majeure de son intégration avec les agents d'intelligence artificielle, permettant désormais à des outils comme ChatGPT ou Claude d'effectuer des opérations d'écriture complètes sur les sites hébergés. Concrètement, ces agents peuvent créer de nouveaux articles, modifier du contenu existant, gérer les médias et administrer les paramètres du CMS — des capacités jusqu'ici réservées aux utilisateurs humains connectés via l'interface classique. Ce changement marque un tournant dans la manière dont les équipes éditoriales et les créateurs de contenu peuvent déléguer des tâches répétitives à l'IA. Un rédacteur peut désormais demander à son assistant IA de publier directement un billet, de corriger une série d'articles ou de réorganiser une taxonomie, sans quitter son environnement de travail. Pour les agences et les entreprises gérant plusieurs sites, le gain de productivité potentiel est considérable. Cette évolution s'inscrit dans la montée en puissance des agents autonomes capables d'interagir avec des systèmes tiers via des protocoles standardisés comme le MCP (Model Context Protocol) d'Anthropic. Automattic, la société derrière WordPress.com, rejoint ainsi un écosystème croissant de plateformes SaaS qui ouvrent leurs API aux agents IA — une tendance qui soulève également des questions sur la sécurité des accès et la gouvernance éditoriale automatisée.

UELes agences et créateurs de contenu européens utilisant WordPress.com peuvent désormais déléguer la gestion éditoriale à des agents IA, avec des implications pour la gouvernance des contenus publiés en Europe.

OutilsOutil
1 source
L'IA qui fait vraiment la différence pour les entreprises
943VentureBeat AI 

L'IA qui fait vraiment la différence pour les entreprises

Après deux ans de démonstrations spectaculaires et de prototypes précipités, les dirigeants technologiques des grandes entreprises adoptent en 2026 un discours nettement plus pragmatique sur l'intelligence artificielle. Lors d'un webinaire organisé par OutSystems, des responsables techniques issus d'entreprises comme Thermo Fisher Scientific et McConkey Auction Group ont témoigné d'une même priorité : faire passer les agents IA du stade expérimental à la production réelle, avec des résultats mesurables. Chez Thermo Fisher, Rajkiran Vajreshwari, responsable du développement applicatif, a décrit comment son équipe a abandonné les assistants IA mono-tâches au profit d'un système multi-agents coordonné : à l'arrivée d'un ticket de support, un agent de triage classe la demande et la route dynamiquement vers un agent spécialisé — intention et priorité, contexte produit, dépannage ou conformité — chacun opérant dans un périmètre strict et auditable. L'enjeu central n'est plus le choix du bon modèle de langage, mais l'orchestration : comment router les tâches, coordonner les workflows, gouverner l'exécution et intégrer les agents dans des systèmes construits sur des décennies. Une nouvelle catégorie de risque est apparue en parallèle : le « shadow AI », autrement dit le code de niveau production généré par des employés sans supervision informatique. Ces outils maison sont exposés aux hallucinations, aux fuites de données, aux violations de politique et à la dérive des modèles. Luis Blando, CPTO d'OutSystems, résume la réponse des organisations les plus avancées en trois actions : fournir des garde-fous aux utilisateurs, utiliser l'IA pour gouverner l'IA à l'échelle du portefeuille applicatif, et s'appuyer sur des plateformes qui intègrent ces contrôles nativement plutôt que de les construire manuellement. Ce tournant pragmatique survient alors que les premières vagues d'enthousiasme autour des LLM se heurtent à leurs limites réelles en environnement d'entreprise : sans orchestration, sans connexion aux données métier existantes et sans gouvernance, les modèles les plus puissants produisent peu de valeur durable. Les profils les plus recherchés ne sont plus les data scientists spécialisés, mais les développeurs généralistes et les architectes d'entreprise capables de faire dialoguer agents IA, systèmes legacy et processus métier. La compétition se joue désormais moins sur la puissance brute des modèles que sur la capacité des plateformes — OutSystems, mais aussi Microsoft, Salesforce ou ServiceNow — à proposer des environnements où les agents peuvent être déployés, surveillés et gouvernés à l'échelle industrielle.

OutilsOutil
1 source
Gemini m'a permis de recréer les alertes de commentaires YouTube en moins d'une heure
944ZDNET AI 

Gemini m'a permis de recréer les alertes de commentaires YouTube en moins d'une heure

Un développeur a recréé en moins d'une heure les alertes de commentaires YouTube — une fonctionnalité que la plateforme a supprimée — en combinant l'API Gemini de Google et un script Python minimaliste. Le système surveille automatiquement les nouvelles réponses et envoie des notifications par email, comblant un vide frustrant pour les créateurs de contenu. Cette solution maison illustre comment les API d'IA générative permettent désormais de bricoler en quelques minutes des outils qui auraient demandé des jours de développement. Pour les créateurs qui dépendent de l'engagement communautaire, ne plus manquer un commentaire peut faire une vraie différence dans leur relation avec leur audience. YouTube avait retiré ces alertes sans explication claire, laissant de nombreux utilisateurs sans solution officielle. Le recours à un LLM tiers pour pallier les lacunes des grandes plateformes devient une pratique de plus en plus courante.

OutilsOutil
1 source
iOS 27 : Siri va devenir ChatGPT ? Voici ce que prévoit Apple
945Le Big Data 

iOS 27 : Siri va devenir ChatGPT ? Voici ce que prévoit Apple

Apple prépare une refonte complète de Siri avec iOS 27, selon des informations révélées par Bloomberg. L'assistant vocal abandonnerait son interface minimaliste en bulle colorée pour devenir une véritable application autonome, disponible sur iPhone, iPad et Mac. Cette nouvelle version adopterait les codes des chatbots modernes : conversations écrites ou vocales, envoi de fichiers, historique des échanges consultable et continuité entre les sessions. Un bouton « Demander à Siri » ferait son apparition dans les applications tierces, tandis qu'une fonction « Écrire avec Siri » s'intégrerait directement au clavier système. La Dynamic Island servirait à afficher en temps réel l'avancement des traitements. Pour combler son retard technologique, Apple s'appuierait sur le modèle Gemini de Google, annoncé en partenariat dès janvier 2026, afin de renforcer les capacités conversationnelles de l'assistant. L'application dédiée pourrait toutefois ne pas être disponible dès le lancement d'iOS 27, son déploiement étant prévu dans une mise à jour ultérieure. Ce repositionnement marque un tournant stratégique majeur pour Apple, qui accuse depuis plusieurs années un retard flagrant face à ChatGPT, Gemini et Copilot. Le nouveau Siri ne se contenterait plus de répondre à des commandes isolées : il analyserait les données personnelles de l'utilisateur — messages, notes, emails — pour fournir des réponses contextualisées et automatiser des tâches quotidiennes complexes. Cette fusion entre données locales et recherche web représente un saut qualitatif important, transformant Siri d'un simple exécutant en assistant proactif. Pour les utilisateurs, cela signifie un assistant capable de comprendre une demande dans sa globalité, de s'en souvenir, et d'agir en tenant compte du contexte personnel — une expérience bien plus proche de celle proposée par les IA génératives concurrentes. Apple avait déjà tenté cette approche personnalisée en 2024, sans convaincre. La firme revient donc avec une version plus aboutie, dans un contexte où la guerre des assistants IA s'est considérablement intensifiée depuis le lancement de ChatGPT en 2022.

UELa refonte de Siri avec accès aux données personnelles (messages, emails, notes) sur des centaines de millions d'appareils européens soulève des enjeux RGPD significatifs pour les régulateurs de l'UE.

OutilsOpinion
1 source
Google lance Lyria 3 Pro, un générateur de musique par IA entraîné sur des données licenciées
946The Decoder 

Google lance Lyria 3 Pro, un générateur de musique par IA entraîné sur des données licenciées

Google a lancé Lyria 3 Pro, un nouveau générateur de musique par intelligence artificielle capable de produire des morceaux allant jusqu'à trois minutes, avec des couplets, des refrains et des ponts — une durée bien supérieure aux outils similaires existants. La société affirme que le modèle a été entraîné exclusivement sur des données pour lesquelles elle dispose des droits nécessaires. Cette précision n'est pas anodine : elle distingue clairement Lyria 3 Pro de son principal concurrent, Suno, actuellement poursuivi en justice par plusieurs maisons de disques pour violation potentielle du droit d'auteur. En revendiquant une base d'entraînement légalement claire, Google se positionne comme un acteur responsable sur un marché où les litiges autour de la propriété intellectuelle freinent l'adoption de ces technologies. C'est aussi un argument commercial fort auprès des créateurs et des entreprises qui craignent d'exposer leurs projets à des risques juridiques. La génération musicale par IA est devenue l'un des terrains les plus disputés de l'industrie créative, où les tensions entre les grandes plateformes technologiques et les ayants droit du secteur musical s'intensifient depuis plusieurs mois.

UELes créateurs et entreprises européens exposés aux risques juridiques liés à la génération musicale par IA peuvent s'appuyer sur cette approche comme référence de conformité avec la directive européenne sur le droit d'auteur (DSM).

OutilsActu
1 source
Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
947AWS ML Blog 

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1
948AWS ML Blog 

Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1

Amazon Web Services et Pipecat ont publié un guide détaillé sur le déploiement d'agents vocaux intelligents en production, s'appuyant sur la nouvelle infrastructure Amazon Bedrock AgentCore Runtime. La solution combine Pipecat, un framework open source spécialisé dans les pipelines audio temps réel, avec l'environnement serverless d'AWS pour permettre des conversations vocales naturelles sur le web, le mobile et la téléphonie. L'architecture prend en charge trois protocoles de transport réseau : WebSockets, WebRTC et l'intégration téléphonique classique. Chaque session de conversation tourne dans des microVMs isolées, avec une capacité de session continue allant jusqu'à 8 heures, et une mise à l'échelle automatique face aux pics de trafic. Le runtime impose l'usage de conteneurs ARM64 (Graviton), ce qui nécessite que les images Docker soient compilées spécifiquement pour l'architecture linux/arm64. Ce que change cette combinaison est significatif pour les équipes qui déploient des agents en production : elle élimine plusieurs problèmes récurrents liés aux architectures vocales temps réel, notamment la gigue audio, les contraintes de montée en charge, et les coûts liés au sur-provisionnement. La facturation à l'usage actif — et non à la capacité réservée — réduit directement les coûts d'infrastructure inactive. Sur le plan technique, la latence reste le défi central : une conversation naturelle exige une réponse inférieure à une seconde de bout en bout. Pour y parvenir, le système mise sur le streaming bidirectionnel à deux niveaux — entre le client et l'agent d'une part, et entre l'agent et les modèles de langage d'autre part. Le choix du modèle est déterminant : AWS recommande Amazon Nova Sonic pour les pipelines speech-to-speech, ou Nova Lite dans une approche en cascade (STT → LLM → TTS), tous deux optimisés pour minimiser le Time-to-First-Token. La plateforme intègre également de l'observabilité native pour tracer le raisonnement de l'agent et ses appels d'outils. Ce premier volet d'une série de publications s'adresse aux développeurs déjà familiers des architectures vocales en cascade et speech-to-speech. Il fait suite à un article précédent d'AWS comparant Amazon Nova Sonic aux approches en cascade, et pose les bases techniques pour les déploiements Pipecat sur AgentCore Runtime.

OutilsTuto
1 source
MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran
949The Decoder 

MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran

L'Allen Institute for AI (AI2) a publié MolmoWeb, un agent web open source capable de naviguer sur internet en utilisant uniquement des captures d'écran. Disponible en deux versions de 4 et 8 milliards de paramètres, cet agent surpasse plusieurs systèmes propriétaires bien plus grands sur les benchmarks standard. C'est une avancée notable car la plupart des agents web performants s'appuient sur des modèles fermés et massifs. MolmoWeb démontre qu'une approche entièrement ouverte, avec des modèles compacts, peut rivaliser avec des systèmes commerciaux — rendant cette technologie accessible à la recherche et aux développeurs sans dépendre de services propriétaires. AI2, connu pour ses travaux open source en IA, s'inscrit dans une tendance plus large où les modèles légers et transparents réduisent l'écart avec les géants du secteur.

UELes chercheurs et développeurs européens peuvent adopter MolmoWeb sans dépendre de services propriétaires américains, réduisant ainsi les coûts et les contraintes de souveraineté numérique.

OutilsActu
1 source
Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique
950AWS ML Blog 

Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique

Amazon Bedrock, la plateforme cloud d'IA d'AWS, propose depuis décembre 2025 le Reinforcement Fine-Tuning (RFT), une méthode avancée de personnalisation de modèles de langage. Le service a d'abord été lancé avec les modèles Nova d'Amazon, avant d'être étendu en février 2026 aux modèles open source comme OpenAI GPT OSS 20B et Qwen 3 32B. Concrètement, le RFT permet d'entraîner un modèle à partir d'un petit ensemble de prompts — sans avoir besoin de milliers d'exemples étiquetés — en lui faisant générer plusieurs réponses possibles, puis en lui attribuant des scores selon la qualité de chaque réponse. Le modèle apprend ensuite à privilégier les stratégies qui produisent les meilleurs résultats. L'exemple utilisé dans le tutoriel est le dataset mathématique GSM8K, appliqué au modèle gpt-oss-20B hébergé sur Bedrock. Ce qui distingue le RFT du fine-tuning supervisé classique, c'est sa capacité d'apprentissage en boucle fermée : le modèle génère lui-même les réponses sur lesquelles il s'entraîne, plutôt que de mémoriser des paires entrée-sortie figées. Cette approche est particulièrement puissante pour des tâches vérifiables comme les mathématiques ou la génération de code, où la correction peut être évaluée automatiquement sans intervention humaine. Au fil de l'entraînement, le modèle rencontre naturellement des scénarios de plus en plus complexes, ce qui lui permet de s'améliorer en continu sans que l'équipe doive constituer et annoter un dataset massif en amont. Le résultat : des gains de performance significatifs sur des tâches complexes comme le raisonnement logique ou les conversations multi-tours. Le Reinforcement Learning appliqué aux LLMs est la technique qui a permis à des modèles comme ChatGPT d'aligner leurs réponses sur les préférences humaines — une méthode connue sous le nom de RLHF. Amazon Bedrock l'industrialise ici en automatisant tout le pipeline, de l'authentification au déploiement d'une fonction de récompense via Lambda, jusqu'à l'inférence sur le modèle personnalisé.

OutilsTuto
1 source