Aller au contenu principal

Outils — page 2

1357 articles · page 2 sur 28

Les meilleurs outils IA : applications, produits et services propulsés par l'intelligence artificielle.

Midjourney Medical : scanner ses organes aussi simplement que monter sur une balance
51Latent Space OutilsOutil

Midjourney Medical : scanner ses organes aussi simplement que monter sur une balance

Midjourney, le studio d'intelligence artificielle connu pour sa plateforme de génération d'images, a présenté le 17 juin 2026 un projet inattendu : le Midjourney Scanner, un système d'imagerie médicale à ultrasons plein corps. Décrit par le fondateur David Holz comme "la première nouvelle modalité d'imagerie médicale complète en 50 ans", l'appareil utilise des ultrasons plutôt que des rayons X, des IRM ou des scanners à radiation. Techniquement, il embarque 358 000 éléments ultrasoniques répartis sur 40 systèmes en anneau de 70 cm de diamètre, capture environ 40 Go de données par tranche corporelle à un débit de 17 Go/s, et reconstruit les images sur 21 serveurs représentant 2 pétaflops de puissance de calcul. La résolution annoncée atteint 0,5 mm pour les tissus internes. Le prototype actuel, testé sur une douzaine de personnes, nécessite encore environ 20 minutes par scan en raison de goulots d'étranglement techniques. Midjourney a également annoncé le Midjourney Spa, un premier espace bien-être de 2 300 m² prévu autour d'Union Square à San Francisco, avec 9 à 10 scanners intégrés, des saunas, bains froids et équipements sportifs, dont l'ouverture est visée pour fin 2027. L'ambition derrière ce projet dépasse largement le gadget technologique. Holz a déclaré que quelques dizaines de ces machines, fonctionnant à pleine capacité, pourraient réaliser plus de scanners corporels complets que l'ensemble des appareils IRM de la planète. L'objectif affiché à terme est un parc de 50 000 scanners capables d'effectuer jusqu'à un milliard de scans par mois, ce qui rendrait l'imagerie médicale préventive accessible à l'échelle mondiale. Pour les utilisateurs, cela ouvrirait la voie à un suivi de santé régulier, quotidien ou hebdomadaire, permettant de détecter des anomalies avant l'apparition de symptômes, de suivre la composition corporelle ou d'assister un médecin avec une première analyse augmentée par IA. L'approche sans investisseurs externes, financée en propre par Midjourney, confère à l'entreprise une liberté stratégique rare dans ce secteur. Ce lancement s'inscrit dans une tendance plus large de convergence entre les grandes capacités de calcul développées par les labos d'IA et le domaine médical, à l'image de ce qu'ont représenté les CryoEM de Chan Zuckerberg Biohub pour la biologie structurale. Midjourney a déjà entamé des discussions avec la FDA américaine, avec une stratégie réglementaire initiale orientée vers la composition corporelle, un segment jugé plus accessible. La deuxième génération du scanner est attendue pour fin 2026, puis une troisième avec des puces silicium sur mesure. Aucune IA n'était présente dans les images montrées lors du lancement, mais Holz a clairement indiqué que physique, simulation et apprentissage automatique seront au cœur des prochaines générations. L'équipe actuelle ne compte que neuf personnes, ce qui rend l'ampleur du projet d'autant plus saisissante.

UELe projet est entièrement centré sur le marché américain avec des discussions FDA en cours ; aucun déploiement ni partenariat européen n'est mentionné à ce stade.

1 source
ChatGPT met de l’ordre dans vos tâches planifiées avec cette nouvelle interface
52Le Big Data 

ChatGPT met de l’ordre dans vos tâches planifiées avec cette nouvelle interface

OpenAI a déployé le 17 juin 2026 une nouvelle interface de gestion des tâches planifiées dans ChatGPT, baptisée page "Planifiées", accessible depuis la barre latérale sur le Web et sur mobile. Cette mise à jour concerne les abonnés Go, Plus, Pro, Business et Enterprise. Concrètement, l'ensemble des automatisations créées par un utilisateur se retrouve désormais regroupé en un seul endroit, avec la possibilité de consulter la prochaine exécution de chaque tâche, de la modifier, de la suspendre ou de la supprimer. OpenAI a également revu le processus de création : des exemples de commandes sont proposés d'emblée, et il suffit d'écrire une demande en langage naturel dans une conversation pour programmer une action. Les horaires gagnent en souplesse, avec des plages matin, après-midi ou soir sans obligation de spécifier une heure précise. Les limites varient selon l'abonnement : trois tâches actives simultanées pour Go, cinq pour Plus, quinze pour Pro, Business, Éducation et Enterprise. Ce changement répond à un problème concret qui freinait l'adoption des tâches planifiées depuis leur lancement il y a plusieurs mois : les automatisations se créaient au fil des conversations, rendant leur retrouvaille laborieuse. En centralisant cette gestion, OpenAI abaisse significativement la barrière d'usage pour les professionnels et les utilisateurs réguliers qui recourent à ChatGPT pour des rappels, des surveillances d'informations ou des tâches récurrentes. Les notifications s'améliorent également : une fois les autorisations accordées, les rappels peuvent être reçus sur toutes les plateformes connectées au compte, avec le choix entre notifications push, e-mails ou les deux. OpenAI intègre par ailleurs ces tâches dans Pulse, un espace dédié aux automatisations où ChatGPT peut surveiller un sujet précis et alerter l'utilisateur uniquement en cas de changement significatif, avec des résumés visuels consultables à la demande. Les tâches planifiées de ChatGPT avaient été introduites progressivement depuis fin 2024, mais restaient une fonctionnalité de niche, peu visible et difficile à gérer. Cette refonte s'inscrit dans une stratégie plus large d'OpenAI visant à faire de ChatGPT un véritable agent personnel capable d'agir de façon autonome dans la durée, au-delà des échanges ponctuels. La concurrence est vive sur ce terrain : Google avec Gemini et Microsoft avec Copilot poussent eux aussi vers des assistants capables d'automatiser des workflows complexes. Des restrictions subsistent néanmoins : les conversations vocales et les GPT personnalisés restent incompatibles avec la fonctionnalité. La vraie question désormais est de savoir si OpenAI ira plus loin en permettant des tâches déclenchées par des événements externes, ce qui rapprocherait ChatGPT d'outils d'automatisation comme Zapier ou Make.

UELes abonnés ChatGPT en France et dans l'UE bénéficient de cette refonte de l'interface des tâches planifiées, facilitant l'adoption des automatisations pour les professionnels européens sans impact réglementaire spécifique.

💬 Les tâches planifiées existaient depuis des mois mais restaient perdues dans les conversations, invisibles, inutilisées. Je vois ça comme une étape plus importante qu'elle en a l'air : OpenAI pousse ChatGPT vers un assistant qui agit dans la durée, pas seulement quand tu lui parles. Le jour où ils ajoutent des déclencheurs sur événements externes, Zapier aura un vrai problème.

Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés
53AWS ML Blog 

Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés

Amazon a annoncé le 18 juin 2026 une mise à jour significative de SageMaker AI Async Inference : les développeurs peuvent désormais envoyer leurs données directement dans le corps de la requête API, sans passer par Amazon S3. Concrètement, le nouveau paramètre Body de l'API InvokeEndpointAsync accepte jusqu'à 128 000 octets de données brutes en ligne. La fonctionnalité est disponible dans 31 régions commerciales AWS, de l'Irlande au Japon en passant par le Brésil et l'Afrique du Sud. Les paramètres Body et InputLocation (l'ancien chemin S3) sont mutuellement exclusifs : l'API rejette toute requête qui tenterait d'utiliser les deux simultanément. Le comportement en sortie reste inchangé, les résultats étant toujours écrits vers le bucket S3 configuré en sortie. Cette évolution simplifie concrètement le quotidien des équipes qui utilisent l'inférence asynchrone pour des charges utiles légères nécessitant un temps de traitement long. Avant cette mise à jour, même une requête de quelques kilooctets imposait deux étapes obligatoires : uploader le fichier sur S3, puis déclencher l'appel API avec l'URI de l'objet. Cela impliquait de provisionner un bucket S3 dédié, de gérer les permissions IAM s3:PutObject, d'implémenter un schéma de nommage pour éviter les collisions de clés, et de prévoir une stratégie de nettoyage des objets périmés. La suppression de ce aller-retour réseau réduit la latence, diminue les coûts S3 sur les charges de faible volume, et allège le code client de plusieurs dizaines de lignes de configuration. SageMaker Async Inference existe pour répondre à un besoin précis : traiter des requêtes pouvant prendre de quelques secondes à plusieurs minutes, avec prise en charge du passage automatique à zéro instance pour les workloads intermittents. La contrainte S3 avait été conçue à l'origine pour les gros payloads, images, fichiers audio ou documents multi-mégaoctets, où le stockage intermédiaire reste pertinent. Mais à mesure que les cas d'usage se sont diversifiés, notamment pour des pipelines de traitement de texte, de génération augmentée par récupération ou de classification légère nécessitant davantage de temps de calcul que ne le permet l'inférence temps réel, la friction S3 est devenue un point de friction disproportionné. Cette mise à jour aligne l'expérience développeur de l'async sur celle de l'inférence synchrone, tout en préservant la compatibilité avec les endpoints existants, sans modification du modèle ni du conteneur.

UELes développeurs européens utilisant SageMaker Async Inference, notamment via la région eu-west-1 (Irlande), peuvent désormais envoyer des payloads légers directement dans l'API sans passer par S3, simplifiant leurs pipelines et réduisant les coûts de stockage intermédiaire.

OutilsOutil
1 source
Amazon Quick intègre des agents autonomes pour vous faire gagner des heures chaque jour
54AWS ML Blog 

Amazon Quick intègre des agents autonomes pour vous faire gagner des heures chaque jour

Amazon a annoncé cette semaine une mise à jour majeure de Quick, son assistant IA d'entreprise, avec le lancement d'agents autonomes capables de travailler en continu pour le compte des utilisateurs, même lorsque ceux-ci sont en réunion. Ces agents se configurent en quelques minutes via une description en langage naturel, sans aucune ligne de code, et peuvent se voir attribuer des niveaux d'autonomie variables : des instructions précises étape par étape jusqu'à des objectifs larges que l'agent atteint par ses propres moyens. Concrètement, un commercial peut revenir d'une journée de réunions et trouver les deals bloqués signalés, les relances rédigées et les notes CRM mises à jour. Un responsable conformité découvre au matin un résumé d'impact d'une réglementation publiée la nuit. Un acheteur voit ses bons de commande traités en continu. Amazon introduit également un "activity feed" repensé qui consolide e-mails, messageries, calendrier et tâches en une vue unique priorisée, avec des ébauches de réponses déjà générées et des notes de réunion préparées avant même que l'invitation soit ouverte. Cette évolution marque un pas vers ce que l'industrie appelle l'"agentic AI" : des systèmes qui ne se contentent plus de répondre aux questions mais initient des actions de manière proactive, sur la durée. Pour les entreprises, l'enjeu est de récupérer du temps de travail à haute valeur ajoutée en automatisant la gestion de flux d'information dispersés. Amazon positionne Quick comme un hub universel en annonçant simultanément 16 nouvelles intégrations, dont Adobe, Figma, Google Chat, Shopify, Snowflake, WhatsApp, Zapier, ZoomInfo, Cisco Webex, Dun & Bradstreet et Microsoft OneNote. Cela porte l'offre à plus de 30 compétences prêtes à l'emploi couvrant les ventes, la finance, les opérations et la conformité. Quick s'inscrit dans une bataille plus large entre les grandes plateformes cloud pour capter les budgets d'automatisation des entreprises. Microsoft intègre Copilot dans Microsoft 365, Google déploie ses Agents dans Workspace, et Salesforce avance avec Agentforce. Amazon, dont la position dans le marché des assistants d'entreprise reste moins dominante que ses concurrents dans les suites bureautiques, mise sur l'interopérabilité pour se différencier : pas de silos propriétaires, mais une couche d'orchestration capable de connecter l'existant. Le catalogue ouvert d'agents et de connecteurs, publiable par les organisations elles-mêmes, rappelle la logique des app stores et pourrait accélérer l'adoption si l'écosystème de partenaires se densifie rapidement. La prochaine étape sera de démontrer la fiabilité de ces agents sur des tâches à fort enjeu, là où une erreur autonome coûte plus cher que l'heure gagnée.

UELes entreprises européennes sous AWS pourraient adopter ces agents autonomes, mais Quick reste marginal face à Microsoft 365 et Google Workspace qui dominent les suites bureautiques d'entreprise en Europe.

OutilsOutil
1 source
Anthropic refond Claude Design : imports de systèmes de design, allers-retours de code et optimisation des tokens
55VentureBeat AI 

Anthropic refond Claude Design : imports de systèmes de design, allers-retours de code et optimisation des tokens

Anthropic a annoncé mercredi une refonte majeure de Claude Design, son outil de création visuelle lancé en avril 2026 comme "aperçu de recherche". L'original avait séduit plus d'un million d'utilisateurs en une semaine, mais s'était heurté à un problème critique : une consommation de tokens astronomique. Un testeur de PCWorld avait épuisé 80 % de son quota hebdomadaire Claude Pro en à peine 25 minutes, le temps de générer trois variantes d'un seul prototype de page web. La mise à jour corrige ce défaut tout en introduisant une fonctionnalité stratégiquement beaucoup plus ambitieuse : l'import de design systems complets. Les équipes peuvent désormais connecter leurs composants depuis un dépôt GitHub, des fichiers de design ou des uploads directs. Une fois importés, Claude construit exclusivement avec ces composants, vérifie sa production en temps réel et corrige automatiquement les écarts avant même d'afficher le résultat. Un nouveau rôle administrateur permet aux grandes organisations de verrouiller un système approuvé et d'interdire toute modification individuelle. Ce changement transforme fondamentalement la proposition de valeur du produit. En avril, Claude Design générait des visuels impressionnants mais stylistiquement arbitraires, ce qui convenait aux indépendants et startups. Pour une entreprise de 10 000 personnes possédant 200 pages de chartes graphiques, c'était inutilisable. L'import de design systems répond directement à la question que posent les décideurs en entreprise lors de tout achat logiciel : "Peut-on contrôler ce que l'outil produit ?" En ingérant les boutons, typographies, tokens de couleurs et règles d'espacement d'une marque, puis en validant chaque sortie avant de la présenter, Claude Design vise une conformité visuelle systématique que même les équipes de designers humains peinent à maintenir à grande échelle. Cette évolution s'inscrit dans une expansion produit d'une rapidité rare pour Anthropic. En dix semaines, la société a lancé Claude Opus 4.8, publié puis suspendu le modèle Fable 5, déployé dix templates d'agents pour les services financiers, signé une alliance pluriannuelle avec DXC Technology pour intégrer Claude dans l'infrastructure IT des plus grandes banques et compagnies aériennes mondiales, et lancé Claude for Small Business avec des intégrations QuickBooks et PayPal. Les utilisateurs de Claude Code consacrent désormais en moyenne 20 heures par semaine à l'outil. La trajectoire est claire : Anthropic ne cherche plus seulement à proposer un assistant conversationnel, mais à faire de Claude un collaborateur embarqué dans les systèmes où le travail se produit concrètement, des pipelines de développement aux workflows créatifs des grandes marques.

UELes équipes design de grandes organisations françaises et européennes disposant de chartes graphiques strictes pourraient bénéficier de la fonctionnalité d'import de systèmes de design, mais aucune réglementation ou entreprise européenne n'est directement impliquée.

OutilsOutil
1 source
Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers
56MarkTechPost 

Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers

Vercel a publié eve, un framework open source sous licence Apache-2.0, disponible en tant que package npm, destiné à la création, l'exécution et le déploiement d'agents d'intelligence artificielle en production. L'entreprise affirme faire déjà tourner plus d'une centaine d'agents sur ce même framework. Son principe central repose sur une approche dite "filesystem-first" : un agent est modélisé comme un répertoire de fichiers sur disque, chaque fichier correspondant à une capacité précise. Le plus petit agent fonctionnel ne requiert que deux fichiers, un pour définir le modèle utilisé (par exemple anthropic/claude-opus-4.8) et un fichier instructions.md servant de prompt système. Les fonctionnalités embarquées incluent l'exécution durable avec points de reprise automatiques, un environnement sandboxé pour le code généré par l'agent, un mécanisme d'approbation humaine pour les actions sensibles, et des connexions sécurisées vers des services tiers comme Slack, GitHub, Snowflake, Salesforce, Notion ou Linear. Un même agent peut être exposé simultanément sur plusieurs canaux, qu'il s'agisse de HTTP, Slack, Discord, Teams, Telegram ou Twilio, à partir d'une seule définition. Ce lancement répond à un problème récurrent dans les équipes qui développent des agents : chaque projet recrée from scratch la même infrastructure de base, gestion des sessions, sandboxing, approbations, connexions API. Eve standardise cette structure sous forme d'une convention de répertoires stricte, éliminant le code répétitif et réduisant le temps de mise en production. Les développeurs ajoutent une capacité en déposant simplement un fichier dans le bon sous-répertoire ; le framework détecte et intègre automatiquement ces ajouts lors du build, sans enregistrement manuel. La durabilité des sessions, qui survivent aux crashs et aux redéploiements en reprenant exactement là où elles s'étaient arrêtées, réduit considérablement la charge opérationnelle pour les équipes gérant des agents à grande échelle. Eve s'inscrit dans un mouvement plus large visant à industrialiser le déploiement d'agents IA, une étape que la plupart des équipes traversent encore de façon artisanale. En open-sourçant son framework interne, Vercel adopte une stratégie comparable à celle qu'il avait employée avec Next.js : proposer une couche d'abstraction susceptible de devenir un standard de facto, tout en restant étroitement liée à son infrastructure pour les déploiements en production. La concurrence est dense dans cet espace, avec LangGraph, CrewAI, AutoGen et le récent Agent Development Kit de Google ciblant tous le même besoin. L'approche "répertoire comme contrat" d'eve se distingue par sa lisibilité et sa convention forte, plus proche de la philosophie Next.js que des frameworks d'orchestration classiques. Les suites probables incluent une adoption croissante dans les équipes utilisant déjà Vercel, et une intégration plus poussée avec Vercel AI Gateway pour le routage multi-modèle.

OutilsOutil
1 source
Amazon Bedrock AgentCore : des agents plus informés et capables d'apprentissage continu
57AWS ML Blog 

Amazon Bedrock AgentCore : des agents plus informés et capables d'apprentissage continu

Amazon a annoncé cette semaine de nouvelles fonctionnalités pour Bedrock AgentCore, sa plateforme de développement d'agents IA, avec pour objectif de combler l'écart entre la puissance théorique des modèles de langage et leurs performances réelles en production. La mise à jour introduit trois couches d'accès à la connaissance : la Managed Knowledge Base, un outil de recherche web natif, et un accès à des données payantes. La Managed Knowledge Base permet désormais aux agents de se connecter directement aux sources de données internes des entreprises, SharePoint, Google Drive, Confluence, S3 et wikis internes, sans que les équipes techniques aient à construire leurs propres pipelines d'ingestion. Amazon gère le stockage vectoriel, les modèles d'embeddings et de reranking, ainsi que les questions de scalabilité. Au cœur de ce système se trouve un retriever agentique qui va bien au-delà du RAG classique : il planifie des requêtes croisées sur plusieurs bases de connaissance, relie des concepts connexes entre documents, et évalue les résultats intermédiaires avant de répondre. L'outil Web Search, lui, s'appuie sur la même infrastructure de recherche qui propulse Alexa+, Amazon Quick Suite et Kiro, et renvoie des extraits optimisés pour la densité d'information par token. Ces ajouts répondent à un problème concret et coûteux pour les entreprises déployant des agents IA : un modèle aussi performant soit-il reste inutile s'il ne peut pas accéder au document où se trouve la réponse. Un agent de service client incapable d'atteindre la politique de remboursement stockée dans SharePoint, un agent de recherche limité à ses données d'entraînement, un conseiller financier privé de données de marché en temps réel, tous sont des cas réels qui freinent le déploiement en production. La Managed Knowledge Base élimine plusieurs mois d'ingénierie préalable, tandis que le Web Search maintient les données dans l'environnement sécurisé AWS du client, un point critique pour les secteurs réglementés comme la finance ou la santé. Cette annonce s'inscrit dans la compétition intense entre fournisseurs cloud pour s'imposer comme plateforme de référence pour les agents IA d'entreprise. AWS, Google Cloud avec Vertex AI et Microsoft avec Azure AI Foundry se disputent le même marché : les équipes qui veulent déployer des agents capables d'agir réellement sur des données métier, pas seulement générer du texte. Amazon capitalise ici sur son infrastructure de recherche existante et son écosystème de services cloud pour offrir une intégration verticale que les solutions tierces ont du mal à concurrencer. La promesse d'amélioration continue via des boucles de rétroaction en production, mentionnée dans l'annonce, suggère qu'AgentCore ambitionne de devenir non seulement un outil de déploiement mais une plateforme d'optimisation itérative des agents dans la durée.

UELes entreprises européennes des secteurs réglementés (finance, santé) peuvent adopter ces fonctionnalités, les données restant dans l'environnement AWS sécurisé du client, ce qui simplifie la conformité réglementaire.

💬 Le vrai goulot d'étranglement pour les agents en prod, c'est jamais le modèle, c'est l'accès aux données d'entreprise. Avec AgentCore, Amazon efface plusieurs mois d'ingénierie RAG maison (SharePoint, Confluence, S3 gérés nativement) et garde les données dans son cloud sécurisé. AWS joue ici son principal atout : l'intégration verticale que ni Google ni Microsoft ne peuvent répliquer aussi facilement.

OutilsOutil
1 source
Google Cloud automatise les opérations de planification urbaine avec l'IA générative
58AI News 

Google Cloud automatise les opérations de planification urbaine avec l'IA générative

Le gouvernement britannique a déployé deux outils d'intelligence artificielle développés avec Google Cloud pour automatiser le traitement des demandes de permis de construire dans l'ensemble des collectivités locales d'Angleterre. Le ministère du Logement, des Communautés et des Gouvernements Locaux (MHCLG) et le département pour la Science, l'Innovation et la Technologie (DSIT) ont annoncé ces déploiements lors du Google Cloud Summit London. L'outil "Extract", construit en interne par des ingénieurs gouvernementaux à l'aide des modèles Gemini de Google DeepMind, a été étendu à toutes les collectivités anglaises après des essais dans plus de 20 autorités locales. Un second système baptisé "Augmented Planning Decisions" (APD) est quant à lui encore en phase de prototype. Extract analyse des milliers de pages de documents PDF historiques non structurés et les convertit en bases de données numériques exploitables en quelques minutes, éliminant environ 255 heures de saisie manuelle par collectivité et par an. L'enjeu est considérable : les demandes de particuliers, comme les extensions ou les conversions de combles, représentent près de 70 % des dossiers de permis déposés chaque année au Royaume-Uni. Chacune nécessite que les agents d'urbanisme passent des heures à croiser des documents réglementaires régionaux, des archives historiques et des fichiers PDF épars. Cette surcharge administrative retarde directement les grands projets d'infrastructure et de développement commercial. L'objectif affiché du gouvernement est de réduire de 50 % les délais de décision sur ces dossiers courants, libérant ainsi du temps pour les projets les plus complexes. Le système APD va plus loin : il pré-traite les dossiers entrants, identifie les lacunes d'information, extrait les données géographiques, évalue la conformité aux règles d'urbanisme nationales et locales, et synthétise les observations du public en signalant les objections ou précédents juridiques pertinents. Ces déploiements s'inscrivent dans la stratégie britannique visant à construire 1,5 million de logements neufs d'ici 2029, un objectif que les engorgements administratifs des collectivités locales compromettaient sérieusement. Pour garantir la sécurité des données civiques sensibles traitées par ces outils, le gouvernement a hébergé les modèles Gemini sur l'infrastructure Google Cloud dans un environnement cloisonné, avec des contrôles actifs contre les attaques par injection de prompts et des protocoles stricts de souveraineté des données. Lila Ibrahim, directrice de la préparation à l'IA chez Google DeepMind, a souligné que ces outils ont été "co-créés directement avec les collectivités pour résoudre de vrais goulets d'étranglement". Cette initiative pourrait servir de modèle à d'autres pays cherchant à moderniser leurs administrations publiques via l'IA générative, dans un contexte où la pression sur le logement et la bureaucratie ralentissent les décisions dans de nombreuses démocraties européennes.

UECe déploiement britannique pourrait inspirer des initiatives similaires dans les collectivités locales françaises et européennes confrontées aux mêmes engorgements administratifs dans le traitement des permis de construire.

💬 255 heures de saisie par collectivité économisées, c'est modeste sur le papier, mais multiplié par toutes les mairies d'Angleterre, c'est là que les 1,5 million de logements promis deviennent moins irréalistes. Ce que Google et le gouvernement britannique ont compris, c'est que l'IA n'a pas besoin de remplacer l'urbaniste pour débloquer le système, il suffit qu'elle digère les PDF à sa place. La France a exactement les mêmes boulets.

OutilsOutil
1 source
GitHub Copilot lance une application desktop pour les flux de travail multi-agents en parallèle
59InfoQ AI 

GitHub Copilot lance une application desktop pour les flux de travail multi-agents en parallèle

GitHub a lancé une application desktop dédiée à GitHub Copilot, conçue pour orchestrer plusieurs agents IA en parallèle depuis un seul point de contrôle. Baptisée GitHub Copilot app, elle s'adresse aux développeurs qui travaillent déjà avec des agents de codage automatisés et souhaitent superviser leur travail sans jongler entre plusieurs interfaces. Mario Rodriguez, responsable produit chez GitHub, a présenté l'outil sur le blog officiel de l'entreprise, en soulignant que la promesse de rapidité des agents récents s'accompagne trop souvent de "workflows désarticulés, de changements de contexte incessants et d'un temps excessif passé à relire le code généré". L'application cible directement ce problème d'orchestration : plutôt que de lancer un agent à la fois et d'attendre son résultat, les développeurs peuvent désormais piloter plusieurs tâches en parallèle depuis une interface unifiée. Cela réduit le temps mort entre les itérations et permet de conserver une vue d'ensemble sur ce que chaque agent produit, sans perdre le fil du projet. L'enjeu est de rendre le développement assisté par IA réellement fluide en production, et pas seulement dans des démonstrations. Ce lancement intervient dans un contexte de course effrénée entre les grandes plateformes de développement. Cursor, Windsurf, Devin ou encore Claude Code ont chacun proposé leur vision de l'agent de code autonome ces derniers mois. En répondant avec une application desktop centrée sur le contrôle humain et les workflows parallèles, GitHub cherche à repositionner Copilot non plus comme un simple assistant d'autocomplétion, mais comme un véritable système de coordination d'agents, ancré dans l'écosystème Microsoft et les habitudes des 150 millions d'utilisateurs de la plateforme.

UELes développeurs français et européens peuvent adopter cette application pour centraliser la supervision de leurs agents Copilot en parallèle, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
Construire des transformers économes en mémoire avec xFormers : séquences compactes, GQA, ALiBi, SwiGLU et attention causale
60MarkTechPost 

Construire des transformers économes en mémoire avec xFormers : séquences compactes, GQA, ALiBi, SwiGLU et attention causale

Un tutoriel publié récemment détaille comment exploiter xFormers, la bibliothèque open source de Meta, pour construire des modèles Transformer à la fois rapides et économes en mémoire GPU. L'auteur y implémente pas à pas cinq optimisations clés : l'attention mémoire-efficiente, le masquage causal, les séquences de longueur variable compressées (packed sequences), l'attention multi-requêtes groupées (GQA), et les biais positionnels ALiBi. Le tout culmine dans un modèle de type GPT complet, entraînable, qui intègre également des couches feed-forward SwiGLU et l'entraînement en précision mixte automatique. Les benchmarks sont conduits sur GPU CUDA avec PyTorch, en comparant xFormers à une implémentation d'attention naïve sur des longueurs de séquences allant de 512 à 4 096 tokens. L'enjeu central est la mémoire. L'attention standard matérialise en mémoire une matrice de scores de taille M×M (nombre de tokens au carré), ce qui devient rapidement prohibitif à mesure que les séquences s'allongent : doubler la longueur quadruple la consommation mémoire. L'attention mémoire-efficiente de xFormers calcule le même résultat exact sans jamais stocker cette matrice complète, grâce à une réécriture algorithmique de type FlashAttention. En pratique, cela permet d'entraîner des modèles sur des séquences bien plus longues avec le même matériel, ou d'augmenter la taille des batches, ce qui accélère la convergence. Pour les chercheurs et les ingénieurs qui travaillent avec des ressources GPU limitées, notamment sur du matériel grand public ou des serveurs partagés, ces gains ne sont pas marginaux : ils peuvent rendre faisable ce qui ne l'était pas. xFormers est développé par Meta AI et s'inscrit dans un mouvement plus large d'optimisation des Transformers, apparu après la publication de FlashAttention par Tri Dao et ses collègues de Stanford en 2022. Depuis, plusieurs bibliothèques concurrentes ont émergé (FlashAttention-2, FlashAttention-3, Triton), mais xFormers se distingue par son intégration directe dans l'écosystème PyTorch et par la richesse de ses primitives prêtes à l'emploi : GQA pour réduire le coût des têtes d'attention, ALiBi pour généraliser à des longueurs de séquences non vues à l'entraînement, SwiGLU pour améliorer la qualité des représentations. Ces briques sont précisément celles qu'utilisent des modèles de référence comme LLaMA ou Mistral. Ce tutoriel illustre comment les assembler concrètement, comblant ainsi le fossé entre la théorie des papiers de recherche et leur mise en oeuvre opérationnelle.

UECes optimisations de mémoire GPU, utilisées notamment par Mistral, bénéficient aux équipes de recherche européennes qui entraînent des modèles avec des ressources GPU limitées.

OutilsTuto
1 source
Comment l’IA simplifie la data de caisse pour la transformer en levier de rentabilité ?
61FrenchWeb 

Comment l’IA simplifie la data de caisse pour la transformer en levier de rentabilité ?

L'intelligence artificielle redéfinit le rôle des données de caisse dans le commerce de détail et la restauration. Ce qui n'était pendant des décennies qu'un simple justificatif de transaction ou un document à conserver pour la comptabilité devient, grâce aux outils d'analyse automatisée, une matière première exploitable en temps réel. Les systèmes modernes de point de vente intègrent désormais des couches d'IA capables d'analyser automatiquement chaque ticket, d'identifier les articles les plus rentables, de détecter les heures creuses et de segmenter la clientèle sans intervention humaine. Pour les commerçants et les restaurateurs, l'enjeu est directement financier. En croisant les données de caisse avec d'autres signaux comme les stocks ou les conditions météorologiques, ces outils permettent d'ajuster les prix, d'optimiser les achats fournisseurs et de personnaliser les offres promotionnelles. Des gains de marge de quelques points de pourcentage, imperceptibles transaction par transaction, peuvent représenter des dizaines de milliers d'euros sur un exercice annuel pour une enseigne de taille moyenne. Cette transformation s'inscrit dans un mouvement plus large de démocratisation des outils analytiques autrefois réservés aux grandes surfaces ou aux chaînes disposant de directions data étoffées. La baisse des coûts des solutions SaaS spécialisées et l'émergence de modèles de langage capables de traiter des données structurées ont nivelé le terrain. Les acteurs de l'édition logicielle pour TPE et PME, comme les fournisseurs de terminaux de paiement, se positionnent désormais comme des agrégateurs de valeur autant que des prestataires techniques.

UELes commerçants et restaurateurs français (TPE/PME) sont directement concernés par cette démocratisation des outils analytiques IA, qui leur permet d'optimiser leurs marges sans disposer d'une direction data dédiée.

OutilsOutil
1 source
La fin des réponses rapides ? Cet agent de recherche approfondie prend 8 heures pour répondre
62Le Big Data 

La fin des réponses rapides ? Cet agent de recherche approfondie prend 8 heures pour répondre

Sakana AI, la start-up tokyoïte fondée en 2023 par Llion Jones et David Ha, a lancé le 15 juin 2026 un agent de recherche autonome baptisé Marlin, présenté comme un "directeur de la stratégie virtuel". Contrairement aux outils d'IA générative qui misent sur la réactivité, Marlin prend jusqu'à huit heures pour produire des rapports stratégiques dépassant cent pages. L'utilisateur soumet un sujet et un périmètre, puis l'agent prend le relais : il formule des hypothèses, collecte des données, recoupe les sources et cartographie les causalités. À la sortie, il génère des options stratégiques, des slides, des annexes et un rapport complet. La technologie sous-jacente repose sur AB-MCTS, une recherche arborescente Monte Carlo adaptative inspirée des moteurs d'échecs : le système explore plusieurs pistes en parallèle, abandonne les impasses et approfondit les hypothèses prometteuses. L'architecture s'appuie sur TreeQuest, publié sous licence Apache 2.0. Marlin coordonne plusieurs modèles d'IA selon les tâches, sans en révéler les noms ni les fournisseurs. La tarification s'articule autour de crédits à 98 yens l'unité, un plan Pro à 150 000 yens par mois et une offre entreprise à 400 000 yens. Marlin s'adresse aux entreprises, fonds financiers et groupes de réflexion qui consacrent aujourd'hui des semaines à la recherche préalable aux décisions stratégiques. L'outil automatise la phase la plus laborieuse du conseil : la collecte, la synthèse et la mise en perspective de données complexes. Les exemples cités lors du lancement illustrent l'ambition : analyse d'un blocus théorique du détroit d'Ormuz, cartographie de la réglementation mondiale de l'IA, étude du retour des "justiciers des obligations". Une beta fermée impliquant environ 300 professionnels depuis avril 2026 a généré des retours positifs, un consultant affirmant que l'outil "a dépassé ses attentes". Sakana précise que les données clients ne servent pas à entraîner les modèles sans consentement explicite, un point de confidentialité crucial pour les usages stratégiques sensibles. Llion Jones a coécrit l'article fondateur sur les Transformers chez Google en 2017 ; David Ha est passé par Google Brain et Stability AI. Ensemble, ils ont construit Sakana autour d'une philosophie biomimétique : plutôt qu'un modèle géant unique, des modèles spécialisés qui coopèrent, à l'image des bancs de poissons ou des colonies de fourmis. Cette approche a séduit Nvidia, Google, MUFG, Citi et Salesforce, portant la valorisation de la société au-delà de 2,6 milliards de dollars. Marlin constitue leur premier produit commercial, après ALE-Agent et RL Conductor. Il s'inscrit dans une tendance plus large de l'IA "lente et profonde", en rupture avec la course à la réponse instantanée. La vraie question qui demeure : dans un monde saturé de synthèses automatiques, qui lira réellement cent pages générées par une machine, même brillantes ?

UELes cabinets de conseil et fonds d'investissement européens pourraient s'intéresser à Marlin pour automatiser leur veille stratégique, mais l'outil reste en bêta fermée avec une tarification en yens sans offre adaptée au marché européen.

OutilsOutil
1 source
Hermes Agent ajoute des sous-agents asynchrones : les tâches déléguées ne bloquent plus le chat principal
63MarkTechPost 

Hermes Agent ajoute des sous-agents asynchrones : les tâches déléguées ne bloquent plus le chat principal

Nous Research a publié une mise à jour majeure pour Hermes Agent, son agent personnel open-source : l'outil de délégation delegatetask supporte désormais les sous-agents asynchrones. Annoncé le 15 juin 2026 sur X par le co-fondateur Teknium, ce changement transforme en profondeur la façon dont un agent parent peut distribuer du travail à des agents enfants. Auparavant, lancer un sous-agent gelait entièrement la conversation principale jusqu'à la fin de l'exécution. Désormais, delegatetaskasync retourne immédiatement un identifiant de tâche (taskid) et laisse le chat libre. Les utilisateurs existants accèdent à la fonctionnalité via une simple commande hermes update. Ce déblocage ouvre des workflows qui étaient structurellement impossibles avant. Un utilisateur peut désormais lancer une tâche longue, une recherche web, une correction de build, une analyse de code, et continuer à interagir avec l'agent principal pendant ce temps. Cinq nouveaux outils couvrent l'intégralité du cycle de vie asynchrone : checktask pour consulter l'état en temps réel, steertask pour injecter des instructions dans un agent en cours d'exécution, collecttask pour récupérer le résultat final, canceltask pour interrompre, et list_tasks pour visualiser toutes les tâches actives. L'isolation reste stricte : chaque sous-agent démarre avec une conversation vierge, son propre terminal et son propre ensemble d'outils. Seul le résumé final remonte au parent, ce qui maintient la fenêtre de contexte de ce dernier compacte. Les agents tournent en threads in-process et héritent de la configuration du parent, y compris le pool de clés API avec rotation automatique en cas de rate limit. Hermes Agent s'inscrit dans une tendance plus large où les frameworks d'agents IA cherchent à rendre l'orchestration multi-agents aussi naturelle que la programmation concurrente classique. La contrainte du blocage synchrone était un frein réel à l'adoption pour les tâches longues, forçant les utilisateurs à attendre passivement des processus pouvant durer plusieurs minutes. Cette évolution a été développée ouvertement sur GitHub (issue #5586), et Nous Research travaille en parallèle sur un protocole plus ambitieux, ACP (issue #4949), qui viserait la persistance des tâches entre sessions, là où les sous-agents asynchrones actuels restent limités à une seule session. La concurrence entre sous-agents reste plafonnée à trois par défaut via le paramètre delegation.maxconcurrentchildren, un levier configurable selon les besoins et les contraintes des API utilisées.

OutilsOutil
1 source
Atoms : un outil de vibe coding qui utilise des agents IA pour créer, déployer et promouvoir votre app, sans code
64MarkTechPost 

Atoms : un outil de vibe coding qui utilise des agents IA pour créer, déployer et promouvoir votre app, sans code

Atoms, un outil de création d'applications sans code, est lancé par l'équipe derrière MetaGPT, le framework multi-agents open source fort de 68 700 étoiles sur GitHub et de 11 publications dans des conférences majeures en intelligence artificielle. Plutôt qu'un simple générateur de code, la plateforme se structure comme une équipe virtuelle de huit agents spécialisés : Iris pour la recherche de marché, Emma pour la spécification produit, Bob pour l'architecture, Alex pour le développement, Sarah pour le SEO, Adrian pour les campagnes Google Ads, David pour l'analyse de données, et Mike comme chef d'équipe chargé de coordonner l'ensemble et de valider les étapes clés avec l'utilisateur. Atoms inclut également un « Race Mode » qui soumet chaque instruction à plusieurs modèles frontiers en parallèle et propose le meilleur résultat, avec une précision améliorée jusqu'à trois fois selon l'entreprise. Chaque application déployée est livrée avec authentification, base de données en temps réel, paiements Stripe et hébergement scalable en un clic. La vraie rupture qu'apporte Atoms ne porte pas sur la génération de code, désormais banalisée, mais sur l'ensemble du cycle de vie d'un produit numérique. La majorité des outils de vibe coding permettent de produire une démo convaincante, puis laissent l'utilisateur seul face au référencement, à la distribution et à la monétisation. Atoms intègre ces dimensions nativement : pages SEO générées et indexées automatiquement, campagnes Google Ads lancées et optimisées depuis la plateforme, et insights analytiques remontés par un agent dédié. Pour un entrepreneur non-technique, cela permet de passer d'une idée à un produit commercial opérationnel sans sous-traiter chaque brique séparément. Le code reste entièrement exportable ou synchronisable avec GitHub, évitant tout effet de dépendance à la plateforme. Cette approche s'inscrit dans l'essor du vibe coding, popularisé par Andrej Karpathy début 2025, qui postule que l'IA permet à quiconque de formuler une idée de construire une application sans écrire une ligne de code. MetaGPT, socle technique d'Atoms, est l'un des projets multi-agents les plus cités en recherche académique, ce qui confère à la plateforme une crédibilité rare dans un secteur souvent dominé par des startups sans ancrage scientifique. Le marché reste néanmoins très concurrentiel, avec Lovable, Bolt, Replit ou Cursor qui ciblent des segments adjacents. Atoms parie sur l'intégration verticale totale, de la validation d'idée jusqu'à l'acquisition payante, comme principal facteur de différenciation. La question ouverte reste la qualité réelle des applications en production à grande échelle, et le degré d'autonomie laissé à l'utilisateur face aux décisions stratégiques prises par les agents.

OutilsOutil
1 source
Google Cloud lance l'Open Knowledge Format (OKF), spécification Markdown neutre pour fournir du contexte aux agents IA
65MarkTechPost 

Google Cloud lance l'Open Knowledge Format (OKF), spécification Markdown neutre pour fournir du contexte aux agents IA

Google Cloud a présenté l'Open Knowledge Format (OKF), une spécification ouverte et neutre vis-à-vis des fournisseurs, destinée à standardiser la manière dont les agents d'intelligence artificielle accèdent au contexte interne des organisations. En version 0.1, OKF représente la connaissance sous forme de répertoires de fichiers markdown accompagnés d'un en-tête YAML. Chaque concept, qu'il s'agisse d'une table de base de données, d'une métrique, d'un runbook ou d'une API, est décrit dans un fichier unique dont le chemin constitue son identifiant. Les champs structurés réservés sont minimalistes : type, title, description, resource, tags et timestamp. Le résultat est un bundle entièrement lisible sur GitHub, transportable en tarball, et ne nécessitant ni SDK, ni service tiers, ni schéma propriétaire. Ce format s'attaque à un problème concret qui plombe les déploiements d'agents IA en entreprise : la dispersion du contexte interne. Quand un agent doit répondre à la question "comment calculer les utilisateurs actifs hebdomadaires depuis notre flux d'événements ?", il doit assembler la réponse depuis des catalogues de métadonnées aux API incompatibles, des wikis d'équipe, des drives partagés et des commentaires de code. Chaque éditeur propose aujourd'hui son propre schéma de knowledge graph, rendant la connaissance non portable entre produits et organisations. Avec OKF, un wiki produit par une équipe peut être consommé directement par un agent différent sans traduction, éliminant le travail dupliqué que chaque développeur d'agents accomplit aujourd'hui depuis zéro. L'idée sous-jacente a été formulée par Andrej Karpathy dans un gist publié en avril 2026, où il soulignait que les LLM sont particulièrement adaptés à la maintenance de wikis structurés : ils ne s'ennuient pas, n'oublient pas de mettre à jour les références croisées, et peuvent éditer de nombreux fichiers en une seule passe. Le pattern existait déjà sous diverses formes, des vaults Obsidian connectés à des agents de code aux fichiers AGENTS.md et CLAUDE.md devenus conventions courantes, en passant par les dépôts "métadonnées as code". Aucun de ces formats ne s'interopérait. OKF tente de devenir la couche de standardisation manquante. La spécification étant ouverte et délibérément sans friction technique, son adoption dépendra de la capacité de la communauté à converger autour de ces conventions avant que d'autres éditeurs ne proposent leurs propres alternatives propriétaires.

UELes entreprises européennes déployant des agents IA peuvent adopter ce format ouvert pour structurer leur contexte interne sans dépendance à un éditeur propriétaire américain.

OutilsOutil
1 source
Les plateformes CMS dopées à l'IA transforment la gestion de contenu en entreprise
66AI News 

Les plateformes CMS dopées à l'IA transforment la gestion de contenu en entreprise

Les grandes entreprises et les éditeurs de plateformes de gestion de contenu (CMS) opèrent une mutation structurelle : les outils qui servaient historiquement à publier du contenu deviennent des plateformes d'orchestration intelligente. Selon une enquête Deloitte publiée en 2025 auprès de plus de 1 800 cadres dirigeants, les investissements en intelligence artificielle dépassent désormais le stade des projets pilotes isolés pour s'intégrer à grande échelle dans les flux de création de contenu, le service client et les opérations informatiques. Près de la moitié des organisations interrogées utilisent déjà l'IA pour automatiser des processus internes. Concrètement, un CMS intelligent ne se contente plus de stocker et de publier : il suggère des améliorations de texte, détecte les incohérences de localisation, prédit quelles variantes de contenu sont susceptibles de mieux performer et achemine automatiquement les approbations aux bons interlocuteurs. Dans une marque multinationale gérant des campagnes sur 20 marchés, 12 langues et quatre lignes de produits, cela représente des centaines de variantes à maintenir cohérentes et actualisées simultanément. L'enjeu dépasse la simple productivité interne. Les outils de recherche alimentés par l'IA et les agents d'achat automatisés s'appuient désormais directement sur les contenus des marques pour décider ce qu'ils affichent, citent ou recommandent à un acheteur potentiel. Une infrastructure de contenu fragmentée, avec des données incohérentes ou périmées, ne ralentit plus seulement les équipes éditoriales : elle rend la marque invisible ou peu fiable au moment précis où une décision d'achat se prend. Chaque outil en aval, moteur de personnalisation, assistant conversationnel ou moteur de recherche IA, reproduit et amplifie les erreurs du contenu source. Ce n'est plus un problème de qualité éditoriale, c'est un problème de distribution commerciale. Pendant des années, la réponse des entreprises à cette complexité croissante a été d'empiler des processus manuels, des systèmes cloisonnés et des équipes de coordination de plus en plus larges. Ce modèle atteignait ses limites face à l'accélération des attentes clients, qui réclament des expériences personnalisées et instantanées à chaque point de contact. La nouvelle génération de CMS entend changer la nature même de l'outil : non plus un simple outil de publication au centre d'un écosystème fragmenté, mais une fondation de contenu gouvernée à partir de laquelle tous les canaux, systèmes et agents IA tirent des informations fiables. Le défi identifié par les éditeurs n'est pas l'intention d'adopter l'IA, largement présente dans les organisations, mais la capacité à intégrer ces fonctionnalités au coeur des systèmes où le contenu est réellement créé, validé et diffusé, et non dans des outils annexes déconnectés du flux de travail principal.

UELes entreprises françaises et européennes gérant des contenus multilingues sont directement concernées par cette mutation des CMS, qui conditionne leur visibilité dans les moteurs de recherche IA et les agents d'achat automatisés.

OutilsOutil
1 source
Aperçu de Siri AI sur iOS 27 : Apple a-t-elle sauvé le soldat Siri ?
67Next INpact 

Aperçu de Siri AI sur iOS 27 : Apple a-t-elle sauvé le soldat Siri ?

Avec iOS 27, Apple dévoile une version profondément remaniée de Siri, propulsée par de nouveaux modèles de langage développés en interne avec l'appui de modèles Gemini de Google. L'interface change radicalement : l'ancien halo arc-en-ciel sur les bords de l'écran laisse place à une intégration dans la Dynamic Island de l'iPhone. L'activation reste identique, par appui long sur le bouton d'allumage ou commande vocale "Dis Siri", mais le moteur Spotlight permet désormais de saisir des requêtes au clavier en plus des commandes orales. Siri répond en français, en espagnol et en allemand, entre autres langues, et les échanges écrits fonctionnent globalement bien dans ces langues, même si l'assistant retombe parfois en anglais sans prévenir. Basculer Siri en français dans les réglages iOS le fait malheureusement revenir à son ancienne version, sans les nouvelles capacités conversationnelles. Ce Siri AI marque un saut qualitatif indéniable pour des millions d'utilisateurs Apple à travers le monde. L'assistant gagne enfin les capacités de dialogue continu qui manquaient cruellement à ses prédécesseurs : fini les réponses figées et les "Désolé, je ne comprends pas" à répétition. Pour les utilisateurs francophones, la situation reste perfectible, le support vocal du français étant encore partiel, mais la voie est tracée. L'enjeu est colossal pour Apple : Siri équipe chaque iPhone, iPad et Mac vendu, soit des centaines de millions d'appareils, et sa médiocrité chronique nuisait à l'image de la marque face à des concurrents comme Google Assistant ou ChatGPT, largement perçus comme supérieurs. Le chemin parcouru illustre combien Apple a accumulé du retard depuis l'explosion de l'IA générative fin 2022. Lors de la WWDC 2024, la firme de Cupertino avait annoncé un "Siri 2.0" sous l'appellation Apple Intelligence, mais cette promesse ne s'est jamais concrétisée à temps, laissant les utilisateurs avec un assistant quasi inchangé pendant des mois. Le choix de s'appuyer sur les modèles Gemini de Google est révélateur : Apple, malgré ses ressources considérables, a préféré s'allier à un concurrent pour combler rapidement son retard plutôt que d'attendre ses propres modèles. Cette stratégie hybride soulève des questions sur la dépendance à long terme à des technologies tierces et sur la confidentialité des données. Apple a annoncé que d'autres langues seraient prises en charge prochainement, laissant espérer un support francophone complet dans les mois à venir.

UELe support francophone reste partiel dans iOS 27 et l'intégration des modèles Gemini de Google soulève des questions de conformité RGPD pour les centaines de millions d'utilisateurs européens d'Apple.

💬 Apple a mis deux ans à livrer ce qu'elle avait annoncé, et pour y arriver, elle a dû brancher Gemini dessus. C'est le genre de compromis qui en dit long sur l'état de l'IA en interne chez Apple. Pour les francophones, le mode vocal revient à l'ancien Siri dès qu'on change la langue dans les réglages, ce qui fait tache pour des centaines de millions d'appareils.

OutilsOpinion
1 source
Meta donne un gros coup d’IA à Facebook… en exploitant les publications publiques
68Le Big Data 

Meta donne un gros coup d’IA à Facebook… en exploitant les publications publiques

Meta a lancé le 15 juin 2026 un nouveau « Mode IA » sur Facebook, qui transforme la barre de recherche en interface conversationnelle. Les utilisateurs peuvent désormais poser des questions en langage naturel et recevoir une réponse synthétisée directement par le modèle d'IA de Meta, sans avoir à parcourir une liste de résultats. Cette réponse s'appuie sur les publications publiques de la plateforme : posts d'utilisateurs, discussions de groupes et vidéos Reels. La fonctionnalité arrive en même temps que plusieurs outils de création assistés par l'IA, dont la génération de collages, des transitions vidéo automatiques et des filtres permettant d'habiller virtuellement sa photo de profil avec le maillot de son équipe sportive favorite. L'enjeu de fiabilité est immédiat et concret. Contrairement à un moteur de recherche classique qui renvoie vers des sources identifiables, ce système synthétise des millions d'avis, d'expériences personnelles et de discussions issues du grand public. La qualité de la réponse générée dépend donc directement de la qualité des contenus indexés, qui peuvent inclure rumeurs, approximations ou désinformations populaires. Google essuie les mêmes critiques depuis qu'il a introduit des résumés automatiques tirés de Reddit. Pour Meta, l'enjeu est d'autant plus fort que Facebook reste une plateforme de référence pour des centaines de millions d'utilisateurs, notamment dans des pays où elle constitue le principal point d'accès à l'information. Si le système ne parvient pas à distinguer une information fiable d'une opinion virale, il risque d'amplifier les fausses croyances à grande échelle. Ce lancement s'inscrit dans une stratégie d'intégration accélérée de l'IA sur l'ensemble des produits Meta. L'entreprise avait déjà lancé Forum, une application de questions-réponses communautaires alimentée par les groupes Facebook, signalant clairement sa volonté de concurrencer Google sur le terrain de la recherche d'information. En parallèle, Meta déploie des assistants pour créateurs de contenu et des réponses automatiques sur Marketplace, transformant progressivement Facebook en plateforme augmentée par l'IA. La bataille se joue à plusieurs niveaux : technologique face à Google et OpenAI, réglementaire face aux autorités européennes qui scrutent l'utilisation des données publiques des utilisateurs pour entraîner ou alimenter ces systèmes, et en termes de confiance auprès d'un public de plus en plus averti des limites des IA génératives.

UELes autorités européennes scrutinent l'utilisation des données publiques des utilisateurs de Facebook pour alimenter ce système d'IA, exposant Meta à des risques réglementaires sous le RGPD et l'AI Act.

💬 Transformer Facebook en source de vérité pour une IA de recherche, c'est prendre le contenu le plus chaotique du web et en faire une base de connaissance. Meta le sait, mais c'est ça ou laisser Google et OpenAI dicter les règles du moteur de demain. Reste à voir si le système saura distinguer un post fiable d'une opinion virale, parce qu'avec Facebook comme principale fenêtre sur l'info dans des dizaines de pays, un raté peut faire beaucoup de dégâts.

OutilsOutil
1 source
Sakana AI commercialise AB-MCTS avec Sakana Marlin, un agent capable de créer des rapports de 100 pages avec diapositives
69MarkTechPost 

Sakana AI commercialise AB-MCTS avec Sakana Marlin, un agent capable de créer des rapports de 100 pages avec diapositives

Sakana AI, la startup tokyoïte fondée par d'anciens chercheurs de Google DeepMind, a lancé cette semaine son premier produit commercial : Sakana Marlin, un agent de recherche autonome destiné aux entreprises. Contrairement à un chatbot classique qui répond en quelques secondes, Marlin fonctionne sur des sessions pouvant durer jusqu'à huit heures. L'utilisateur soumet un sujet ou une question stratégique, et l'agent planifie des hypothèses, explore des sources, vérifie ses conclusions de manière autonome, puis produit un rapport structuré de 60 à 100 pages accompagné d'un jeu de diapositives généré par IA. Chaque session mobilise des centaines, voire des milliers d'appels à des modèles de langage. La beta fermée d'avril 2026 a permis à environ 300 professionnels de tester l'outil sur des tâches réelles : formulation de stratégie, étude de marché, analyse de risques et veille concurrentielle. Sakana a également noué des partenariats avec MUFG et reçu un investissement stratégique de Citigroup. L'impact potentiel est significatif pour les équipes stratégiques et les directions générales. Marlin se positionne comme un "Virtual CSO" (Chief Strategy Officer) virtuel, capable de compresser en quelques heures un travail d'analyse qui nécessiterait normalement plusieurs semaines à une équipe entière. Les rapports produits incluent un corps principal, des références bibliographiques et des annexes, avec 60 à 80 sources citées par session. Pour les grandes entreprises confrontées à des décisions complexes dans des délais serrés, ce type d'outil pourrait transformer la façon dont la veille stratégique est produite et consommée, en déplaçant une partie du travail analytique des consultants ou analystes internes vers des agents automatisés. La technologie sous-jacente repose sur AB-MCTS, un algorithme de recherche arborescente adaptatif développé par Sakana à partir de travaux de recherche publiés dans une étude intitulée "Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search". À chaque étape du raisonnement, l'algorithme choisit entre deux stratégies : élargir l'exploration en générant un nouveau candidat, ou approfondir une piste prometteuse déjà identifiée. Une variante multi-modèles peut en outre router certaines étapes vers différents LLMs selon leur pertinence, une approche qui, dans les expériences d'ARC-AGI-2 menées par Sakana, a permis de résoudre 27,5 % des tâches en combinant o4-mini, Gemini 2.5 Pro et DeepSeek-R1, contre 23 % pour o4-mini seul. Marlin s'appuie également sur les travaux du projet AI Scientist de Sakana, publié dans la revue Nature, qui avait démontré la capacité d'un agent à conduire une découverte scientifique autonome de bout en bout.

UELes équipes stratégiques des grandes entreprises françaises et européennes pourraient adopter ce type d'agent pour automatiser la veille concurrentielle et les analyses de marché, réduisant potentiellement la demande en analystes et consultants internes.

OutilsOutil
1 source
Sakana AI lance un agent 'ultra deep research' : des rapports de plus de 100 pages en 8 heures
70VentureBeat AI 

Sakana AI lance un agent 'ultra deep research' : des rapports de plus de 100 pages en 8 heures

La startup japonaise Sakana AI, basée à Tokyo, a lancé son premier produit commercial, Sakana Marlin, un agent de recherche autonome destiné aux entreprises. Présenté comme un "directeur stratégique virtuel", Marlin ne génère pas de réponses en quelques secondes comme les chatbots classiques : il tourne en boucle de raisonnement pendant jusqu'à huit heures d'affilée pour produire des rapports stratégiques de plus de cent pages, accompagnés de diapositives exécutives, d'annexes et de références bibliographiques. Le produit est disponible immédiatement sur le site de l'entreprise, avec une tarification à l'usage, et cible exclusivement les grandes entreprises, les institutions financières et les think tanks. L'utilisateur soumet un sujet de recherche, échange brièvement avec le système pour affiner le périmètre, puis laisse Marlin travailler seul. Sakana a publié des exemples de rapports générés, portant notamment sur des scénarios de blocage du détroit d'Ormuz, la cartographie des réglementations mondiales sur l'IA, ou encore le retour des "bond vigilantes" sur les marchés obligataires. Ce lancement marque un tournant dans la manière dont les grandes organisations envisagent l'IA. Depuis deux ans, l'industrie a été dominée par la course à la vitesse : générer un texte, un résumé ou du code en quelques millisecondes. Marlin renverse cette logique en pariant sur la profondeur plutôt que la rapidité. Pour une multinationale ou un fonds d'investissement, la valeur ne réside plus dans la réactivité, mais dans la capacité à synthétiser des sources hétérogènes, à croiser des données, à formuler des hypothèses et à les tester automatiquement, le tout sans intervention humaine. C'est un glissement de paradigme : l'IA cesse d'être un assistant réactif pour devenir un analyste autonome capable de mener une investigation stratégique complète en une journée de travail. Sakana AI a été fondée par des anciens de Google Brain, dont David Ha et Llion Jones, co-auteur du papier fondateur "Attention is All You Need". L'entreprise a construit Marlin sur deux avancées internes majeures : l'Adaptive Branching Monte Carlo Tree Search (AB-MCTS), une technique de raisonnement inspirée des moteurs d'échecs qui explore des milliers de chemins possibles avant de choisir la meilleure piste, et "The AI Scientist", un projet de recherche publié dans Nature qui avait automatisé le processus de découverte scientifique de bout en bout. Marlin est la traduction commerciale de ces travaux de laboratoire. Sakana n'a pas précisé quels modèles de langage il utilise en coulisses. Dans un marché où OpenAI, Perplexity et Google proposent déjà des fonctions de "deep research", Sakana se différencie par l'échelle temporelle et la profondeur de sortie, positionnant Marlin non pas comme un concurrent des chatbots grand public, mais comme un outil de conseil stratégique automatisé à destination des décideurs.

OutilsOutil
1 source
Détection des pannes et analyse des causes racines des agents IA avec Strands Evals
71AWS ML Blog 

Détection des pannes et analyse des causes racines des agents IA avec Strands Evals

Amazon a publié Strands Evals, un kit de développement Python conçu pour automatiser le diagnostic des pannes dans les agents IA en production. Disponible via pip install strands-agents-evals et compatible avec Amazon Bedrock, l'outil introduit un système de "détecteurs" capables d'analyser automatiquement les traces d'exécution d'un agent et d'identifier les causes racines des défaillances. Là où les évaluations classiques se contentent d'un score global, "l'agent a réussi 60 % de ses objectifs", Strands Evals descend au niveau de chaque étape individuelle (chaque "span") pour catégoriser les erreurs, mesurer leur gravité par un score de confiance, et retracer la chaîne causale qui a conduit à l'échec. Le pipeline fonctionne en deux phases pilotées par un LLM : une première phase de détection qui passe en revue neuf catégories de pannes (hallucination, mauvaise sélection d'outil, erreurs d'orchestration, non-conformité aux instructions, erreurs d'exécution, problèmes de gestion du contexte, comportements répétitifs, sorties LLM mal formées, et incompatibilités de configuration), puis une seconde phase d'analyse des causes racines qui classe chaque défaillance en primaire, secondaire ou tertiaire et génère des recommandations de correction ciblées. L'enjeu est directement opérationnel : lorsqu'un taux de succès chute de 85 % à 70 % après un déploiement, les ingénieurs passaient jusqu'ici des heures à inspecter manuellement des centaines de traces pour comprendre ce qui avait changé. Strands Evals promet de ramener ce diagnostic de plusieurs heures à quelques minutes. L'outil indique non seulement quelle étape a échoué, mais aussi si la correction doit porter sur le prompt système ou sur la définition des outils, une distinction qui évite des cycles d'itération coûteux. Pour les équipes qui opèrent des agents à grande échelle, intégrer ces détecteurs dans le pipeline d'évaluation automatisé signifie que chaque run de test produit désormais un diagnostic structuré, pas seulement un score. Ce lancement s'inscrit dans la montée en maturité de l'écosystème des agents IA autonomes, où l'observabilité devient aussi critique qu'elle l'est depuis longtemps dans le développement logiciel classique. Amazon Bedrock AgentCore fournit déjà des primitives de sessions, traces et spans ; Strands Evals se positionne comme la couche d'analyse au-dessus. La dépendance à Amazon Bedrock pour faire tourner les LLM d'analyse est une contrainte notable, les équipes utilisant d'autres fournisseurs devront adapter leur infrastructure. La prochaine étape logique pour l'écosystème sera d'étendre ces capacités de diagnostic à des frameworks d'agents tiers, alors que des acteurs comme LangChain, AutoGen ou CrewAI construisent leurs propres couches d'observabilité en parallèle.

OutilsOutil
1 source
Coder à l'intuition peut créer votre pipeline, mais ne l'expliquera pas six mois plus tard
72VentureBeat AI 

Coder à l'intuition peut créer votre pipeline, mais ne l'expliquera pas six mois plus tard

Les agents de codage par IA transforment à grande vitesse l'ingénierie des données en entreprise : ils génèrent des pipelines, des workflows d'orchestration, des tests de validation et des configurations d'infrastructure à partir de simples instructions en langage naturel. Cette pratique, baptisée "vibe coding", permet aux équipes de produire des implémentations isolées en quelques minutes. Mais à mesure que les plateformes de données deviennent plus complexes, fragmentées entre des dizaines de systèmes interconnectés (entrepôts de données, pipelines d'ingestion, couches sémantiques, API, tableaux de bord, modèles ML), une limitation structurelle devient évidente : le contexte qui guide ces outils IA ne survit pas à la conversation qui l'a produit. Pour y répondre, une approche nommée développement piloté par spécification (Spec-Driven Development, ou SDD) commence à s'imposer dans les discussions autour des plateformes de données modernes. Le problème central est celui de la mémoire opérationnelle. Quand un ingénieur utilise un agent IA, il fournit bien plus qu'une simple instruction : hypothèses architecturales, règles métier, contraintes de schéma, dépendances en aval, historique de débogage. Ces informations critiques restent dispersées dans des fils Slack, des tickets Jira, des historiques de conversation et des commentaires de code, plutôt que d'être intégrées au système lui-même. L'organisation perd ainsi progressivement la visibilité sur l'intention architecturale, les hypothèses de validation et la logique métier qui sous-tendent ses propres pipelines. L'implémentation est certes plus rapide, mais l'efficacité globale n'augmente pas proportionnellement : la validation, la coordination inter-équipes et la prise de décision restent entièrement dépendantes du jugement humain. Le SDD propose d'inverser cette logique en faisant des spécifications elles-mêmes des artefacts versionnés et exécutables. Les règles métier, la logique d'orchestration, les validations et les workflows d'implémentation deviennent partie intégrante du système, et non de la conversation qui les a fait naître. Ces spécifications jouent alors le rôle de mémoire opérationnelle persistante, accessible aussi bien aux équipes humaines qu'aux agents IA lors des évolutions futures. L'ingénierie des données en entreprise est particulièrement bien positionnée pour adopter cette approche, car elle repose déjà sur des patterns réutilisables, des pipelines pilotés par métadonnées et des workflows standardisés. En combinant génération assistée par IA et contrats système déterministes, le SDD ambitionne de devenir une nouvelle couche opérationnelle capable de réduire la fragmentation qui s'installe inévitablement dans les plateformes construites par des agents plutôt que par des humains.

OutilsOutil
1 source
Créez des agents de recherche riches en contexte avec Deep Agents et Bedrock AgentCore
73AWS ML Blog 

Créez des agents de recherche riches en contexte avec Deep Agents et Bedrock AgentCore

Amazon Web Services et LangChain ont publié une approche conjointe pour construire des agents de recherche IA capables de travailler en profondeur sans saturer leur fenêtre de contexte. La solution combine LangChain Deep Agents, un orchestrateur qui délègue le travail intensif à des sous-agents éphémères et spécialisés, avec Amazon Bedrock AgentCore, l'infrastructure cloud qui fournit à chaque sous-agent son environnement isolé : un vrai navigateur web dans une MicroVM (machine virtuelle légère à usage unique) pour la recherche en ligne, et un interpréteur Python complet pour l'analyse de données. Le modèle de langage utilisé est Claude Sonnet d'Anthropic, accessible via Amazon Bedrock. L'architecture décrite suit un schéma précis : un agent coordinateur reçoit la requête, consulte une mémoire persistante (AgentCore Memory) pour récupérer des analyses antérieures, puis lance trois sous-agents navigateurs en parallèle, chacun explorant le site d'un concurrent dans sa propre MicroVM. Une fois leurs résultats consolidés, un quatrième sous-agent analyste génère un graphique comparatif et un rapport Markdown via l'interpréteur de code. L'ensemble du flux est tracé via Amazon CloudWatch ou LangSmith. L'intérêt concret de cette architecture réside dans la résolution d'un problème structurel des agents IA : la compétition pour la fenêtre de contexte. Lorsqu'un agent lit dix pages web et exécute du code en même temps, la mémoire disponible pour le raisonnement stratégique s'épuise rapidement. En isolant chaque tâche intensive dans un sous-agent dédié qui ne renvoie qu'un résultat synthétique, le coordinateur conserve toute sa capacité de réflexion. Pour les équipes qui construisent des workflows de recherche concurrentielle, d'analyse de marché ou de veille technologique, cela représente un gain de fiabilité et de scalabilité significatif, sans avoir à chaîner manuellement les prompts ou à découper séquentiellement les traitements. Cette publication s'inscrit dans une dynamique plus large de structuration de l'écosystème des agents IA en production. AWS positionne Bedrock AgentCore comme une couche d'infrastructure standardisée pour les agents multi-étapes, rivalisant avec des offres comme OpenAI's Assistants API ou les frameworks autonomes tels qu'AutoGPT et CrewAI. LangChain, de son côté, continue de s'imposer comme la couche d'orchestration de référence dans les architectures multi-agents complexes. La disponibilité d'AgentCore comme fournisseur natif dans la CLI Deep Agents, accessible via une simple commande deepagents --sandbox agentcore, suggère une volonté de réduire la friction à l'adoption. La prochaine étape décrite dans le tutoriel est le déploiement de l'agent en tant que service managé et isolé par session via AgentCore Runtime, ce qui ouvre la voie à des applications de recherche IA persistantes et scalables en entreprise.

OutilsTuto
1 source
HarmonyOS 7 s'engouffre dans le vide laissé par Apple en Chine sur l'IA
74AI News 

HarmonyOS 7 s'engouffre dans le vide laissé par Apple en Chine sur l'IA

Quatre jours après qu'Apple a officiellement confirmé que ses fonctionnalités Siri IA ne seraient pas disponibles en Chine, Huawei a présenté HarmonyOS 7 le 11 juin 2026 lors de sa conférence HDC 2026 à Dongguan. Le cœur du système repose sur le HarmonyOS Intelligent Agent Framework 2.0, qui restructure l'OS autour d'un modèle dit "intent-as-service" : l'utilisateur émet une commande en langage naturel, et le système exécute ce qui nécessitait auparavant plusieurs étapes dans plusieurs applications. L'assistant Xiaoyi, entièrement refondu, contrôle désormais plus de 2 100 fonctionnalités système et coordonne plus de 2 000 agents IA tiers, dont Ctrip pour la planification de voyages et Ant Medical pour l'analyse de données de santé. Sous le capot tourne openPangu 2.0, le modèle fondation de Huawei, disponible en version Pro à 505 milliards de paramètres et en version Flash à 92 milliards, les deux supportant des fenêtres de contexte de 512 000 tokens. Des modèles embarqués à 30 milliards de paramètres sont prévus sur puces Kirin d'ici l'automne 2026, accompagnés de la version stable du système pour le grand public. Selon les propres benchmarks de Huawei, HarmonyOS 7 offre plus de 15 % de performances supplémentaires par rapport à HarmonyOS 6.1. L'impact dépasse le seul lancement produit : HarmonyOS détient désormais 19 % du marché des OS smartphones en Chine au premier trimestre 2026, contre 16 % pour iOS d'Apple et 65 % pour Android, selon les données de Counterpoint Research. HarmonyOS avait dépassé iOS pour la première fois en Chine au deuxième trimestre 2025. Ce rééquilibrage survient au moment précis où Apple est incapable de déployer sa fonctionnalité IA phare sur ce marché, faute d'accord avec les régulateurs chinois sur le traitement des données. Huawei comble donc une attente concrète chez les utilisateurs et dans l'écosystème des développeurs chinois, avec une plateforme comptant plus de 400 000 applications et services intégrés au quotidien des consommateurs locaux. HarmonyOS existe par nécessité géopolitique : lorsque les sanctions américaines de 2019 ont coupé Huawei de l'Android de Google, l'entreprise a développé son propre OS. En janvier 2026, plus de 90 % des appareils Huawei tournaient sur la version entièrement maison du système. Ce qui était une contrainte forcée est devenu un avantage structurel au moment où Apple bute sur les exigences réglementaires chinoises en matière d'intelligence artificielle. La dynamique illustre une divergence plus large entre les écosystèmes technologiques occidentaux et chinois : les mêmes sanctions qui avaient fragilisé Huawei ont finalement accéléré la construction d'une alternative crédible, calibrée pour un marché de plus d'un milliard d'utilisateurs qu'Apple ne peut plus servir pleinement.

OutilsOpinion
1 source
Guide Claude Code 2026 : 25 fonctionnalités avec exemples et démo
75MarkTechPost 

Guide Claude Code 2026 : 25 fonctionnalités avec exemples et démo

Un guide complet des 25 fonctionnalités de Claude Code a été publié à destination des ingénieurs IA, développeurs et data scientists, détaillant comment l'outil d'Anthropic a évolué d'un simple assistant en ligne de commande vers un système agentique structuré en couches. L'outil fonctionne dans le terminal, l'application desktop et les IDE, s'appuyant sur une boucle agentique capable de lire des fichiers, exécuter des commandes, modifier du code et appeler des outils externes. Cette architecture s'articule autour de primitives distinctes : les fichiers CLAUDE.md (constitution du projet lue à chaque session), les skills (fichiers SKILL.md invocables via une commande /nom), les sous-agents (instances spécialisées avec leurs propres fenêtres de contexte), les slash commands intégrées comme /init, /compact ou /review, les hooks (scripts déterministes déclenchés à des points précis du cycle de vie), et les serveurs MCP (Model Context Protocol) pour connecter Claude Code à GitHub, des bases de données ou des navigateurs. Les plugins regroupent l'ensemble en un bundle versionné installable en une commande. S'ajoutent des fonctionnalités comme les checkpoints automatiques avec retour arrière (deux appuis sur Échap), le mode Plan pour explorer sans exécuter, les modes de permission graduables, et Auto Mode, actuellement en aperçu recherche, qui utilise un classifieur Sonnet 4.6 distinct pour évaluer chaque action avant de l'autoriser ou de l'escalader. Pour les équipes techniques, cette architecture en couches change concrètement la manière de travailler sur des projets à long terme. Les sous-agents isolent les tâches verbeuses pour préserver la clarté du contexte principal, tandis que l'Agent SDK expose la même boucle de manière programmatique via query(), permettant d'intégrer /code-review ou d'autres commandes dans des scripts. Le mode headless (claude -p "requête") et l'entrée par pipe (cat logs.txt | claude -p) ouvrent la voie à l'intégration dans des pipelines CI, des jobs planifiés et des hooks pre-commit via GitHub Actions, sans terminal interactif. Ce guide s'inscrit dans une montée en puissance rapide de Claude Code depuis ses débuts expérimentaux. Anthropic a progressivement empilé des couches de contrôle, permissions granulaires, sandboxing, compaction de contexte pour les longues sessions, pour rendre possibles des workflows autonomes sans sacrifier les garde-fous. La concurrence s'est densifiée dans ce segment : GitHub Copilot Agent, Cursor et d'autres environnements agentiques se disputent les workflows des développeurs. Dans ce contexte, Claude Code mise sur la compositionnalité comme avantage différenciant, c'est-à-dire la capacité d'assembler des primitives simples (skills, hooks, MCP, plugins) en systèmes d'ingénierie largement automatisés, adaptés aux équipes qui veulent dépasser l'autocomplétion pour atteindre une véritable délégation de tâches.

OutilsOutil
1 source
Google Cloud lance un format ouvert pour convertir des documents épars en fichiers Markdown destinés aux agents IA
76The Decoder 

Google Cloud lance un format ouvert pour convertir des documents épars en fichiers Markdown destinés aux agents IA

Google Cloud a lancé l'Open Knowledge Format (OKF), un nouveau standard destiné à transformer la documentation organisationnelle éparpillée en fichiers Markdown structurés avec frontmatter YAML. L'objectif : rendre la connaissance interne des entreprises portable et directement exploitable par des agents d'intelligence artificielle. La spécification, délibérément minimaliste, propose un cadre commun pour unifier des contenus aujourd'hui dispersés entre wikis, bases de données, outils SaaS et documents PDF. L'enjeu est considérable pour les entreprises qui déploient des agents IA en interne. Actuellement, ces agents peinent à accéder à la connaissance organisationnelle parce qu'elle ne respecte aucun format unifié. OKF résout ce problème structurel en imposant une couche de standardisation légère : chaque document devient un fichier texte lisible à la fois par un humain et par un LLM, avec des métadonnées explicites permettant aux agents de comprendre le contenu, sa portée et sa pertinence sans transformation préalable. La démarche de Google Cloud s'inscrit dans un mouvement intellectuel récent : Andrej Karpathy, chercheur emblématique passé par Tesla et OpenAI, avait popularisé ce concept sous l'appellation "LLM Wiki", plaidant pour des bases de connaissances conçues nativement pour les modèles de langage. En formalisant cette intuition sous forme de standard ouvert, Google Cloud cherche à s'imposer comme référence dans l'écosystème des agents d'entreprise, un marché en forte croissance où la qualité et l'accessibilité de la connaissance structurée sont devenues des avantages concurrentiels décisifs.

UELes entreprises et administrations européennes déployant des agents IA peuvent adopter ce standard ouvert pour structurer leur documentation interne et améliorer l'interopérabilité de leurs systèmes de gestion des connaissances.

💬 Le vrai goulot d'étranglement des agents IA en entreprise, c'est jamais le modèle, c'est la connaissance éparpillée dans 14 outils différents. Karpathy avait nommé le truc il y a un moment, Google vient juste de le mettre en costume corporate avec un nom de standard. Reste à voir combien d'éditeurs SaaS vont jouer le jeu, parce qu'un format ouvert sans adoption, c'est juste un PDF de plus.

OutilsOpinion
1 source
Databricks publie Omnigent en open source : un orchestrateur d'agents IA qui unifie Claude Code, Codex et Pi
77MarkTechPost 

Databricks publie Omnigent en open source : un orchestrateur d'agents IA qui unifie Claude Code, Codex et Pi

Databricks a publié Omnigent, un "meta-harness" open source placé au-dessus des agents IA existants comme Claude Code, Codex et Pi. Développé en collaboration avec Neon et distribué sous licence Apache 2.0, Omnigent ne remplace pas ces outils : il s'installe une couche au-dessus d'eux pour les orchestrer comme des pièces interchangeables d'un même système. Concrètement, un "harness" est l'enveloppe logicielle qui transforme un modèle de langage en agent capable d'agir. Omnigent standardise l'interface de ces harnesses, messages entrants, fichiers, flux de texte et appels d'outils sortants, pour qu'ils deviennent substituables sans réécriture de code. L'outil s'installe via deux alias CLI identiques, omnigent et omni, et lance au démarrage une interface web locale sur localhost:6767, synchronisée en temps réel avec le terminal et accessible depuis un téléphone. Pour les équipes d'ingénieurs qui jonglent déjà entre quatre ou cinq agents simultanément en copiant du texte entre des outils de code, des moteurs de recherche et Slack, Omnigent apporte trois capacités structurantes. La composition permet de combiner modèles et harnesses sans toucher au code : un simple changement d'une ligne suffit à basculer de Claude Code à Codex. Le contrôle introduit des politiques stateful, par exemple, mettre un agent en pause après chaque dépense de 100 dollars, ou exiger une validation humaine avant un git push si l'agent a installé un nouveau paquet npm. La collaboration permet de partager une session d'agent en direct par URL : les coéquipiers peuvent observer, commenter des fichiers, co-piloter ou bifurquer la conversation. Un sandbox système appelé Omnibox assure la sécurité sous-jacente, notamment en injectant les tokens GitHub uniquement via un proxy de sortie approuvé, sans les exposer à l'agent. Le projet embarque deux agents d'exemple révélateurs de la philosophie de l'outil. "Polly" est un orchestrateur multi-agents qui ne génère aucun code lui-même : il planifie, puis délègue en parallèle à des sous-agents dans des worktrees git distincts, avec une revue croisée assurée par un agent d'un fournisseur différent de celui qui a écrit le code. "Debby" est un partenaire de brainstorming à deux têtes, Claude et GPT, qui répond en parallèle à chaque question et peut déclencher un débat contradictoire entre les deux via la commande /debate. Ces exemples illustrent une tendance de fond : avec la multiplication des agents spécialisés, la compétition ne se joue plus seulement au niveau du modèle, mais à celui de l'orchestration. Omnigent positionne Databricks sur ce terrain en proposant une couche de gouvernance neutre, ouverte, et potentiellement universelle pour l'écosystème des agents de développement.

💬 Le truc qui m'a accroché, c'est pas la couche d'orchestration générique, c'est les politiques de contrôle : mettre un agent en pause après 100 dollars de dépenses, bloquer un git push si un nouveau paquet npm s'est glissé sans validation humaine, c'est le maillon qui manquait depuis qu'on jongle avec cinq agents en même temps. Databricks parie que la bataille se joue à la gouvernance plutôt qu'au modèle, et ce pari-là je le trouve solide. Apache 2.0, Neon dans la boucle, reste à voir si l'écosystème suit vraiment.

OutilsOutil
1 source
Créer un espace de travail d'agents QwenPaw : compétences personnalisées, fournisseurs de modèles et API en streaming
78MarkTechPost 

Créer un espace de travail d'agents QwenPaw : compétences personnalisées, fournisseurs de modèles et API en streaming

Un tutoriel détaillé publié récemment présente QwenPaw, un environnement de travail destiné aux développeurs souhaitant construire et tester des assistants pilotés par des agents IA. Le guide explique pas à pas comment installer et initialiser QwenPaw dans un environnement Google Colab, configurer un répertoire de travail structuré, activer l'authentification sécurisée avec génération automatique d'un mot de passe aléatoire, et connecter des fournisseurs de modèles externes via les secrets Colab. L'architecture repose sur une organisation en répertoires distincts, espace de travail, secrets, journaux, et expose le service sur un port configurable (par défaut le 8088), avec la possibilité de rendre la console accessible publiquement via un tunnel Cloudflare. Ce type d'environnement répond à un besoin concret des équipes de développement IA : disposer d'un espace intégré pour concevoir des agents, tester leurs compétences personnalisées (« skills »), et valider le comportement de l'API de chat en streaming, le tout sans sortir de l'environnement de développement. En permettant de connecter différents fournisseurs de modèles à la volée et d'exposer une interface console accessible via URL, QwenPaw réduit la friction entre la phase de prototypage et celle de mise en production. La prise en charge native du streaming d'API et d'un garde-fou sur les outils (QWENPAWTOOLGUARD_ENABLED) montre une attention particulière à la robustesse en environnement multi-agents, où les appels d'outils mal contrôlés peuvent rapidement devenir une source d'erreurs coûteuses. QwenPaw s'inscrit dans l'écosystème grandissant des frameworks d'agents IA, qui cherchent à standardiser la façon dont les modèles de langage interagissent avec des outils, des bases de connaissances locales et des API externes. Son nom évoque une parenté avec les modèles Qwen, la famille de LLM développée par Alibaba/Tongyi, très utilisée dans les contextes où l'on cherche des alternatives aux modèles d'OpenAI ou Anthropic. Le fait que le tutoriel soit conçu pour fonctionner directement dans Google Colab, environnement d'exécution gratuit et largement adopté, suggère une volonté de rendre ce framework accessible à un public plus large, au-delà des équipes disposant d'infrastructure dédiée. La direction prise, avec des fonctionnalités comme le scan de compétences en mode « warn » et la gestion fine des permissions, laisse anticiper une montée en maturité vers des cas d'usage de production.

💬 Le QWENPAWTOOLGUARD_ENABLED, c'est le genre de détail qui dit que les auteurs ont déjà mis les mains dans des pipelines multi-agents foireux. Que ça tourne directement dans Colab c'est malin, ça ouvre le truc aux équipes qui n'ont pas de GPU en local. Reste à voir ce que ça vaut une fois sorti du sandbox.

OutilsTuto
1 source
Supercharger : comment Rocket Close a optimisé ses opérations de titres avec des agents IA
79AWS ML Blog 

Supercharger : comment Rocket Close a optimisé ses opérations de titres avec des agents IA

Rocket Close, filiale de Rocket Companies basée à Détroit, a développé une solution d'intelligence artificielle agentique baptisée Supercharger pour automatiser et accélérer ses opérations de titre immobilier, une étape juridique incontournable dans tout achat de logement aux États-Unis. Conçu en collaboration avec AWS, Supercharger repose sur le SDK open source Strands Agents, les modèles de langage Claude d'Anthropic via Amazon Bedrock, et un système de bases de connaissances (Amazon Bedrock Knowledge Bases) couplé à des outils Model Context Protocol (MCP). La plateforme centralise les données opérationnelles, les procédures internes et les exigences réglementaires propres à chaque État américain, permettant aux équipes d'interagir en langage naturel avec un assistant qui comprend le contexte sur plusieurs échanges successifs. L'impact est direct et mesurable : là où un examinateur de titre passait auparavant plusieurs heures à naviguer entre systèmes disparates, guides d'État et exigences de comtés pour répondre à une seule question réglementaire, Supercharger génère des réponses contextualisées en temps réel. La solution automatise les tâches de recherche à forte intensité documentaire, propose des listes de vérification adaptées aux examens de titre État par État, et s'intègre via API aux bases de données existantes pour éviter la ressaisie manuelle. Des garde-fous (Amazon Bedrock Guardrails) combinés à des droits d'accès au niveau des lignes de données protègent les informations sensibles des clients, tandis qu'une journalisation complète assure la traçabilité exigée par la conformité réglementaire. Le résultat est une réduction du temps opérationnel et une meilleure capacité à absorber la croissance du volume de dossiers sans augmenter les effectifs proportionnellement. Le secteur du titre immobilier américain souffre depuis longtemps d'une fragmentation extrême : chaque État, voire chaque comté, impose ses propres règles sur l'enregistrement des actes, la vérification des hypothèques, les exigences de probate ou les identifiants fiscaux. Cette complexité structurelle ralentissait Rocket Close au moment même où la demande de crédits immobiliers accélérait. L'adoption d'architectures agentiques par les grands acteurs financiers s'inscrit dans une tendance plus large où les LLM cessent d'être de simples assistants textuels pour devenir des orchestrateurs de workflows métier complets. Rocket Companies, groupe qui regroupe également Rocket Mortgage, positionne ainsi Supercharger comme un avantage concurrentiel dans la course à l'automatisation du parcours d'achat immobilier, un marché où la vitesse d'exécution et la conformité réglementaire sont des critères de différenciation déterminants.

💬 Le titre immobilier américain, c'est 50 États, autant de règles différentes, et un examinateur qui passe des heures à naviguer entre systèmes disparates pour répondre à une seule question réglementaire. Ce que Rocket Close a fait avec Supercharger, c'est exactement ce pour quoi les agents IA ont été conçus : pas du chatbot généraliste, mais une couche d'orchestration qui centralise une connaissance fragmentée et la rend interrogeable en temps réel. Bon, sur le papier c'est impeccable, reste à voir ce que ça donne sur les cas limites du Montana en période de rush.

OutilsOutil
1 source
Siri AI vs Google Gemini : qui gagne en 2026 ?
80Le Big Data 

Siri AI vs Google Gemini : qui gagne en 2026 ?

En 2026, la rivalité entre les deux principaux assistants IA mobiles prend un tournant décisif. Apple, longtemps perçu comme en retard sur l'intelligence artificielle générative, accélère sa transition avec une version substantiellement rénovée de Siri, désormais capable de comprendre le contexte de plusieurs conversations simultanées, de résumer des échanges et d'effectuer des recherches approfondies à travers les applications natives de l'iPhone. De son côté, Google Gemini s'est imposé comme une plateforme multimodale de référence, capable d'interpréter simultanément du texte, des images, de l'audio et des séquences vidéo longues, tout en traitant des requêtes complexes nécessitant plusieurs étapes de raisonnement. La coopération stratégique annoncée entre Apple et Google, par laquelle Cupertino s'appuie partiellement sur l'infrastructure de son rival pour enrichir certaines fonctions de son écosystème, ajoute une dimension inédite à ce face-à-face. La divergence entre les deux approches est fondamentale et détermine concrètement l'expérience de centaines de millions d'utilisateurs. Siri mise sur une intégration profonde dans iOS, iPadOS et macOS : l'assistant peut accéder au contenu affiché à l'écran, aux messages récents et aux fichiers stockés localement pour personnaliser ses réponses, plutôt que de simplement produire une réponse exacte. Cette philosophie du traitement local et du cloud privé est pensée pour des utilisateurs attachés à la confidentialité. Gemini, lui, privilégie la puissance brute : il excelle dans l'analyse de documents volumineux, l'identification d'éléments visuels précis ou la réponse à des scénarios multi-étapes, en croisant plusieurs sources d'information en quelques secondes. Pour les professionnels qui travaillent sur des contenus variés, ou les utilisateurs ancrés dans l'écosystème Google Workspace, l'avantage penche nettement vers Gemini. Ce duel reflète une recomposition plus profonde du marché des smartphones, où l'IA est devenue le principal terrain de différenciation. Pendant des années, Apple a préféré la prudence, cantonnant Siri à des tâches limitées pour préserver sa réputation sur la vie privée. La montée en puissance de ChatGPT et de Gemini a forcé Cupertino à changer de vitesse, quitte à s'allier temporairement avec Google. Google, de son côté, joue sur deux tableaux : enrichir Android avec Gemini tout en fournissant une partie de sa technologie à Apple via des accords commerciaux. Les prochains mois seront déterminants : Apple doit démontrer que sa vision centrée sur la confidentialité peut rivaliser avec la puissance de calcul de Google à l'échelle mondiale, tandis que Google doit convaincre que son ouverture ne se fait pas au détriment de la transparence pour les utilisateurs.

UELes implications en matière de confidentialité des données (traitement local vs cloud) présentent une dimension pertinente pour les utilisateurs européens soumis au RGPD.

💬 Apple qui achète de la puissance IA à Google pour faire tourner Siri, c'est le vrai scoop de cet article. Ça fait deux ans qu'on attendait qu'Apple se réveille sur l'IA générative, mais se réveiller en sous-traitant à l'ennemi, c'est un choix qui mérite qu'on s'y arrête. La confidentialité locale, c'est bien, mais faut pas que ce soit juste un argument marketing pour cacher que les modèles maison ne suivent pas.

OutilsOutil
1 source
OpenAI lance la guerre des prix dans l'IA avec des quotas flexibles pour son agent de code Codex
81The Decoder 

OpenAI lance la guerre des prix dans l'IA avec des quotas flexibles pour son agent de code Codex

OpenAI modifie son système de limites d'utilisation pour Codex, son agent de codage IA. Les utilisateurs peuvent désormais accumuler leurs réinitialisations de débit et les déclencher manuellement, plutôt que de voir ces crédits expirer automatiquement selon un calendrier fixe. Concrètement, si un développeur atteint son plafond en plein milieu d'une session, il peut immédiatement consommer une réinitialisation mise de côté, sans attendre le prochain cycle. Les abonnés aux formules Go, Plus, Pro et Business reçoivent chacun une réinitialisation gratuite au démarrage. Les utilisateurs Plus et Pro bénéficient en outre d'un mécanisme de parrainage : en invitant des amis, ils peuvent débloquer des crédits supplémentaires. Pour les développeurs qui intègrent Codex dans leurs flux de travail, cette flexibilité change concrètement la donne. Auparavant, atteindre une limite de débit en cours de session signifiait une interruption forcée, coûteuse en temps et en concentration. La possibilité de gérer ses crédits de manière proactive réduit les frictions dans l'utilisation intensive de l'agent. C'est aussi un signal fort sur le terrain concurrentiel : en améliorant l'expérience utilisateur sans baisser les prix, OpenAI cherche à fidéliser sa base face à une concurrence de plus en plus agressive. Cette annonce s'inscrit dans une guerre des prix qui s'intensifie dans le secteur des agents de codage IA. Anthropic avec Claude Code, Google avec Gemini, et des acteurs spécialisés comme Cursor ou GitHub Copilot se livrent une bataille acharnée pour capter les développeurs. Codex, capable d'écrire, tester et déboguer du code de manière autonome, représente l'un des paris stratégiques majeurs d'OpenAI pour 2026. Le mécanisme de parrainage introduit rappelle les tactiques de croissance virale du grand public, une approche inhabituellement agressive pour un outil professionnel.

OutilsOutil
1 source
Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA
82AI News 

Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA

Coinbase a lancé « Coinbase for Agents », une infrastructure permettant à des agents d'intelligence artificielle d'exécuter des transactions financières directement depuis des portefeuilles utilisateurs. Jusqu'à présent, les grands modèles de langage pouvaient analyser les marchés et formuler des recommandations, mais ils étaient incapables de passer des ordres de manière autonome. La plateforme comble ce fossé en proposant deux modes d'intégration : une interface en ligne de commande destinée aux environnements de développement comme Claude Code ou OpenAI Codex, et le protocole MCP (Model Context Protocol) pour les agents web tels que ChatGPT ou Claude Web, qui ne nécessite aucune clé API ni configuration locale. Un accès MCP distant via authentification unique est également annoncé prochainement. Les agents peuvent ainsi acheter, vendre, gérer des soldes et passer des ordres à cours limité, le tout dans des paramètres définis à l'avance par l'utilisateur. Concrètement, un gestionnaire de portefeuille peut programmer un agent pour maintenir une allocation cible, par exemple 60 % Bitcoin, 20 % Ethereum et 20 % Solana, sur plusieurs mois. L'agent surveille les cours en temps réel et place automatiquement des ordres d'achat lors de baisses de 5, 10 ou 15 % pour profiter des corrections de marché. Il peut également gérer les liquidités dormantes en les déployant pour générer des rendements. Autre cas d'usage illustré : un plan de dollar-cost averaging sur Ethereum, où l'agent analyse trente jours de données horaires, identifie les creux historiques de la journée, puis exécute un achat quotidien de 20 dollars pendant deux semaines à partir d'une seule instruction initiale. La plateforme supporte déjà le trading au comptant et sur dérivés, et prévoit d'étendre son offre aux fonds indiciels, actions d'entreprises, matières premières et marchés de prédiction. Ce lancement s'inscrit dans une dynamique plus large de financiarisation des agents IA. Coinbase avait introduit l'an dernier le protocole x402, un standard de paiement conçu spécifiquement pour les agents logiciels, leur permettant d'acheter de manière autonome des ressources de calcul, des modèles analytiques ou des données de marché propriétaires pour affiner leurs décisions. L'intégration de x402 à Coinbase for Agents étend ce mécanisme à un écosystème financier concret. Pour limiter les risques, les agents opèrent exclusivement dans des portefeuilles isolés, sans accès aux autres actifs de l'utilisateur. La course à « l'infrastructure agentique » s'intensifie, plusieurs acteurs cherchant à devenir le back-end financier de référence pour les agents autonomes, avec Coinbase en position avancée grâce à son infrastructure régulée et ses millions d'utilisateurs existants.

UECoinbase étant agréé sous le règlement MiCA dans l'UE, ce service de trading autonome par agents IA sera soumis aux régulations européennes sur les crypto-actifs, avec des implications pour les investisseurs français souhaitant automatiser leurs portefeuilles.

💬 C'est le vrai saut. Les agents IA qui conseillent de trader, ça existe depuis deux ans, mais là Coinbase leur donne les clés du portefeuille, dans des contraintes que tu fixes à l'avance, et c'est une autre affaire. Reste à voir ce qui se passe le jour où le marché fait un truc que le modèle n'avait pas vu venir.

OutilsOutil
1 source
Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS
83AWS ML Blog 

Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS

Amazon Web Services a dévoilé une architecture complète de traitement intelligent de documents reposant sur ses services d'IA générative, notamment Amazon Bedrock Data Automation (BDA). Ce service unifié permet d'extraire des informations structurées depuis des documents multimodaux, PDF, images, vidéos, fichiers audio, avec une capacité allant jusqu'à 3 000 pages et 500 Mo par requête API. Contrairement aux solutions OCR classiques qui se limitent à l'extraction de texte brut, BDA analyse le contexte, classe automatiquement chaque section d'un document dans la bonne catégorie, l'associe au bon modèle de traitement, et fournit des scores de confiance sur les données extraites. L'architecture s'appuie sur quatre couches intégrées : ingestion des fichiers via Amazon S3, extraction et stockage avec DynamoDB, couche d'intelligence sémantique via Amazon Bedrock Knowledge Base, et coordination agentique par des agents spécialisés hébergés sur Amazon Bedrock AgentCore Runtime, orchestrés par AWS Step Functions. Pour les organisations qui traitent chaque jour des millions de documents, contrats juridiques, dossiers médicaux, factures, déclarations d'assurance, cette solution répond à un goulot d'étranglement majeur : l'intervention humaine obligatoire dans les pipelines traditionnels. En automatisant la classification, la normalisation et la validation des données, BDA réduit les coûts opérationnels, accélère les délais de traitement et limite les erreurs de saisie. La capacité à relier plusieurs documents entre eux via une base de connaissances sémantique permet également des analyses croisées impossibles avec les approches OCR conventionnelles, ouvrant la voie à des cas d'usage comme l'audit automatisé de contrats ou l'analyse comparative de rapports financiers. Ce lancement s'inscrit dans une course que se livrent les grands fournisseurs cloud, AWS, Microsoft Azure et Google Cloud, pour proposer des pipelines documentaires clé en main à destination des entreprises. AWS positionne BDA comme une réponse directe aux limites des solutions point-à-point qui nécessitaient jusqu'ici d'assembler manuellement des modèles OCR, des LLM et des orchestrateurs distincts. En intégrant l'ensemble dans une API unifiée au sein de Bedrock, Amazon cherche à réduire la friction technique pour les équipes data et à accélérer l'adoption de l'IA générative dans des secteurs très réglementés comme la finance, la santé et le droit. Les prochaines évolutions attendues concernent l'élargissement des formats supportés et le renforcement des capacités d'analyse de graphiques et de visualisations complexes embarqués dans les documents.

UELes entreprises européennes des secteurs réglementés (finance, santé, droit) peuvent adopter BDA via AWS pour automatiser leurs pipelines documentaires, sous réserve de conformité RGPD quant au stockage des données dans les régions AWS européennes.

OutilsOutil
1 source
Codex : OpenAI vous laisse désormais choisir quand réinitialiser votre quota
84Le Big Data 

Codex : OpenAI vous laisse désormais choisir quand réinitialiser votre quota

OpenAI a annoncé le 12 juin 2026 une nouvelle fonctionnalité pour Codex, son agent de programmation intégré à ChatGPT : les abonnés payants peuvent désormais conserver leurs réinitialisations de quota et les utiliser au moment de leur choix. Jusqu'ici, les remises à zéro des limites de débit s'appliquaient automatiquement selon un calendrier imposé par la plateforme, sans que l'utilisateur ait son mot à dire. Le changement concerne les abonnés aux offres Go, Plus, Pro et Business. Chaque réinitialisation sauvegardée reste disponible pendant 30 jours maximum dans le profil utilisateur, qui peut l'activer quand il le juge opportun. OpenAI accompagne le lancement d'une promotion de deux semaines : les abonnés Plus et Pro peuvent inviter jusqu'à trois personnes à essayer Codex, et dès que l'un des invités envoie son premier message, les deux parties reçoivent une réinitialisation bonus créditée sur leur compte. Pour les développeurs qui utilisent Codex de manière intensive, ce contrôle sur le timing représente un gain pratique concret. Une réinitialisation qui tombait la nuit ou pendant un week-end inactif était auparavant perdue, ou du moins inutilisable au moment le plus critique. Désormais, un développeur peut conserver sa remise à zéro pour l'activer juste avant une longue session de débogage, une démonstration client ou une batterie de tests automatisés. C'est un changement discret dans l'interface, mais qui supprime une friction réelle dans les flux de travail professionnels où la disponibilité de l'outil doit s'aligner sur les pics d'activité, pas sur un calendrier arbitraire. Codex a été lancé par OpenAI en mai 2025 comme agent de codage capable d'exécuter des tâches de développement en autonomie dans un environnement sandbox. Il s'inscrit dans la concurrence directe avec GitHub Copilot, Cursor ou encore les agents de JetBrains et Google, tous engagés dans une course à l'automatisation du développement logiciel. La gestion des quotas est devenue un point de friction central dans cet écosystème : les modèles d'abonnement limitent l'usage intensif, et chaque contrainte perçue comme arbitraire alimente la frustration des développeurs les plus actifs. Cette mise à jour ne supprime pas les limites de débit, elle les rend simplement moins pénalisantes. Une partie de la communauté y voit une correction bienvenue ; une autre estime qu'OpenAI corrige une contrainte qu'elle avait elle-même imposée sans nécessité, tout en utilisant le parrainage pour accélérer l'adoption de Codex auprès de nouveaux utilisateurs.

OutilsOutil
1 source
Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents
85MarkTechPost 

Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents

Moonshot AI, la startup pékinoise connue pour son modèle Kimi, a lancé cette semaine Kimi Work, un agent IA qui s'installe directement sur l'ordinateur de l'utilisateur. Compatible macOS et Windows, l'application permet de confier des objectifs en langage naturel à un agent capable de lire des fichiers locaux, de piloter le navigateur réel de la machine et d'exécuter des tâches planifiées. Selon des retours de la communauté, Kimi Work tourne sur Kimi K2.6, le modèle phare de Moonshot publié le 20 avril 2026 : un modèle Mixture-of-Experts en accès libre qui active environ 32 milliards de paramètres par token et dispose d'une fenêtre de contexte de 256 000 tokens. L'agent peut orchestrer jusqu'à 300 sous-agents en parallèle pour décomposer des tâches complexes, le modèle K2.6 supportant jusqu'à 4 000 étapes coordonnées. Une extension navigateur appelée WebBridge lui permet d'agir comme un humain sur le web, en héritant des sessions et cookies déjà ouverts. Un moteur de planification intégré (type cron) permet de déclencher des jobs à heure fixe, de manière conditionnelle ou via des scripts Python et shell, avec une option "Keep Computer Awake" pour les tâches nocturnes. Ce positionnement local tranche avec la quasi-totalité des agents IA des deux dernières années, qui s'exécutent dans le cloud sur des serveurs distants avec des navigateurs virtuels isolés. Ici, l'agent accède aux vrais fichiers de l'utilisateur, à ses sessions bancaires ou professionnelles actives, sans avoir à téléverser quoi que ce soit. Moonshot a aussi intégré des données de marché financier en natif, couvrant les actions chinoises A-shares, la Bourse de Hong Kong et les marchés américains, ce qui évite toute configuration d'API personnalisée. Les résultats peuvent être exportés directement en fichiers PowerPoint ou Excel. Pour un analyste ou un cadre qui jongle avec des dizaines de PDF trimestriels, des tableaux de prix boursiers ou des briefings quotidiens, l'outil promet un gain de temps concret sans friction d'intégration. Moonshot AI s'inscrit dans une vague de startups chinoises qui cherchent à rivaliser avec OpenAI et Anthropic sur le segment des agents autonomes, après avoir déjà marqué des points sur les LLMs longue-contexte. Le lancement de K2.6 en open-weight en avril 2026 reflète une stratégie de dissémination rapide pour capter la communauté développeur. L'approche locale soulève néanmoins une question centrale : la sécurité repose entièrement sur l'utilisateur, contrairement aux agents cloud où le vendeur prend en charge l'isolation. À mesure que les agents gagnent en autonomie et en accès aux données sensibles, ce choix d'architecture deviendra un critère de différenciation majeur, aussi bien pour les particuliers que pour les entreprises qui hésitent encore à confier leur environnement de travail réel à un modèle tiers.

OutilsOutil
1 source
Présentation : migrer du code legacy en semaines, pas en années
86InfoQ AI 

Présentation : migrer du code legacy en semaines, pas en années

David Stein, ingénieur chez ServiceTitan, a présenté une approche radicalement nouvelle pour accélérer les migrations de code legacy à grande échelle grâce à l'intelligence artificielle. Sa méthode, baptisée le pattern « chaîne d'assemblage », permet de réduire des chantiers de refactorisation qui prenaient des années à quelques semaines seulement. Le principe repose sur la décomposition du code existant en tâches standardisées et répétables, que des agents LLM peuvent alors traiter en parallèle à une vitesse impossible pour une équipe humaine classique. L'impact pour les équipes d'ingénierie est considérable : là où une migration architecturale mobilisait des dizaines de développeurs pendant des mois, ce modèle industrialise le travail en éliminant les goulets d'étranglement humains. La clé du dispositif réside dans des boucles de validation programmatiquement strictes, conçues pour détecter et corriger les hallucinations des LLM avant qu'elles ne contaminent la base de code. Sans ce filet de sécurité, la parallélisation massive serait trop risquée pour être déployée en production. Cette présentation s'inscrit dans une tendance plus large : les grandes entreprises tech cherchent à transformer leur dette technique accumulée en levier de compétitivité plutôt qu'en handicap permanent. ServiceTitan, éditeur de logiciels de gestion pour les entreprises de services, fait face comme beaucoup à des systèmes vieillissants difficiles à moderniser sans interrompre l'activité. L'approche de Stein suggère que l'IA ne sert plus seulement à générer du nouveau code, mais devient un outil industriel de remédiation du passif technique existant.

OutilsOutil
1 source
Comparatif des meilleurs IA sous-titres SRT : quel outil rendra vos vidéos irrésistibles ? - juin 2026
87Le Big Data 

Comparatif des meilleurs IA sous-titres SRT : quel outil rendra vos vidéos irrésistibles ? - juin 2026

En juin 2026, trois outils de sous-titrage automatique propulsés par l'intelligence artificielle dominent les comparatifs destinés aux créateurs de contenu : Submagic, Descript et SubtitleBee. Submagic, taillé pour les formats courts comme les Shorts YouTube et les Reels Instagram, mise sur une interface dynamique intégrant génération automatique d'emojis, mots-clés mis en surbrillance et hashtags. L'outil a récemment franchi le cap des 100 langues supportées grâce à un modèle "nano" qui a ajouté 52 nouvelles langues, parmi lesquelles des langues africaines (malgache, lingala, afrikaans), européennes rares (luxembourgeois, occitan) et asiatiques. Ses tarifs s'échelonnent de 15 à 60 euros par mois. Descript adopte une philosophie radicalement différente : l'édition vidéo par manipulation textuelle directe, où effacer un mot dans la transcription supprime automatiquement le segment correspondant dans la vidéo. Son assistant IA "Underlord" affiche une précision de transcription annoncée à 99%, nettoie les bruits de fond, élimine les tics de langage et génère des fichiers SRT. La fonction "Overdub" permet même de recréer synthétiquement une voix pour corriger une erreur sans réenregistrement. L'abonnement va de 12 à 35 euros par mois pour une vingtaine de langues. L'automatisation du sous-titrage représente un levier stratégique croissant pour les créateurs, les médias et les entreprises. Sur les plateformes sociales, une part majoritaire des vidéos est consommée sans le son, ce qui fait des sous-titres un facteur direct d'engagement et de rétention. Un sous-titrage de qualité améliore aussi l'accessibilité pour les personnes sourdes ou malentendantes, et renforce le référencement des contenus. Pour un créateur indépendant ou une petite structure sans équipe de post-production, ces outils font passer le temps de sous-titrage de plusieurs heures à quelques minutes. L'élargissement des langues, notamment vers des marchés africains et asiatiques peu couverts jusqu'ici, ouvre des perspectives de distribution internationale que peu d'acteurs pouvaient s'offrir auparavant. Ce marché a décollé dans le sillage de la démocratisation des modèles de reconnaissance vocale open source, à commencer par Whisper d'OpenAI, qui ont fait chuter le coût de la transcription automatique. Submagic, Descript et SubtitleBee se positionnent en ajoutant des couches de valeur ajoutée (stylisation, intégration vidéo, traduction) pour justifier leurs abonnements face à des alternatives gratuites ou quasi-gratuites. La pression concurrentielle s'intensifie avec l'intégration native de fonctions similaires dans Adobe Premiere Pro et dans CapCut, l'application de ByteDance déjà très répandue chez les créateurs. Les prochains mois s'annoncent comme une course à l'exhaustivité linguistique et à la précision, avec une probable érosion des prix à mesure que ces technologies se banalisent.

UEL'élargissement vers des langues européennes rares (occitan, luxembourgeois) et l'amélioration de l'accessibilité profitent aux créateurs européens, mais ces outils restent dominés par des acteurs américains sans ancrage institutionnel en France/UE.

OutilsOutil
1 source
Coinbase for Agents : Coinbase lance ses agents IA pour gérer vos cryptos à votre place
88Le Big Data 

Coinbase for Agents : Coinbase lance ses agents IA pour gérer vos cryptos à votre place

Coinbase a annoncé le 11 juin 2026 le lancement de Coinbase for Agents, une plateforme permettant à des agents d'intelligence artificielle de gérer directement des portefeuilles de cryptomonnaies. Concrètement, un agent IA peut désormais accéder à un compte Coinbase pour exécuter des achats, des ventes et des paiements, sans intervention humaine à chaque opération. L'utilisateur définit en amont un cadre strict : plafonds de dépenses, liste des actifs autorisés, règles d'exécution. L'agent peut aussi fonctionner dans un portefeuille isolé, cloisonné du reste des fonds. Parmi les cas d'usage mis en avant par Coinbase : maintenir automatiquement une répartition cible entre Bitcoin, Ethereum et Solana en tirant parti des fluctuations du marché, placer les liquidités dormantes pour en améliorer le rendement, ou programmer des achats récurrents sur les périodes historiquement les moins chères. La semaine prochaine, la plateforme prévoit également d'intégrer le protocole x402, qui permettra à l'agent d'acheter lui-même des données financières premium et des outils d'analyse sans solliciter l'utilisateur. Ce lancement marque une rupture dans la manière dont les outils d'IA sont intégrés à la finance. Jusqu'ici, les grands modèles de langage se limitaient à analyser des marchés ou à répondre à des questions financières ; Coinbase franchit une étape en leur donnant la capacité d'agir. Pour les investisseurs particuliers, cela signifie la possibilité de déléguer des stratégies de gestion de portefeuille qui demandaient auparavant une attention constante ou le recours à des outils professionnels coûteux. Pour les développeurs et les entreprises, Coinbase for Agents ouvre la voie à des applications financières entièrement automatisées, où un agent peut gérer ses propres ressources pour accomplir des tâches complexes. Coinbase s'inscrit dans une tendance plus large du secteur technologique, où les grands acteurs cherchent à doter les agents IA de capacités d'action concrètes au-delà du texte et de l'image. La plateforme américaine, qui compte parmi les exchanges de cryptomonnaies les plus réglementés, affirme que les opérations réalisées via Coinbase for Agents sont soumises aux mêmes contrôles de conformité et à la même surveillance des transactions que ses autres services. Ces garde-fous restent néanmoins limités face aux risques inhérents à la volatilité des cryptoactifs et à la qualité des instructions données à l'agent. Une stratégie mal calibrée ou une période de forte turbulence sur les marchés pourrait produire des résultats très éloignés des attentes de l'utilisateur, rappelant que la délégation à une IA ne supprime pas le risque financier, elle le déplace.

UELa capacité des agents IA à exécuter des transactions financières autonomes sans validation humaine soulève des questions réglementaires en Europe, notamment au regard du cadre MiCA et des obligations de surveillance des actifs numériques imposées aux plateformes opérant sur le marché européen.

💬 L'étape d'après, c'est ça : un agent qui gère son propre budget pour s'outiller et agir sur des marchés réels. Le DCA automatique sur les creux, sympa sur le papier, mais c'est surtout le x402 qui m'intéresse, quand l'agent commence à acheter lui-même ses données d'analyse pour prendre ses décisions. Reste à voir ce que ça donne dans une semaine rouge à -20 %.

OutilsOutil
1 source
Comment l’IA réinvente l’Architecture ?
89Le Big Data 

Comment l’IA réinvente l’Architecture ?

Les outils d'intelligence artificielle générative transforment profondément les méthodes de conception architecturale, rendant accessibles des transformations visuelles de bâtiments qui nécessitaient auparavant des logiciels spécialisés et des compétences techniques avancées. Des plateformes comme Midjourney, initialement conçues pour créer des illustrations à partir de zéro via des commandes textuelles, ont ouvert la voie à une nouvelle génération d'outils capables de modifier des structures existantes à partir d'une simple photographie. Le processus repose sur trois étapes clés : importer une image source de haute résolution, délimiter les zones à transformer via un masque d'inpainting, puis rédiger une commande textuelle précisant le style architectural souhaité, qu'il soit contemporain, traditionnel ou industriel. Des plateformes spécialisées comme Artspace permettent désormais de remodeler toiture, façades ou fenêtres en quelques clics, avec un rendu qui préserve la perspective et les conditions lumineuses de la scène originale. L'impact le plus immédiat se ressent dans le secteur immobilier et la conception résidentielle. Les professionnels de l'immobilier peuvent désormais projeter leurs clients dans une version rénovée de leur futur bien avant tout engagement financier ou travaux physiques, compressant radicalement les cycles de décision. Pour les particuliers, l'outil supprime la barrière technique qui séparait l'envie d'un projet et sa visualisation concrète : là où un cabinet d'architecture facturait plusieurs milliers d'euros pour des maquettes 3D et des plans de rénovation, une image générée en quelques secondes suffit à tester une dizaine de styles différents. La qualité du rendu dépend cependant directement de celle du fichier source : une image floue ou mal cadrée produit des déformations géométriques que les algorithmes ne parviennent pas à corriger. Ce mouvement s'inscrit dans une évolution plus large de l'IA générative, qui est passée en moins de trois ans de la simple création d'images fictives à la manipulation cohérente de photographies réelles. La gestion automatique de la perspective tridimensionnelle et de la diffusion lumineuse, longtemps réservée aux logiciels de rendu professionnel comme 3ds Max ou SketchUp, est désormais intégrée nativement dans ces moteurs grand public. La concurrence entre plateformes s'intensifie, chacune cherchant à se différencier par la précision des rendus architecturaux et la finesse du contrôle offert à l'utilisateur. La prochaine étape attendue par le secteur est l'intégration de contraintes réglementaires et structurelles dans les modèles, pour que les transformations visuelles respectent aussi les codes de la construction.

UELes cabinets d'architecture et professionnels de l'immobilier en France peuvent réduire leurs coûts de visualisation grâce à ces outils, mais aucune réglementation européenne ni entreprise française n'est directement impliquée.

OutilsOutil
1 source
Votre chanson préférée est-elle faite par une IA ? Deezer peut le savoir
90Le Big Data 

Votre chanson préférée est-elle faite par une IA ? Deezer peut le savoir

Deezer a lancé un outil public de détection de musique générée par intelligence artificielle, accessible à tous les utilisateurs de plateformes de streaming, qu'ils soient abonnés Deezer ou non. Le service fonctionne simplement : l'utilisateur connecte son compte Spotify, Apple Music, SoundCloud ou YouTube Music, autorise l'accès, et l'outil analyse ses playlists pour identifier les morceaux d'origine artificielle. À l'issue de l'analyse, un pourcentage indique la proportion de titres générés par IA présents dans la bibliothèque. Selon le PDG de Deezer, le résultat peut surprendre : près d'un utilisateur sur deux migrant depuis une autre plateforme possède déjà des morceaux IA dans ses playlists, souvent sans en avoir conscience. La plateforme affirme avoir identifié, depuis le début 2025, plus de 13,4 millions de titres créés par IA, avec un flux entrant de quelque 75 000 nouveaux morceaux artificiels chaque jour. L'enjeu dépasse la simple curiosité technologique. Deezer indique que ces morceaux étiquetés comme IA sont automatiquement exclus de ses algorithmes de recommandation, ce qui signifie qu'ils ne peuvent pas être artificiellement promus auprès des auditeurs. Pour les artistes humains, c'est une protection directe contre une concurrence fondée sur le volume plutôt que sur le talent : quand n'importe qui peut générer des milliers de titres en quelques clics, les plateformes risquent d'être inondées de contenus qui parasitent la découvrabilité des musiciens professionnels. L'outil public offre aussi une transparence inédite aux auditeurs, dans un contexte où, selon les propres données de Deezer, 97 % des utilisateurs sont incapables de distinguer à l'oreille un morceau humain d'un morceau généré par IA. L'industrie musicale observe depuis plusieurs années la montée en puissance des outils de génération audio, capables de produire des chansons complètes avec voix, instruments et arrangements en quelques minutes. Face à cette réalité, plusieurs acteurs ont commencé à réagir différemment : Bandcamp a durci ses conditions d'utilisation, Sony multiplie les actions juridiques contre des services génératifs, tandis que Deezer choisit la voie de la détection et de l'information. La plateforme française affirme travailler sur ce système depuis un an et demi, ce qui lui a permis d'accumuler suffisamment de données pour rendre l'outil public avec un niveau de fiabilité opérationnel. La prochaine étape sera probablement réglementaire : plusieurs pays européens discutent d'une obligation d'étiquetage des contenus générés par IA, et des outils comme celui de Deezer pourraient devenir une infrastructure de conformité autant qu'un service grand public.

UEDeezer, plateforme française, déploie une infrastructure de détection qui pourrait servir de modèle de conformité pour les futures obligations européennes d'étiquetage des contenus générés par IA.

💬 75 000 morceaux IA générés par jour qui rentrent sur les plateformes, et la moitié des utilisateurs en ont déjà dans leurs playlists sans le savoir. Deezer fait le bon pari en rendant ça visible maintenant, parce que les plateformes qui attendent le règlement européen vont se retrouver à construire cette infra dans l'urgence. Le vrai test, c'est si leur modèle de détection tient quand les outils génératifs vont s'entraîner spécifiquement à le contourner.

OutilsOutil
1 source
SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle
91VentureBeat AI 

SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle

Microsoft Research Asia a publié SkillOpt, un framework open source sous licence MIT conçu pour optimiser automatiquement les compétences des agents IA. Ces compétences, appelées "skills", sont des ensembles d'instructions stockées dans des fichiers texte au format markdown (.md) qui permettent à un agent de s'adapter à des flux de travail d'entreprise complexes, sans modifier les paramètres du modèle sous-jacent. Développé par Yifan Yang, Senior Research SDE chez Microsoft Research Asia, SkillOpt introduit un optimiseur qui traite ces documents texte comme des objets entraînables, les faisant évoluer de manière systématique à partir des retours de performance. Sur plusieurs benchmarks industriels, il surpasse les méthodes existantes et améliore significativement la précision de modèles comme GPT-5.5 et Qwen, produisant des artefacts compacts et transférables vers de nouveaux domaines. L'enjeu est concret : aujourd'hui, affiner ces fichiers de compétences est un processus manuel et risqué. Les équipes procèdent par essais-erreurs, sans garantie que chaque modification représente réellement une amélioration. Yang identifie trois défaillances récurrentes dans les approches actuelles : l'absence de contrôle d'amplitude des modifications, qui provoque une dérive progressive des instructions ; l'absence de validation, qui laisse des corrections superficiellement raisonnables dégrader silencieusement les performances ; et l'absence de mémoire négative, qui permet aux mêmes erreurs de se reproduire indéfiniment. Pour illustrer la fragilité du système actuel, Yang cite un cas précis : une réécriture non contrôlée a fait chuter GPT-5.5 sur le benchmark SpreadsheetBench de 41,8 à 41,1, soit une régression invisible jusqu'à ce qu'elle soit mesurée. Ce problème est particulièrement critique dans les workflows multi-étapes, là où les grands modèles sont les plus vulnérables, non pas sur le raisonnement, mais sur la discipline procédurale : formats de sortie, auto-vérification, politiques d'utilisation des outils. Avant SkillOpt, plusieurs approches existaient sans résoudre ce problème de fond. Des méthodes d'optimisation de prompts comme TextGrad et GEPA traitent les textes comme des objets optimisables via le feedback de trajectoires d'exécution, mais se limitent à des configurations de prompt unique plutôt qu'à des artefacts de compétences persistants et réutilisables. Des méthodes comme EvoSkill et Trace2Skill convertissent les expériences d'exécution en bibliothèques de compétences domaine-spécifiques, mais sans le contrôle mathématique qui garantit que chaque itération est réellement une amélioration. SkillOpt comble ce vide en appliquant une discipline comparable à l'apprentissage profond, avec contrôle du pas d'optimisation, validation systématique et mémoire des échecs, au texte naturel plutôt qu'aux poids d'un réseau de neurones. La publication en open source signale que Microsoft vise une adoption large dans l'écosystème des agents IA d'entreprise, un marché en pleine structuration où la fiabilité procédurale devient un avantage compétitif décisif.

💬 Ce qui me plaît là-dedans, c'est que ça s'attaque enfin au vrai problème : pas le modèle, mais les instructions qu'on lui donne. Tuner des fichiers markdown à la main en espérant que ça s'améliore, c'est exactement le genre de bricolage qui fait perdre des heures aux équipes sans qu'elles s'en rendent compte. Reste à voir si ça tient sur des workflows vraiment complexes, mais le fait que Microsoft sorte ça en open source, ça sent le pari sur l'adoption longue.

OutilsOutil
1 source
MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes
92VentureBeat AI 

MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes

Xiaomi a publié le 10 juin 2026 MiMo Code V0.1.0, un assistant de programmation propulsé par IA qui fonctionne directement dans le terminal. L'équipe MiMo de la marque chinoise affirme que cet outil surpasse Claude Code d'Anthropic sur les tâches longues et complexes, notamment celles dépassant 200 étapes successives. Selon des benchmarks publiés dans leur blog technique, MiMo Code couplé au modèle MiMo-V2.5-Pro obtient 82 % sur SWE-bench Verified contre 79 % pour Claude Code avec Claude Sonnet 4.6, 62 % contre 55 % sur SWE-bench Pro, et 73 % contre 69 % sur Terminal Bench 2. L'outil est disponible sur GitHub sous licence MIT, s'installe en une seule commande sur macOS et Linux, et inclut un accès gratuit limité au modèle multimodal MiMo-V2.5, doté d'une fenêtre de contexte d'un million de tokens sans inscription requise. Le projet est un fork d'OpenCode, enrichi par Xiaomi d'une architecture mémoire propriétaire. Ce qui distingue MiMo Code de ses concurrents, c'est précisément sa réponse à un problème bien connu des développeurs utilisant des agents IA sur de longues sessions : la dégradation progressive des performances à mesure que la fenêtre de contexte se remplit. Xiaomi a conçu un système de mémoire persistante à quatre couches, alimenté par SQLite FTS5, couvrant la mémoire projet (un fichier MEMORY.md permanent), des points de contrôle de session, des notes temporaires et des journaux de progression par tâche. L'originalité du système réside dans le déploiement d'un sous-agent indépendant, le "checkpoint-writer", qui prend des notes en temps réel sans interrompre l'agent principal. Deux mécanismes complètent l'ensemble : une commande /dream qui, toutes les sept jours environ, consolide les sessions passées en mémoire long terme, et une fonction "distill" qui identifie les flux de travail répétitifs pour les automatiser. L'arrivée de MiMo Code s'inscrit dans une course mondiale au meilleur agent de programmation, où Anthropic, OpenAI et Google se disputent la première place. Xiaomi, encore peu présent dans l'écosystème des outils développeurs en Occident, tente ici une percée directe sur un segment stratégique. L'approche open source sous licence MIT et l'accès gratuit au modèle sont clairement conçus pour attirer rapidement une base d'utilisateurs et générer des retours terrain. Les chiffres avancés s'appuient toutefois sur une étude interne portant sur 576 développeurs, ce qui appelle une certaine prudence avant validation indépendante. Xiaomi n'a pas publié de comparaisons face à Codex d'OpenAI ni aux outils de Google, deux absences notables qui limitent la portée de ces résultats. La vraie question est désormais de savoir si la communauté open source s'appropriera l'outil et si les performances annoncées résisteront à des audits externes.

UELes développeurs français et européens peuvent installer et tester gratuitement cet agent de codage open source sous licence MIT, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

OutilsOutil
1 source
Perplexity intègre Deep Research dans son agent informatique, en distribuant les sous-tâches sur plus de 20 modèles de pointe
93MarkTechPost 

Perplexity intègre Deep Research dans son agent informatique, en distribuant les sous-tâches sur plus de 20 modèles de pointe

Perplexity a intégré sa fonctionnalité Deep Research à son système d'orchestration multi-modèles baptisé Computer, une évolution majeure annoncée en juin 2026. Là où l'ancienne version exécutait une séquence fixe de recherches, la nouvelle décompose automatiquement chaque question complexe en sous-tâches, qu'elle distribue ensuite à plus de 20 modèles d'IA en parallèle. Le moteur de raisonnement central est Claude Opus 4.6, tandis que des sous-agents spécialisés, dont Gemini, prennent en charge des pans spécifiques de l'analyse. Le résultat n'est plus un simple résumé : Deep Research dans Computer produit des rapports complets avec citations vérifiées, des présentations et des tableurs interactifs, entièrement générés et modifiables au sein de l'environnement Computer. Une capacité distinctive, baptisée Search as Code, permet au modèle d'écrire lui-même le code qui pilote la recherche, exécutant des milliers d'appels de récupération en parallèle dans un environnement sandbox, avec filtrage, déduplication et reclassement des sources à la volée. Les gains de performance publiés par Perplexity illustrent l'ampleur du bond. Sur le benchmark BrowseComp d'OpenAI, qui teste la capacité à retrouver des informations difficiles à localiser par navigation web, le score passe de 40,7 % à 83,8 %, soit plus du doublement. Sur Humanity's Last Exam, un test d'expertise académique pluridisciplinaire conçu par le Center for AI Safety et Scale AI, le taux grimpe de 36,4 % à 50,5 %. Ces chiffres positionnent la nouvelle version comme l'une des solutions de recherche agentique les plus performantes du marché. Concrètement, un professionnel peut demander une comparaison des marges bénéficiaires des grands fabricants de puces IA sur cinq ans, une cartographie des différences entre le RGPD européen et les lois américaines sur la vie privée, ou une synthèse des essais cliniques sur l'impact cardiovasculaire des médicaments amaigrissants, et recevoir en retour un livrable structuré, prêt à l'emploi. Computer avait été lancé fin février 2026 comme plateforme cloud de coordination d'agents IA. L'intégration de Deep Research s'inscrit dans une course effrénée entre les acteurs de la recherche augmentée par l'IA, où Perplexity affronte directement Google, OpenAI et Anthropic sur le terrain de la recherche agentique complexe. La fonctionnalité est disponible pour les abonnés Perplexity Max, mais les développeurs peuvent y accéder de façon programmatique via l'Agent API en mode pay-as-you-go, avec un preset deep-research intégré au SDK officiel et une compatibilité avec le SDK OpenAI via l'endpoint POST /v1/responses. L'ouverture aux développeurs signal que Perplexity positionne cette infrastructure non comme un produit grand public isolé, mais comme une couche de recherche que d'autres applications pourront exploiter directement, ce qui pourrait redéfinir la manière dont les outils professionnels intègrent l'accès à l'information.

UELes professionnels et développeurs européens disposent d'un accès API à une couche de recherche agentique capable de traiter des sujets réglementaires comme le RGPD, sans impact institutionnel ou réglementaire direct sur la France ou l'UE.

OutilsOutil
1 source
xAI lance une marketplace de plugins pour Grok Build avec MongoDB, Vercel, Sentry et Cloudflare au lancement
94MarkTechPost 

xAI lance une marketplace de plugins pour Grok Build avec MongoDB, Vercel, Sentry et Cloudflare au lancement

xAI vient de lancer le Plugin Marketplace pour Grok Build, son agent de développement en ligne de commande. Annoncé le 12 juin 2026, ce catalogue intégré permet aux développeurs de parcourir, installer et mettre à jour des plugins directement depuis le terminal, sans quitter leur environnement de travail. Un plugin regroupe en un seul paquet six types de composants : des skills, des commandes slash, des agents, des hooks de cycle de vie, des serveurs MCP et des serveurs LSP (protocole de serveur de langage). L'index public du catalogue est hébergé sur GitHub sous le dépôt xai-org/plugin-marketplace. Au lancement, six partenaires sont présents : MongoDB pour l'exploration et l'optimisation de bases de données, Vercel pour la gestion des déploiements, Sentry pour l'analyse des erreurs en production, Chrome DevTools pour le contrôle d'un navigateur en direct, Cloudflare pour les Workers et Durable Objects, et Superpowers pour des workflows d'agents préconfigurés. L'installation se fait via la commande /marketplace dans Grok Build ou directement en shell avec grok plugin install --trust. Ce marketplace représente un changement structurel dans la façon dont les développeurs étendent leurs agents de codage. Avant cette sortie, chaque intégration devait être configurée manuellement, outil par outil. Désormais, une seule commande suffit pour embarquer un bundle complet de capacités. Concrètement, un ingénieur de permanence peut installer le plugin Sentry pour trier une stack trace de production sans changer d'outil, ou un développeur frontend peut connecter Chrome DevTools pour inspecter des requêtes réseau lors d'un rendu défaillant. Ce modèle de distribution réduit la friction d'intégration et rapproche Grok Build des environnements de développement complets, directement depuis le terminal. Sur le plan de la sécurité, xAI a introduit un mécanisme de fixation par SHA : chaque plugin distant doit spécifier un SHA de commit complet sur 40 caractères, que Grok Build vérifie après le clonage via git rev-parse HEAD. Ce système empêche qu'un force-push ou une compromission de dépôt ne fasse passer du code malveillant silencieusement. Le catalogue distingue par ailleurs les plugins internes signés par xAI des plugins tiers, pour lesquels xAI décline explicitement toute responsabilité. La plateforme est ouverte aux contributions externes : n'importe quel développeur peut proposer un plugin via une pull request sur le dépôt public. Ce mouvement s'inscrit dans une compétition directe avec d'autres agents de codage comme Claude Code, qui propose un écosystème similaire de skills et de serveurs MCP. xAI parie que la distribution centralisée et la vérification cryptographique constitueront un avantage décisif pour attirer les développeurs professionnels vers Grok Build.

OutilsOutil
1 source
Extraire des données dynamiquement avec des pipelines à la demande et par lots
95AWS ML Blog 

Extraire des données dynamiquement avec des pipelines à la demande et par lots

Amazon Web Services propose une architecture de traitement intelligent de documents combinant deux modes d'inférence sur sa plateforme Bedrock : un pipeline à la demande, capable de traiter un document en quelques secondes, et un pipeline de traitement par lots, conçu pour absorber des volumes massifs à moindre coût. La solution s'appuie sur des modèles de langage large (LLM) pour extraire automatiquement des données structurées depuis des PDF numérisés ou des fichiers texte, y compris des documents aux formats hétérogènes. Le cas d'usage illustratif est parlant : un client disposant de plusieurs centaines de millions de baux fonciers au format PDF scanné, avec de nouveaux documents s'ajoutant chaque jour, peut désormais traiter ce backlog sans intervention humaine. Techniquement, chaque requête peut spécifier dynamiquement l'identifiant du modèle LLM, l'identifiant du prompt et sa version, ces paramètres étant récupérés depuis Amazon Bedrock Prompt Management au moment de l'exécution. Le pipeline temps réel repose sur une file SQS FIFO qui déclenche une fonction AWS Lambda : celle-ci récupère le PDF depuis S3, convertit chaque page en image PNG, compose le message à envoyer au LLM, puis stocke le résultat dans une table DynamoDB. Le pipeline batch, lui, regroupe les requêtes en un seul job d'inférence asynchrone sur Bedrock, ce qui réduit significativement les coûts. L'enjeu concret est double : vitesse et économie. Les entreprises qui traitent des documents sensibles au facteur temps, comme des contrats ou des formulaires réglementaires, peuvent utiliser le mode à la demande et obtenir un résultat en quelques secondes. Pour les traitements différés, les grands volumes ou les migrations de données historiques, le mode batch réduit la facture d'inférence tout en libérant les équipes de toute supervision manuelle. La capacité à configurer le modèle et le prompt au niveau de chaque document est particulièrement significative : elle permet d'utiliser la même infrastructure pour des types de documents très différents, sans redéploiement ni modification du pipeline, simplement en changeant les paramètres de la requête entrante. Cette solution s'inscrit dans une tendance de fond : l'automatisation de l'extraction d'information dans les secteurs très documentés, notamment l'immobilier, le droit, la finance et l'assurance, où des décennies de paperasse physique ou numérisée constituent un gisement de données encore inexploité. Amazon Bedrock, lancé en disponibilité générale en 2023, monte en puissance comme couche d'abstraction pour l'inférence LLM dans les entreprises, concurrençant directement les offres de Microsoft Azure AI et de Google Vertex AI. La gestion centralisée des prompts via Bedrock Prompt Management répond à un besoin croissant de gouvernance et de traçabilité des invocations IA en production, particulièrement dans les contextes réglementés. La prochaine étape logique pour AWS sera d'intégrer des capacités d'évaluation automatique de la qualité d'extraction directement dans ces pipelines.

UEAWS Bedrock étant disponible dans des régions européennes, les entreprises françaises et européennes des secteurs immobilier, juridique et financier peuvent déployer ces pipelines d'extraction documentaire en conservant leurs données sur l'infrastructure cloud européenne.

OutilsOutil
1 source
Ask DoorDash : dites ce que vous avez envie de manger, l’IA se charge du reste
96Le Big Data 

Ask DoorDash : dites ce que vous avez envie de manger, l’IA se charge du reste

DoorDash a lancé le 11 juin 2026 une fonctionnalité baptisée Ask DoorDash, qui transforme la façon dont les utilisateurs interagissent avec l'application. Plutôt que de faire défiler des listes de restaurants ou de catalogues de produits, il est désormais possible de décrire ce que l'on veut manger en langage naturel, par écrit, par commande vocale, en partageant un lien vers une recette ou même en envoyant une photo d'un livre de cuisine. L'IA analyse la demande et génère en quelques secondes une sélection de restaurants, de plats ou un panier de courses complet. Selon la plateforme, l'outil est capable de remplir un panier d'achats environ cinq fois plus vite qu'une navigation manuelle, le tout en moins de deux minutes. Andy Fang, co-fondateur de DoorDash, a lui-même confirmé le lancement via les réseaux sociaux le jour même. L'impact pour les utilisateurs est immédiatement mesurable. L'application référence aujourd'hui près de 800 000 plats et produits, un catalogue si vaste que le problème n'est plus le manque de choix mais son excès. Ask DoorDash répond directement à cette paralysie décisionnelle en comprenant des intentions floues comme "un repas réconfortant ce soir" ou "un dîner végétarien pour quatre à moins de 20 dollars par personne", et en restituant des résultats accompagnés d'explications personnalisées. Les premiers tests internes révèlent que près de la moitié des commandes passées via cet outil provenaient de restaurants que le client n'avait jamais essayés auparavant, ce qui suggère un effet de découverte notable. Les paniers de courses générés par l'IA étaient également plus volumineux que ceux constitués de façon classique, un signal fort pour la croissance du chiffre d'affaires de la plateforme. Ce lancement s'inscrit dans une ambition plus large de DoorDash, qui cherche à se repositionner comme un intermédiaire intelligent plutôt qu'un simple moteur de livraison. L'outil s'appuie sur l'historique de commandes, les habitudes alimentaires et les préférences passées de chaque utilisateur pour affiner ses recommandations au fil du temps. La tendance est partagée par l'ensemble du secteur du commerce en ligne : Amazon, Instacart ou Google Shopping expérimentent tous des interfaces conversationnelles pour réduire le friction d'achat. DoorDash mise sur cette approche pour fidéliser ses utilisateurs et augmenter la fréquence des commandes. Ask DoorDash est disponible dès maintenant sur l'application, et son déploiement progressif laisse anticiper des ajustements rapides selon les retours des premières semaines d'utilisation.

OutilsOutil
1 source
Évaluation systématique des agents IA avec Agent-EvalKit
97AWS ML Blog 

Évaluation systématique des agents IA avec Agent-EvalKit

Agent-EvalKit est une boîte à outils open source (licence Apache 2.0) conçue pour évaluer les agents IA de manière systématique, en s'intégrant directement dans les assistants de codage comme Claude Code, Kiro CLI ou Kilo Code. Plutôt que de fonctionner comme une plateforme externe, l'outil s'insère dans l'environnement de développement existant et pilote l'évaluation via des commandes slash telles que /evalkit.plan et /evalkit.data, accompagnées d'instructions en langage naturel. Le toolkit couvre six phases d'évaluation : lecture du code source de l'agent, génération de cas de test ciblés, exécution des évaluations, puis production d'un rapport avec des recommandations d'amélioration pointant vers des emplacements précis dans le code. Il a été conçu et démontré sur un agent de recherche de voyages construit avec le SDK Strands Agents et Amazon Bedrock. Ce type d'outil répond à un angle mort majeur dans le développement d'agents IA : les tests classiques basés sur la vérification des sorties ne suffisent pas. Un agent peut formuler une réponse bien structurée tout en halluciant des faits, parce que ses outils ont renvoyé des résultats vides. Il peut aussi atteindre la bonne conclusion en court-circuitant les étapes de vérification qui garantissent un processus fiable. Ces défaillances, invisibles dans la réponse finale, n'apparaissent qu'en traçant le chemin d'exécution complet : quels outils ont été appelés, quelles données ont été retournées, et si la réponse reflète fidèlement ces données. Agent-EvalKit combine des évaluateurs basés sur du code, rapides et reproductibles, avec des évaluateurs de type "LLM as judge", plus nuancés mais plus coûteux en inférence, pour couvrir trois dimensions distinctes : l'ancrage factuel dans les résultats des outils, la pertinence des appels d'outils, et la cohérence globale de la réponse. La difficulté d'évaluer les agents IA n'est pas nouvelle, mais elle s'est intensifiée à mesure que ces systèmes autonomes s'imposent dans des workflows professionnels critiques. La plupart des équipes ne disposent pas des ressources pour construire from scratch l'infrastructure nécessaire : cas de test avec vérité terrain, instrumentation d'observabilité pour capturer les appels intermédiaires, et métriques adaptées. Agent-EvalKit tente de démocratiser cet accès en faisant de l'assistant de codage l'interface centrale de l'évaluation, évitant ainsi la fragmentation entre outils de développement et outils de test post-déploiement. La vraie valeur revendiquée par le projet est de transformer des scores d'évaluation en recommandations concrètes au niveau du code, là où beaucoup d'efforts d'évaluation s'arrêtent à un tableau de bord de métriques sans suite actionnable.

OutilsOutil
1 source
Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans
98AWS ML Blog 

Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans

Amazon Web Services a enrichi son service Amazon Bedrock Data Automation (BDA) d'une fonctionnalité appelée "blueprint instruction optimization", conçue pour améliorer automatiquement la précision d'extraction de données structurées à partir de documents non structurés, factures, contrats, formulaires fiscaux ou dossiers d'inscription. Le principe repose sur des blueprints, des schémas personnalisables qui définissent les champs à extraire (numéro de commande, montant total, date, demandes spéciales) accompagnés d'instructions en langage naturel guidant le modèle. Jusqu'ici, lorsqu'un champ était mal extrait, les équipes devaient affiner manuellement ces instructions en boucle. Désormais, il suffit de fournir entre trois et dix documents d'exemple avec les valeurs attendues : BDA analyse les écarts entre ses résultats et la vérité terrain, puis reformule automatiquement les instructions de chaque champ en quelques minutes. Aucun fine-tuning de modèle séparé n'est nécessaire. L'impact est direct pour les équipes en charge de l'automatisation documentaire dans les entreprises. Traiter des documents provenant de centaines de fournisseurs différents posait un problème structurel : les libellés varient ("subtotal" vs "total"), les mises en page changent selon les périodes ou les partenaires, et la qualité des scans dégrade encore la reconnaissance. Ce cycle d'itération manuelle pouvait prendre plusieurs semaines par type de document. Avec cette optimisation automatisée, ce délai tombe à quelques minutes, ce qui réduit considérablement le coût de mise en production de pipelines de traitement intelligent de documents (IDP). Les organisations qui gèrent de grands volumes documentaires, assureurs, cabinets comptables, services achats, sont les premières bénéficiaires. Cette annonce s'inscrit dans la stratégie d'AWS visant à rendre l'automatisation documentaire accessible sans expertise en machine learning. Amazon Bedrock Data Automation, lancé pour unifier classification, extraction, normalisation et validation via une seule API, fait face à une concurrence croissante d'acteurs spécialisés comme Google Document AI ou Microsoft Azure Form Recognizer, ainsi que de solutions fondées sur des modèles de vision généralistes. En supprimant la nécessité de fine-tuner un modèle tout en automatisant le travail d'ingénierie des prompts, AWS réduit la barrière d'entrée pour les équipes métier. La prochaine étape logique serait d'étendre cette optimisation à des flux documentaires plus complexes impliquant plusieurs types de documents interconnectés, un enjeu central pour des secteurs comme la finance ou la santé.

UELes entreprises françaises et européennes gérant de grands volumes documentaires (assureurs, cabinets comptables, services achats) peuvent réduire leurs délais de mise en production de pipelines d'extraction documentaire de plusieurs semaines à quelques minutes, sans expertise en machine learning.

OutilsOutil
1 source
Visa intègre ChatGPT pour permettre aux agents IA d'effectuer des achats en ligne
99AI News 

Visa intègre ChatGPT pour permettre aux agents IA d'effectuer des achats en ligne

Visa a officiellement connecté son infrastructure de paiement à ChatGPT, permettant désormais aux agents d'intelligence artificielle de sélectionner des produits et de finaliser des transactions commerciales sans aucune intervention humaine. Concrètement, un utilisateur formule une requête d'achat, et l'agent prend en charge l'ensemble du processus : évaluation des catalogues marchands, comparaison des produits, puis règlement financier via le réseau Visa, chez n'importe quel commerçant partenaire. Pour sécuriser l'authentification, Visa a mis en place un système de tokenisation programmatique : l'utilisateur définit en amont des paramètres de dépense, et à chaque achat validé par le modèle, un jeton de paiement à usage unique est généré et transmis directement au backend du marchand via API, en contournant totalement l'interface visuelle. La transaction se règle comme un paiement classique par portefeuille numérique, sans page de navigation, sans saisie manuelle ni vérification CAPTCHA. Ce partenariat marque une rupture profonde avec les intégrations commerciales précédentes, qui confinaient l'IA à des environnements mono-vendeur, c'est-à-dire les chatbots propriétaires d'une seule enseigne. En ouvrant l'accès au web ouvert via un réseau de paiement universel, Visa et OpenAI déplacent le point de décision hors du site marchand. Les équipes marketing conçoivent aujourd'hui leurs campagnes autour de la psychologie humaine, de l'émotion et du merchandising visuel : ces leviers deviennent obsolètes face à un agent qui évalue uniquement les spécifications techniques, les scores agrégés d'avis clients et les structures tarifaires. Les publicités display et les optimisations d'interface n'ont aucun poids dans les critères de sélection du modèle. Les marchands qui ne disposent pas de métadonnées produits structurées et lisibles par les machines risquent tout simplement de devenir invisibles pour ces nouveaux acheteurs automatisés. Cette évolution s'inscrit dans une tendance de fond où les grandes plateformes technologiques cherchent à intégrer des capacités agentiques dans leurs écosystèmes. Le déploiement de Visa avec ChatGPT illustre la convergence entre les grands modèles de langage et les infrastructures financières mondiales, un couplage que l'industrie anticipait mais qui prend ici une forme concrète et opérationnelle. Pour les retailers, les implications sont structurelles : l'optimisation pour les moteurs de recherche doit céder la place à une optimisation pour les modèles de langage, fondée sur des flux de données structurés et des API clairement documentées. Les architectures commerce headless, déjà adoptées par les enseignes les plus avancées techniquement, offrent un avantage immédiat puisqu'elles peuvent traiter la requête d'un agent, vérifier les stocks et exécuter le token de paiement en quelques millisecondes. Les métriques traditionnelles, taux de rebond, durée de session, abandons de panier, perdent leur sens face à des interactions qui se résument à une requête d'API suivie d'un paiement ou d'une déconnexion immédiate.

UELes e-commerçants européens devront restructurer leurs catalogues avec des métadonnées produits lisibles par machine et des API documentées pour rester visibles aux agents IA, sous peine d'être ignorés par ces nouveaux acheteurs automatisés opérant sur le réseau Visa.

💬 Je retiens surtout ça : l'agent compare des specs et des prix, il se fiche de ton beau slider homepage. Des années d'A/B testing, d'optimisation de tunnel d'achat, de merchandising émotionnel, tout ça devient du bruit pour un modèle qui lit du JSON. La tokenisation à usage unique, par contre, c'est bien vu côté sécurité.

OutilsOutil
1 source
Xebia : pourquoi les agents IA échouent sans un socle de données solide
100AI News 

Xebia : pourquoi les agents IA échouent sans un socle de données solide

Niels Zeilemaker, directeur technique mondial de Xebia, a exposé lors de l'AI & Big Data Expo une thèse claire : les agents d'intelligence artificielle échouent moins à cause de leur conception que de la qualité des données sur lesquelles ils opèrent. Selon lui, un agent mal alimenté peut interpréter incorrectement des champs de données, en fusionner qui n'auraient jamais dû l'être, et produire des résultats faux, non par défaut propre, mais parce que la fondation de données n'est pas prête. Pour répondre à ce problème, Xebia a développé deux offres distinctes : Xebia Axis (Agentic Data Foundation, ou ADF), qui étend la plateforme de données d'une entreprise pour y héberger des agents et les déployer aussi bien en usage client qu'interne, et Xebia ACE (AI-Native Software Engineering), un cadre qui intègre l'IA dans l'ensemble du cycle de développement logiciel. Ce dernier promet une accélération des livraisons pouvant atteindre 40 % et une réduction des coûts de transformation des systèmes legacy jusqu'à 70 %. L'enjeu central que soulève Zeilemaker touche à la gestion des catalogues de données. Dans une organisation humaine, un catalogue imparfait ne bloque jamais vraiment le travail : on appelle un collègue, on contourne, on clarifie. Les agents, eux, n'ont pas cette souplesse. Ils s'appuient exclusivement sur ce qui est documenté, et si la description d'un jeu de données est erronée ou incomplète, leur performance s'effondre. Cette contrainte change radicalement la manière dont les entreprises doivent envisager leur gouvernance des données avant tout déploiement agentique. Ce n'est plus une question de bonne pratique optionnelle, mais d'un prérequis technique strict qui conditionne le retour sur investissement de tout projet d'IA en production. Xebia positionne cette approche dans un contexte de demande croissante des grandes entreprises pour des migrations accélérées vers des plateformes modernes. Le cabinet constate que ses clients veulent sortir des systèmes legacy plus vite et plus sûrement qu'auparavant, et cherchent des méthodes comprimant un calendrier de 12 a 24 mois en un engagement a périmètre fixe et jalons définis. Xebia dit y parvenir en combinant l'expertise de ses ingénieurs avec des agents spécialisés co-développés avec le client. Le cabinet participait également au TechEx Global North America, où il a présenté cette philosophie de partage de connaissances comme un avantage concurrentiel direct. Zeilemaker cite le "vibe coding" comme illustration d'une tendance plus large : l'IA reconfigure le développement logiciel, et les entreprises qui n'ont pas sécurisé leur fondation de données risquent de construire des capacités agentiques sur du sable.

UEXebia, cabinet de conseil d'origine néerlandaise, propose ces offres aux grandes entreprises européennes cherchant à moderniser leurs systèmes legacy pour déployer des agents IA.

OutilsActu
1 source