OutilsBen's Bites13sem· 1 min de lecture

Les constructions de Ben : #2

Ben Tossell, fondateur de la newsletter Ben's Bites, publie le deuxième volet de son journal de builder, révélant une semaine contrastée : peu productive sur le plan technique, mais riche en observations de terrain. De retour dans sa ville natale de Cardiff pour intervenir dans son ancienne école, il a constaté avec inquiétude que la quasi-totalité des 16-18 ans interrogés n'utilisent ChatGPT que pour leurs devoirs scolaires — aucun ne s'en sert pour construire quoi que ce soit.

Ce constat l'a conforté dans une direction stratégique déjà esquissée : former les non-développeurs à créer avec l'IA. Il annonce le lancement de "Fork Off", une formation ouverte une fois par trimestre pour apprendre à des non-codeurs à concevoir des applications, des automatisations et des agents IA. La cadence trimestrielle est délibérée : dans un secteur qui évolue aussi vite, elle lui permet de maintenir le contenu à jour sans perturber les participants en cours de formation.

Côté réalisations techniques, Tossell a développé une application web de recherche dans les favoris X (Twitter), outil qu'il utilise désormais comme source principale pour ses contenus. Il a également tenté d'améliorer son agent de tri d'emails via Replit Agent 4, qu'il juge sévèrement — "💩" est son verdict — avant d'abandonner au profit de ses outils habituels (Droid et Pi). Son stack intègre désormais Chops pour gérer les compétences IA sur Mac, et Claude Cowork, qu'il utilise quotidiennement malgré ses limites aux seuls modèles Anthropic.

Sur la question de l'écriture assistée par IA, Tossell adopte une posture nuancée : il explore des outils anti-générique comme Tropes et les AI style guides d'Every, tout en s'appuyant sur le corpus de Jack Butcher pour générer une première ébauche de copie pour Fork Off. Une approche pragmatique qui illustre bien la tension entre gain de productivité et préservation d'une voix authentique.

Dans nos dossiers

Anthropic Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil

1 source

2AI News

Les agents IA ont besoin d'une infrastructure d'interaction

Band, une startup fondée à Tel Aviv et San Francisco, est sortie de sa phase stealth avec un tour de table de 17 millions de dollars pour résoudre un problème fondamental de l'IA en entreprise : l'absence d'infrastructure dédiée à la coordination entre agents autonomes. Dirigée par le CEO Arick Goomanovsky et le CTO Vlad Luzin, la société part du constat que les réseaux d'entreprise hébergent désormais des dizaines d'agents IA capables de raisonner et d'agir de manière indépendante, qu'il s'agisse de gérer des pipelines d'ingénierie, de traiter des tickets de support client ou de surveiller la sécurité informatique. Mais quand ces agents doivent collaborer, partager du contexte ou opérer ensemble dans des environnements cloud hétérogènes, les intégrations se fragilisent et les opérateurs humains se retrouvent à jouer les intermédiaires manuels entre des systèmes déconnectés. Le problème n'est pas anodin sur le plan financier. Sans couche de gouvernance centralisée, les workflows multi-agents génèrent des coûts incontrôlés : chaque échange entre agents déclenche des appels API vers des grands modèles de langage coûteux, et une simple erreur de routage ou une boucle entre deux agents peut engloutir des budgets cloud en quelques heures. Band entend imposer des disjoncteurs financiers stricts, capables d'interrompre automatiquement les interactions qui dépassent des seuils prédéfinis en tokens ou en calcul. L'enjeu dépasse le coût technique : une négociation non surveillée entre un agent d'achat interne et un modèle fournisseur externe pourrait déclencher des centaines de cycles d'inférence pour une transaction sans réelle valeur commerciale. Le timing de Band s'explique par trois évolutions simultanées du marché. Les agents IA ne sont plus des expérimentations : ils opèrent en production dans des grandes entreprises, souvent développés par des équipes différentes, sur des frameworks distincts, hébergés chez des cloud providers concurrents. Cette fragmentation est structurelle et durable. Par ailleurs, des standards émergent, comme le Model Context Protocol (MCP) pour l'accès aux outils externes, ou les initiatives A2A pour standardiser les communications inter-agents. Mais ces protocoles définissent le langage commun, pas l'environnement opérationnel : ils ne gèrent ni le routage, ni la reprise sur erreur, ni les frontières d'autorisation, ni la supervision humaine. Band compare sa position à celle des API gateways face aux microservices dans les années 2010 : quand les systèmes distribués prolifèrent, ajouter de la logique métier ne suffit plus, il faut une infrastructure d'interaction dédiée pour maintenir fiabilité et contrôle à l'échelle.

OutilsOutil

1 source

3MIT Technology Review

Construire une infrastructure de données solide pour le succès des agents IA

Les entreprises déploient des agents IA à grande vitesse — 88% utilisent l'IA dans au moins une fonction métier selon McKinsey — mais seulement 1 sur 10 parvient à les déployer à grande échelle. Le principal obstacle n'est pas la qualité des modèles, mais l'absence d'une architecture de données solide capable de fournir le contexte métier nécessaire. Selon Irfan Khan, président de SAP Data & Analytics, la valeur d'une donnée pour les agents IA dépend moins de son format (structuré ou non) que de son contexte métier, et deux tiers des dirigeants ne font pas encore confiance à leurs données.

UEL'européen SAP, acteur central des systèmes d'information des grandes entreprises françaises et européennes, positionne son offre Data & Analytics comme solution clé pour combler le déficit de confiance dans les données qui freine le passage à l'échelle des agents IA dans les organisations.

OutilsOpinion

1 source

4The Information AI

Les conséquences imprévues du retour de Codex

Le retour de Codex, l'agent de codage d'OpenAI, provoque des effets inattendus au sein même de l'entreprise. Repositionné comme outil polyvalent pour les travailleurs de la connaissance, Codex connaît un regain d'intérêt notable depuis plusieurs semaines, comme l'a souligné mardi Denise Dresser, directrice des revenus d'OpenAI. De nombreux développeurs migrent depuis Claude Code d'Anthropic vers Codex, qu'OpenAI a rendu plus performant sur des tâches longues et complexes. Mais c'est en interne que l'impact se mesure le plus : les ingénieurs d'OpenAI sont passés de deux ou trois modifications de code par jour à plus de dix, selon deux personnes proches du dossier. Cette explosion de productivité a rapidement saturé les systèmes internes gérant la vaste base de code de l'entreprise, provoquant des pannes. Chaque modification déclenche en effet des milliers d'heures de tests automatisés exécutés en parallèle sur de nombreuses machines, destinés à vérifier que le code fonctionne correctement et ne contient ni bug ni faille de sécurité. Multiplier par cinq le volume quotidien de commits a surchargé une infrastructure de validation qui n'était pas dimensionnée pour absorber ce rythme. C'est un paradoxe révélateur : l'outil censé accélérer le développement finit par bloquer la livraison. Cet épisode illustre un défi structurel que l'ensemble de l'industrie tech va devoir affronter à mesure que les agents de codage s'imposent dans les workflows professionnels. Les pipelines CI/CD, les systèmes de revue de code et les infrastructures de test ont été conçus pour un rythme humain. Avec des agents capables de multiplier la cadence de production, c'est toute la chaîne d'intégration qui devient un goulot d'étranglement. OpenAI se retrouve ainsi en première ligne d'un problème d'échelle que ses propres outils ont créé, et dont la résolution conditionnera l'adoption large des agents autonomes dans les grandes organisations.

OutilsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic