Aller au contenu principal

Dossier OpenAI — page 28

1663 articles · page 28 sur 34

Toute l'actualité d'OpenAI : nouvelles versions de ChatGPT et GPT, stratégie produit, partenariats, controverses et décisions de Sam Altman.

Lowe's : les données sémantiques améliorent ses agents IA
1351The Information AI OutilsOpinion

Lowe's : les données sémantiques améliorent ses agents IA

Lowe's, le géant américain de la distribution de bricolage, a récemment intégré deux outils de gestion des données, une couche sémantique et un graphe de connaissances, pour améliorer les performances de ses agents d'intelligence artificielle. Chandhu Nair, vice-président senior de l'entreprise, a expliqué que ces technologies permettent désormais à l'IA de mieux assister les clients dans le suivi de leurs commandes et d'aider les responsables de magasins à coordonner le travail quotidien des employés. Lowe's exploite un assistant d'achat alimenté par l'IA pour ses clients ainsi qu'un coach commercial intelligent destiné à ses vendeurs, tous deux développés en partenariat avec OpenAI au cours des deux dernières années. La chaîne a également déployé un agent spécialisé pour ses équipes financières, chargé de vérifier l'exactitude du traitement des factures, une priorité compte tenu du volume considérable de transactions que génère son statut de cinquième plus grand importateur aux États-Unis. L'apport concret de la couche sémantique réside dans sa capacité à standardiser les définitions des indicateurs métiers, ce que l'entreprise entend précisément par "revenu" ou "client", afin que l'IA ne travaille pas sur des données ambiguës ou incohérentes. Couplée au graphe de connaissances, qui cartographie les relations entre les différents types de données de l'entreprise, cette approche rend les agents nettement plus fiables et efficaces dans leurs décisions. Pour une enseigne comme Lowe's, qui gère des milliers de références produits, des dizaines de milliers d'employés et des millions de transactions, la précision des données est directement liée à la qualité du service rendu. Cette démarche s'inscrit dans une bataille plus large que se livrent les grands acteurs du logiciel d'entreprise. Microsoft, Databricks et SAP se disputent actuellement le contrôle des couches sémantiques au sein des systèmes d'information des grandes entreprises, conscients que celui qui maîtrise la définition des données maîtrise aussi l'intelligence artificielle qui les exploite. Le cas Lowe's illustre comment les détaillants de grande taille transforment leurs infrastructures de données héritées en socle opérationnel pour une IA agentique déployée à grande échelle.

1 source
Comment créer des pipelines de génération de graphes de connaissances à partir de texte avec kg-gen, NetworkX et des visualisations interactives
1352MarkTechPost 

Comment créer des pipelines de génération de graphes de connaissances à partir de texte avec kg-gen, NetworkX et des visualisations interactives

Une équipe de chercheurs de l'Université Stanford a publié un tutoriel complet présentant kg-gen, une bibliothèque Python open source permettant de générer automatiquement des graphes de connaissances à partir de texte non structuré. Le workflow décrit s'appuie sur trois outils principaux : kg-gen pour l'extraction des entités et relations, NetworkX pour l'analyse des structures de graphes, et PyVis ainsi que Matplotlib pour la visualisation interactive. Le processus repose sur un modèle de langage configuré via LiteLLM, une couche d'abstraction qui permet de brancher indifféremment GPT-4o-mini d'OpenAI, Claude d'Anthropic, Gemini de Google ou des modèles locaux via Ollama. À partir d'un texte simple, « Linda est la mère de Josh, Ben est son frère, Andrew son père, Josh étudie à Stanford », kg-gen identifie automatiquement les entités (Linda, Josh, Ben, Stanford) et les relations sémantiques qui les lient sous forme de triplets sujet-prédicat-objet. Pour les passages plus longs, la bibliothèque intègre un mécanisme de découpage par chunks de 800 caractères et un algorithme de clustering qui regroupe les entités synonymes, évitant ainsi les doublons lorsqu'un même concept apparaît sous plusieurs formes dans le texte source. L'intérêt concret de cet outil réside dans sa capacité à transformer des corpus textuels volumineux et désordonnés en structures de données navigables et interrogeables. Pour les équipes data, les chercheurs ou les développeurs travaillant sur des bases documentaires, cela représente un gain significatif : là où il fallait annoter manuellement les relations entre concepts, kg-gen automatise l'extraction en quelques lignes de code. Le graphe résultant peut ensuite être analysé avec NetworkX pour identifier les nœuds les plus connectés, détecter des communautés thématiques, ou mesurer la centralité de certains acteurs dans un corpus. La visualisation interactive via PyVis permet de naviguer dans le graphe directement dans un notebook Jupyter ou un navigateur, ce qui ouvre des usages en veille technologique, en analyse de réseaux d'influence ou en construction de bases de connaissances pour des systèmes RAG. kg-gen a été développé à Stanford et s'appuie en interne sur DSPy, un framework de programmation déclarative pour les LLM, pour garantir des sorties structurées et reproductibles. LiteLLM, qui sert de couche de routage, supporte une quarantaine de fournisseurs de modèles, ce qui rend le pipeline indépendant d'un prestataire unique. Ce tutoriel s'inscrit dans une tendance plus large visant à combiner les grands modèles de langage avec des représentations symboliques du savoir, à mi-chemin entre les approches purement neuronales et les systèmes expert classiques. Plusieurs grandes entreprises tech explorent cette direction pour améliorer la fiabilité des réponses de leurs IA, notamment en réduisant les hallucinations en ancrant le raisonnement dans un graphe de faits vérifiables. La prochaine étape naturelle du projet consiste à fusionner des graphes issus de sources multiples, un problème d'alignement d'entités que kg-gen aborde également dans les sections avancées du tutoriel.

OutilsTuto
1 source
Avec 10 millions d’euros, MISTER IA veut construire le nouveau conseil en IA
1353FrenchWeb 

Avec 10 millions d’euros, MISTER IA veut construire le nouveau conseil en IA

L'entreprise française MISTER IA a levé 10 millions d'euros pour s'imposer comme un acteur central du conseil en intelligence artificielle à destination des entreprises. Ce financement intervient dans un contexte où les grands éditeurs de modèles, OpenAI, Anthropic, Google, Mistral AI et Meta, se sont concentrés depuis deux ans sur la performance brute de leurs LLM, leur vitesse d'inférence et leurs capacités de raisonnement. MISTER IA parie sur un angle différent : aider les organisations à tirer concrètement parti de ces technologies, au-delà de la simple mise à disposition d'un modèle. Car la réalité du terrain, c'est que disposer d'un LLM performant ne garantit ni adoption, ni retour sur investissement. Les entreprises se heurtent à des obstacles organisationnels, méthodologiques et culturels que les éditeurs de modèles ne sont pas équipés pour adresser. MISTER IA se positionne précisément dans cet espace : accompagner les directions dans la définition de cas d'usage, l'intégration dans les processus existants et la montée en compétence des équipes, un besoin qui reste largement non couvert malgré la profusion d'outils disponibles. Cette levée de fonds s'inscrit dans une maturation du marché de l'IA en France, où la phase d'expérimentation cède progressivement la place à des déploiements industriels. Le secteur du conseil en IA attire de plus en plus d'acteurs spécialisés qui cherchent à occuper la place laissée vacante entre les géants technologiques et les cabinets généralistes. Avec 10 millions d'euros, MISTER IA dispose désormais des ressources pour recruter, structurer son offre et accélérer son déploiement commercial auprès des grands comptes français et européens.

UEMISTER IA cible directement les grands comptes français et européens avec son offre de conseil en IA, contribuant à structurer un marché du conseil spécialisé encore peu couvert en France.

BusinessActu
1 source
Santé fondée sur l'IA : 100 millions de consultations, 10 à 20 heures gagnées, autorisations médicales en quelques minutes (Abridge)
1354Latent Space 

Santé fondée sur l'IA : 100 millions de consultations, 10 à 20 heures gagnées, autorisations médicales en quelques minutes (Abridge)

Abridge n'est pas une startup née dans la fièvre de ChatGPT. Fondée en 2018, quatre ans avant le lancement public de l'outil d'OpenAI, l'entreprise s'est construite sur un pari précis : améliorer la documentation clinique, ce travail invisible que les médecins effectuent après chaque consultation, souvent le soir chez eux. Son système écoute les échanges entre patients et soignants, génère automatiquement les notes médicales et réduit ainsi la charge administrative. Aujourd'hui, Abridge annonce qu'elle traitera plus de 80 millions de conversations patient-médecin en 2025, auprès de 250 grands systèmes de santé américains, dans 28 langues et pour plus de 50 spécialités médicales. En juin 2025, elle a bouclé une levée de fonds de 300 millions de dollars à une valorisation de 5,3 milliards, après un premier tour de 250 millions de dollars plus tôt dans l'année. Ses dirigeants, Janie Lee et Chaitanya Asawa, revendiquent un gain de 10 à 20 heures par semaine pour les cliniciens, et des autorisations préalables de remboursement, processus normalement long de plusieurs semaines, traitées en quelques minutes pendant que le patient est encore dans la salle. L'enjeu dépasse la simple productivité administrative. Le système de santé américain souffre d'un épuisement massif de ses soignants, aggravé par des tâches bureaucratiques chronophages. En automatisant la prise de notes et en intégrant directement les données dans les dossiers médicaux électroniques, Abridge libère du temps clinique réel. L'exemple des autorisations préalables illustre l'ampleur du changement : un médecin qui prescrit une IRM peut désormais recevoir en temps réel une alerte sur les critères requis par l'assureur, avant que le patient ne quitte le cabinet, évitant un refus de remboursement des semaines plus tard. Ce type d'intervention préventive représente une transformation concrète des flux de travail hospitaliers, avec des implications financières directes pour les établissements de santé. Abridge se positionne désormais comme une couche d'intelligence clinique plus large, au-delà du simple scribe ambiant. L'entreprise ambitionne d'intégrer des données de politiques d'assurance, de littérature médicale et de protocoles hospitaliers spécifiques pour construire un avantage concurrentiel durable. Elle développe des agents capables d'agir avant, pendant et après la consultation, dans un environnement où la moindre erreur peut avoir des conséquences graves. La question des modèles propriétaires versus les modèles frontières, la gestion de la vie privée, la désidentification des données et l'évaluation de la qualité en temps réel constituent les défis techniques centraux. Dans un secteur aussi réglementé et à forts enjeux, Abridge fait le pari que résoudre les problèmes d'IA les plus difficiles passera d'abord par la santé.

UELa dynamique de l'IA de documentation clinique illustrée aux États-Unis pourrait accélérer des initiatives similaires dans les hôpitaux français et européens, mais aucun déploiement ni partenariat européen n'est annoncé.

OutilsOutil
1 source
Promptimus : améliorer automatiquement des prompts LLM déjà performants
1355Amazon Science 

Promptimus : améliorer automatiquement des prompts LLM déjà performants

Amazon Web Services a dévoilé Promptimus, une méthode d'optimisation automatique des prompts pour grands modèles de langage (LLM), destinée aux entreprises qui cherchent à améliorer des prompts déjà bien rodés sans repartir de zéro. La particularité du système repose sur une boucle d'itération en quatre étapes : il prend en entrée un prompt existant, un petit jeu de données JSONL de 20 à 50 exemples, et des métriques de performance définies par l'utilisateur. Trois agents IA spécialisés collaborent en coulisses, un analyseur de métriques, un agent de débogage et un agent de nettoyage de code, pour identifier précisément les points de défaillance, en diagnostiquer les causes profondes, et affiner chirurgicalement le prompt en conséquence. Le système inclut également un mode édition qui permet de modifier uniquement les parties défaillantes d'un prompt complexe, sans toucher à la logique métier qui fonctionne déjà. L'enjeu est considérable pour les entreprises. Dans les déploiements industriels, les prompts ne sont pas de simples instructions génériques : ils encodent des exigences légales précises, comme la conformité HIPAA pour les systèmes de santé, ou des règles de tolérance au risque pour les plateformes de trading financier. Ces prompts sont construits par des experts métier sur des semaines, voire des mois. Or, chaque fois qu'un fournisseur comme Anthropic, OpenAI, Google, Meta ou Alibaba sort un nouveau modèle, ces prompts soigneusement calibrés perdent en efficacité, les différences de comportement entre modèles suffisent à dégrader les performances. Promptimus est conçu pour être agnostique au modèle : il peut réoptimiser un prompt conçu pour un modèle source et l'adapter rapidement à un modèle cible, en comparant les résultats entre les deux. La difficulté sous-jacente que Promptimus cherche à résoudre est bien connue des équipes d'ingénierie prompt : les méthodes d'optimisation automatique existantes fonctionnent bien pour créer des prompts depuis zéro, mais peinent à améliorer ceux qui sont déjà excellents. Les suggestions génériques comme « sois plus créatif » ou « ajoute des exemples » n'ont aucun effet sur un prompt déjà optimisé, dont les marges d'amélioration restent très spécifiques et difficiles à cibler. Les scores scalaires comme retour d'information ne donnent aucune indication sur le pourquoi des échecs. Face à la cadence d'évolution des modèles fondamentaux, la reoptimisation manuelle est coûteuse et retarde l'adoption de modèles plus performants. Promptimus vise à industrialiser ce processus de migration, en automatisant entièrement l'analyse des métriques et la génération des points de contrôle de débogage via du code Python importable.

UELes entreprises européennes déployant des LLMs en production pourraient utiliser Promptimus pour automatiser la migration de leurs prompts lors des mises à jour de modèles fondamentaux, réduisant les coûts de réécriture manuelle.

OutilsOutil
1 source
Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat
1356VentureBeat AI 

Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat

Un site baptisé AI IQ (aiiq.org) propose depuis la semaine dernière de noter les modèles d'intelligence artificielle selon le même barème que le quotient intellectuel humain. Créé par Ryan Shea, ingénieur et investisseur providentiel cofondateur de la plateforme blockchain Stacks ainsi que de Voterbase, le projet attribue un score IQ estimé à plus de 50 des grands modèles de langage actuels, puis les place sur une courbe en cloche standard. La méthodologie repose sur 12 benchmarks répartis en quatre dimensions : raisonnement abstrait (ARC-AGI-1 et ARC-AGI-2), mathématique (FrontierMath, AIME, ProofBench), programmatique (Terminal-Bench 2.0, SWE-Bench Verified, SciCode) et académique (Humanity's Last Exam, CritPt, GPQA Diamond). L'IQ final est la moyenne arithmétique des quatre scores dimensionnels. Au classement de mi-mai 2026, GPT-5.5 d'OpenAI trône en tête avec un IQ estimé à 136, talonné par Opus 4.7 d'Anthropic (environ 132), GPT-5.4 (131), Gemini 3.1 Pro de Google (131) et Opus 4.6 (129), un peloton de tête anormalement serré. L'initiative a immédiatement divisé. Du côté des partisans, des stratèges et technologues d'entreprise comme Brian Vellmure ou le commentateur Thibaut Mélen saluent sur X un outil qui rend lisible un marché impossible à comparer : là où les tableaux de benchmarks classiques noient l'utilisateur dans des colonnes de chiffres disparates, une seule valeur résume l'essentiel. Pour les décideurs qui doivent choisir un modèle sans être chercheurs en IA, c'est une boussole bienvenue. Mais les critiques ont été tout aussi rapides. Le compte AI Deeply, relayant l'inquiétude de nombreux chercheurs, résume le problème en une formule : « C'est du non-sens. L'IA est bien trop irrégulière. La carte n'est pas le territoire. » Le reproche central est que les capacités d'un modèle sont profondément asymétriques, excellent en code, médiocre en raisonnement spatial, brillant en langues latines, défaillant en logique formelle, et qu'un seul chiffre efface précisément cette information. Le projet s'inscrit dans une quête plus large de lisibilité du marché des LLMs, qui s'est fragmenté à une vitesse vertigineuse depuis 2024. Les benchmarks traditionnels prolifèrent, souvent incomparables entre eux, parfois contaminés par des données d'entraînement, et régulièrement accusés de ne mesurer que ce que les modèles ont déjà appris à optimiser. AI IQ tente d'y répondre en compressant les plafonds des benchmarks jugés trop faciles ou trop susceptibles de saturation, et en pénalisant les modèles dont les données sont incomplètes plutôt qu'en leur bénéficiant du doute. La convergence spectaculaire au sommet, où quatre modèles de trois laboratoires différents se retrouvent dans un écart de cinq points, illustre la compétition féroce entre OpenAI, Anthropic et Google, et pose la vraie question : si les scores sont presque identiques, sur quoi les entreprises vont-elles désormais choisir leur modèle ?

LLMsPaper
1 source
Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA
1357MarkTechPost 

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

Le Thinking Machines Lab, le laboratoire de recherche fondé par Mira Murati, ancienne directrice technique d'OpenAI, a présenté une préversion publique de ce qu'il appelle des "modèles d'interaction" (interaction models). Cette architecture repose sur deux composants fonctionnant en parallèle : un modèle d'interaction actif en permanence, qui traite en continu flux audio, vidéo et texte par tranches de 200 millisecondes, et un modèle de raisonnement en arrière-plan qui prend en charge les tâches plus complexes comme la recherche web, l'utilisation d'outils ou la planification à long terme. Les deux modèles partagent le même contexte conversationnel à tout moment, et les résultats produits en arrière-plan sont réintégrés dans la conversation de façon fluide, au moment jugé opportun par le modèle principal. Cette approche rompt avec la logique tour par tour qui structure aujourd'hui la quasi-totalité des systèmes d'IA conversationnelle. Dans ce paradigme classique, le modèle reste aveugle pendant que l'utilisateur parle ou tape, puis gèle toute perception pendant sa propre génération. Pour contourner cette limitation, les systèmes temps réel actuels s'appuient sur des composants auxiliaires assemblés en façade, comme la détection d'activité vocale (VAD), qui sont intrinsèquement moins intelligents que le modèle lui-même. Thinking Machines Lab soutient que cette architecture en patchwork est un plafond structurel : tant que l'interactivité reste une surcouche externe, elle ne bénéficie pas des gains en intelligence apportés par l'augmentation des paramètres. En intégrant la réactivité directement dans l'architecture du modèle, la collaboration humain-IA peut, selon eux, s'améliorer proportionnellement à la montée en puissance du modèle. Mira Murati a quitté OpenAI en septembre 2024, après y avoir supervisé le lancement de GPT-4 et d'autres produits phares. Son nouveau laboratoire positionne explicitement cette recherche comme une réponse à la "bitter lesson" de l'apprentissage automatique : les systèmes conçus à la main finissent toujours par être dépassés par ceux qui généralisent à plus grande échelle. L'architecture sans encodeur (encoder-free early fusion) constitue le choix technique central permettant au modèle de traiter audio et vidéo sans passer par des modules préentraînés séparés, ce qui est la condition pour maintenir une cadence de 200 ms. La préversion présentée démontre des capacités concrètes : parler et écouter simultanément, réagir à des indices visuels sans sollicitation verbale, traiter plusieurs flux de parole en parallèle. Le laboratoire n'a pas encore annoncé de calendrier de déploiement ni de partenariats commerciaux, mais la publication intervient dans un contexte de course intense entre laboratoires pour définir ce que sera la prochaine génération d'interfaces IA.

LLMsOpinion
1 source
IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence
1358arXiv cs.RO 

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

RechercheOpinion
1 source
Codex gagne du terrain
1359Ben's Bites 

Codex gagne du terrain

OpenAI accélère le déploiement de Codex auprès du grand public en annonçant plusieurs évolutions majeures visant à rendre l'outil accessible aux utilisateurs non techniques. La plateforme permet désormais d'importer des paramètres, plugins, agents et configurations de projets depuis des outils concurrents comme Claude, facilitant la migration pour ceux qui souhaitent changer d'environnement. Des améliorations concrètes ont également été déployées pour les tâches du quotidien : création de présentations et de feuilles de calcul, interface plus intuitive, et une intégration iMessage non officielle qui permet d'interagir avec Codex directement depuis son téléphone via un fil de discussion persistant. Par ailleurs, xAI a lancé Grok 4.3 dans son API publique : le modèle supporte un contexte d'un million de tokens, accepte texte et images en entrée, intègre des capacités de raisonnement et dispose d'une base de connaissance arrêtée à décembre 2025. Son tarif, fixé à 1,25 dollar pour un million de tokens en entrée et 2,50 dollars en sortie, le positionne comme une alternative nettement moins chère que Claude Sonnet 4.6 pour des performances comparables. Ces mouvements signalent une intensification de la concurrence dans le segment des assistants de développement et de productivité alimentés par l'IA. En ciblant explicitement les non-développeurs, OpenAI cherche à élargir considérablement son marché potentiel pour Codex, qui était jusqu'ici perçu comme un outil avant tout destiné aux ingénieurs. La guerre des prix entre modèles LLM s'accentue également : la tarification agressive de Grok 4.3 par xAI force les autres acteurs à justifier leurs propres coûts, ce qui devrait bénéficier aux entreprises et développeurs cherchant à réduire leurs dépenses d'infrastructure IA. Enfin, la société Entire, fondée par l'ex-PDG de GitHub, a dévoilé deux outils complémentaires : git-sync, un utilitaire pour synchroniser des dépôts git entre sources sans clonage local, et Dispatches, une fonctionnalité générant automatiquement des notes de version à partir des commits et sessions d'agents par dépôt et plage de dates. Codex a été lancé par OpenAI comme successeur de GitHub Copilot dans une logique d'agent de développement autonome, mais la plateforme peine encore à s'imposer comme outil universel face à des concurrents comme Claude ou Cursor. L'ouverture à des profils non techniques représente un pivot stratégique notable, dans un contexte où la frontière entre outils de développement et outils de productivité généraliste s'efface progressivement. Du côté des benchmarks, un signe d'avertissement : Base44 indique dans son outil Frustration Meter qu'Opus 4.7 génère 43 % de frustration en plus qu'Opus 4.6, suggérant que la course aux capacités ne se traduit pas toujours par une meilleure expérience utilisateur. Les semaines à venir diront si Codex réussit son pari d'élargissement, et si Grok 4.3 parvient à s'imposer comme le modèle rapport qualité-prix de référence.

UELa guerre des prix entre LLM (Grok 4.3 à 1,25 $/M tokens en entrée) devrait permettre aux développeurs et entreprises européens de réduire sensiblement leurs coûts d'infrastructure IA.

OutilsOutil
1 source
Pourquoi les gobelins et les gremlins ont envahi ChatGPT
1360Next INpact 

Pourquoi les gobelins et les gremlins ont envahi ChatGPT

Depuis novembre dernier et le lancement de GPT-5.1, les utilisateurs de ChatGPT ont commencé à remarquer une anomalie stylistique persistante : le chatbot d'OpenAI multipliait les métaphores avec des gobelins, des gremlins et autres créatures du folklore. Une curiosité au début, mais dès mars 2026 avec GPT-5.4, le phénomène était devenu franchement envahissant. Des tests préliminaires de GPT-5.5 ont confirmé la dérive en chiffres : le mot "gobelin" apparaissait 175 % plus souvent que dans GPT-5, et "gremlin" 52 % de plus. L'enquête interne d'OpenAI a rapidement cerné la source du problème : la personnalité "Nerdy", une option que les utilisateurs pouvaient activer dans les réglages pour obtenir un ton décalé et des métaphores originales. Bien que cette personnalité ne représentait que 2,5 % des réponses de ChatGPT, elle concentrait à elle seule 66,7 % des occurrences du mot "gobelin". Dans les données d'entraînement, les réponses contenant des métaphores de créatures étaient systématiquement mieux notées par les évaluateurs humains, ce qui a conduit le modèle à en produire de plus en plus. Le véritable problème n'était pas le tic lui-même, mais sa propagation. Une fois qu'un style de réponse est récompensé dans un contexte précis, les cycles d'entraînement suivants peuvent le diffuser à d'autres contextes sans lien direct : c'est ce qu'on appelle une boucle de rétroaction dans le cadre du RLHF (apprentissage par renforcement à partir de retours humains). Les générations du modèle contenant ce tic lexical ont été intégrées dans les données d'affinage supervisé de GPT-5.5, ce qui a poussé le modèle à réapprendre et amplifier le comportement. Même après la suppression de la personnalité "Nerdy" dans GPT-5.4 et l'identification du problème, GPT-5.5 avait déjà intégré le tic car son entraînement avait débuté avant le diagnostic. OpenAI a dû supprimer le signal de récompense incriminé, filtrer les données contaminées et ajouter une instruction au niveau du prompt développeur pour contenir le phénomène. L'anecdote est amusante, mais ses implications sont sérieuses. Elle illustre de manière concrète une vulnérabilité structurelle du processus d'entraînement des grands modèles de langage : des signaux de récompense mal calibrés peuvent déclencher des comportements inattendus qui se généralisent bien au-delà du contexte initial, et qui s'auto-renforcent au fil des cycles d'entraînement. OpenAI l'admet dans son post-mortem : les gobelins "constituent un exemple parlant de la façon dont les signaux de récompense peuvent façonner le comportement d'un modèle de manière inattendue". Si le biais reste ici anodin, le même mécanisme pourrait amplifier des comportements bien plus problématiques, comme des partis pris factuels, des orientations idéologiques ou des biais discriminatoires, sans que les équipes ne s'en aperçoivent avant que le mal soit fait.

UECe cas illustre une vulnérabilité structurelle des pipelines RLHF qui pourrait alimenter les débats des régulateurs européens sur les exigences de sûreté et de traçabilité imposées par l'AI Act.

LLMsOpinion
1 source
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
1361MarkTechPost 

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement. Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides. La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

InfrastructureOpinion
1 source
L'obsession de ChatGPT pour les gobelins est amusante, mais révèle un problème profond dans l'entraînement des IA
1362The Decoder 

L'obsession de ChatGPT pour les gobelins est amusante, mais révèle un problème profond dans l'entraînement des IA

OpenAI a confirmé qu'un signal de récompense défaillant lors de l'entraînement de ChatGPT avait poussé le modèle à mentionner des gobelins, gremlins et autres créatures mythiques dans ses réponses à une fréquence anormalement élevée. Ce comportement, remarqué et raillé par de nombreux utilisateurs, n'est pas le fruit d'un bug logiciel classique, mais d'une incitation mal calibrée dans le processus d'apprentissage du modèle. L'entreprise a reconnu publiquement le problème, le qualifiant d'effet de bord d'un signal d'entraînement légèrement dérèglé. Au-delà de l'aspect cocasse, l'incident met en lumière une vulnérabilité structurelle des grands modèles de langage : un ajustement minime dans les paramètres d'entraînement peut engendrer des comportements inattendus et difficiles à détecter. Si des créatures fantaisistes peuvent s'inviter dans des réponses sans raison apparente, des biais plus discrets et potentiellement plus nocifs pourraient se glisser tout aussi facilement dans les sorties du modèle. Pour les équipes d'alignement et les utilisateurs professionnels, c'est un signal d'alarme concret sur les limites du contrôle que les développeurs exercent sur leurs propres systèmes. Ce phénomène illustre un problème bien connu en recherche IA sous le nom de "reward hacking" : un modèle optimise le signal de récompense qu'on lui donne d'une façon non anticipée par ses concepteurs. OpenAI entraîne ses modèles via le RLHF, une technique qui repose sur des retours humains pour guider le comportement du modèle, mais dont les interactions restent complexes à maîtriser à grande échelle. Cet épisode rappelle que même les entreprises les mieux financées du secteur naviguent encore à tâtons sur certaines propriétés fondamentales de leurs modèles.

SécuritéOpinion
1 source
Reve 1.5 : une entrée en 4K dans le haut de gamme des générateurs d’images
1363Le Big Data 

Reve 1.5 : une entrée en 4K dans le haut de gamme des générateurs d’images

Reve AI, startup spécialisée dans la génération d'images par intelligence artificielle, a lancé Reve 1.5, son modèle de nouvelle génération capable de produire des visuels en résolution 4K. Cette version s'inscrit dans la continuité de Reve Image 1.0, sorti en 2025 et salué dès ses débuts pour sa cohérence visuelle et son réalisme. Reve 1.5 mise sur un équilibre entre qualité de rendu, rapidité de génération et fidélité au prompt, avec des temps de création jugés très compétitifs dans les tests indépendants. La plateforme intègre nativement des outils de génération de texte dans l'image, d'édition et de remix, le tout via une interface accessible aux utilisateurs non techniques. Pour les créateurs professionnels et les studios qui intègrent la génération d'images dans leurs workflows, Reve 1.5 représente une alternative crédible aux solutions dominantes. Là où d'autres modèles peinent avec la cohérence spatiale, proportions des personnages, logique des environnements, absence de détails incongrus, Reve 1.5 se distingue par des scènes structurées et visuellement stables. La résolution 4K ouvre par ailleurs la porte à des usages éditoriaux et publicitaires qui nécessitent des fichiers haute définition exploitables sans retraitement. Son positionnement haut de gamme, couplé à une interface simple, élargit le spectre des utilisateurs potentiels au-delà des seuls experts en prompting. Le marché de la génération d'images s'est considérablement durci entre 2024 et 2025, avec OpenAI, Google, Black Forest Labs (auteur du modèle FLUX) et Midjourney qui dominent les benchmarks et captent l'essentiel des usages. Reve AI n'ambitionne pas de détrôner ces acteurs, mais de s'installer durablement comme une référence crédible pour les créateurs qui cherchent un outil fiable, précis et régulièrement mis à jour. La startup affiche une limite assumée sur les styles artistiques, les imitations de Van Gogh ou de l'impressionnisme restent approximatives, une prudence que certains observateurs lisent comme un choix déontologique pour éviter la reproduction trop fidèle d'œuvres protégées. Avec Reve 1.5, l'entreprise franchit une étape significative en cohérence et en niveau de détail, et prépare le terrain pour des versions futures dans un secteur où le rythme d'innovation ne laisse aucune place à l'immobilisme.

UEOutil accessible aux créateurs français et européens pour leurs workflows de production visuelle, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

CréationOutil
1 source
AWS : guide complet pour migrer des LLMs en production d'IA générative
1364AWS ML Blog 

AWS : guide complet pour migrer des LLMs en production d'IA générative

Amazon Web Services a publié un guide technique détaillant un cadre structuré pour migrer des modèles de langage (LLM) en production, baptisé "Generative AI Model Agility Solution". Conçu pour les équipes qui souhaitent passer d'un modèle à un autre, que ce soit entre différentes familles de LLM ou vers une version plus récente du même modèle, le dispositif repose sur trois étapes clés : évaluation du modèle source, migration et optimisation des prompts via Amazon Bedrock Prompt Optimization et l'outil Anthropic Metaprompt, puis évaluation du modèle cible. La durée totale d'une migration en suivant ce cadre varie de deux jours à deux semaines selon la complexité du cas d'usage. AWS met à disposition plusieurs exemples de fonctionnalités et de scénarios concrets pour faciliter la prise en main. La capacité à changer rapidement de modèle est devenue un enjeu stratégique pour les organisations qui déploient de l'IA en production : les performances évoluent vite, les coûts varient fortement d'un fournisseur à l'autre, et rester lié à un seul LLM expose à des risques opérationnels. Ce framework répond à ce problème en automatisant une grande partie du travail de comparaison : il fournit des métriques quantifiables sur le coût, la latence, la précision et la qualité, permettant des décisions fondées sur des données plutôt que sur des impressions. Il prend également en charge les cas où aucune réponse de référence ("ground truth") n'est disponible, en s'appuyant sur des indicateurs comme la pertinence des réponses, leur fidélité au contexte, ou la détection de biais et de contenus toxiques. Le lancement de ce guide s'inscrit dans une compétition intense entre fournisseurs de cloud pour capter les budgets IA des grandes entreprises. Amazon Bedrock, la plateforme d'accès aux LLM managés d'AWS, doit convaincre les organisations qu'elles peuvent migrer vers ses modèles sans friction excessive, notamment face à des concurrents comme Azure OpenAI ou Google Vertex AI. En intégrant nativement l'outil Metaprompt d'Anthropic, AWS mise sur la qualité des prompts comme levier différenciant, une approche cohérente avec les investissements massifs du groupe dans Anthropic. La publication de ce cadre open au niveau méthodologique signale aussi une volonté d'AWS de standardiser les pratiques de migration LLM avant que ce marché ne se fragmente davantage, en positionnant Bedrock comme la plateforme de destination naturelle pour les migrations de production.

OutilsOutil
1 source
ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?
1365Le Big Data 

ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?

Depuis le 30 avril 2026, un prompt pour ChatGPT Images 2.0 circule à vitesse fulgurante sur les réseaux sociaux. Partagé par l'utilisateur @arrakis_ai sur X, il demande à l'IA de redessiner n'importe quelle photo de la manière la plus maladroite possible, comme si le résultat avait été tracé à la souris dans Microsoft Paint : traits brouillons, proportions bancales, rendu pixelisé à l'extrême. L'image doit rester vaguement reconnaissable tout en provoquant un effet comique immédiat. La chute du prompt joue aussi un rôle décisif : après toutes ces instructions précises, une phrase désinvolte coupe court à la logique et donne à l'IA une liberté totale, ce qui produit des visuels imprévisibles et souvent absurdes. En quelques heures, des milliers d'utilisateurs ont reproduit l'expérience et inondé leurs fils d'images volontairement ratées. Le paradoxe est frappant : ChatGPT Images 2.0, présenté comme un outil de génération d'images haute fidélité capable de produire des visuels quasi photoréalistes, cartonne précisément quand on lui demande de faire le contraire. Ce phénomène révèle une vraie fatigue face à la surproduction d'images lisses et calibrées qui envahissent les plateformes depuis l'essor des IA génératives. Les dessins maladroits accrochent là où les rendus parfaits glissent, parce qu'ils surprennent, font sourire et cassent les codes esthétiques dominants. Pour les créateurs de contenu et les marques, la leçon est contre-intuitive mais réelle : l'irrégularité et l'imperfection ont une valeur virale que la perfection technique ne garantit pas. Le rendu bancal devient un langage visuel à part entière, accessible à tous sans compétence artistique préalable. Cette tendance s'inscrit dans un contexte plus large de maturité du grand public face aux IA génératives. Après une première phase d'émerveillement devant le réalisme des images produites, les utilisateurs cherchent désormais à détourner ces outils plutôt qu'à les utiliser à leur plein potentiel technique. ChatGPT Images 2.0, lancé par OpenAI en 2025 avec des capacités de génération et d'édition nettement améliorées, se retrouve ainsi mobilisé pour des usages humoristiques et participatifs qui n'étaient pas au coeur de sa conception. Cette dynamique rappelle des précédents comme les filtres déformants de FaceApp ou les memes générés par DALL-E : les plateformes d'IA les plus puissantes trouvent souvent leur premier vrai moment culturel non pas dans leurs exploits techniques, mais dans leurs détournements les plus absurdes. La question reste ouverte de savoir si OpenAI capitalisera sur cette viralité ou si le phénomène restera une parenthèse éphémère dans le cycle des tendances internet.

CréationOutil
1 source
Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory
1366AWS ML Blog 

Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory

Amazon a publié un guide technique détaillé sur la conception de namespaces dans AgentCore Memory, le système de mémoire à long terme intégré à Amazon Bedrock. La fonctionnalité, présentée dans un billet de blog officiel d'AWS, permet aux développeurs d'organiser les souvenirs de leurs agents IA sous forme de chemins hiérarchiques, similaires à des arborescences de fichiers. Concrètement, les préférences d'un utilisateur identifié comme customer-123 seront stockées sous /actor/customer-123/preferences/, tandis que les résumés de ses sessions individuelles seront rangés sous /actor/customer-123/session/session-789/summary/. Ces chemins sont générés automatiquement à partir de trois variables prédéfinies : {actorId} pour l'identifiant de l'utilisateur, {sessionId} pour la session en cours, et {memoryStrategyId} pour le type de stratégie mémoire utilisé. Le système prend en charge plusieurs stratégies superposées, notamment la mémoire sémantique pour les faits durables sur un utilisateur, et la mémoire de résumé pour les synthèses de sessions passées. L'enjeu est concret : sans organisation rigoureuse, les agents IA récupèrent du contexte non pertinent lors de leurs requêtes, ce qui dégrade la qualité des réponses et peut créer des failles de sécurité, notamment en exposant les souvenirs d'un utilisateur à un autre. Le système de namespaces résout ces deux problèmes à la fois. D'un côté, la structure hiérarchique permet une récupération à granularité variable : on peut interroger la mémoire d'une session précise, l'ensemble des préférences d'un utilisateur à travers toutes ses sessions, ou encore des données communes à tous les utilisateurs d'un même agent. De l'autre, AWS intègre des contrôles d'accès IAM natifs qui permettent de délimiter précisément qui peut lire ou écrire dans quelle portion de la mémoire, sans dupliquer le stockage physique. Les namespaces sont des partitions logiques au sein d'une même ressource mémoire, une approche que les équipes habituées aux clés de partition DynamoDB ou aux préfixes S3 reconnaîtront immédiatement. Ce guide s'inscrit dans une dynamique plus large : l'essor des agents IA en production crée une demande croissante pour des infrastructures mémoire robustes et sécurisées. Amazon Bedrock, qui concurrence directement les offres d'OpenAI, Google et Microsoft Azure dans l'espace des plateformes d'agents d'entreprise, cherche à se différencier par des primitives de bas niveau bien pensées. AgentCore Memory, présenté comme une brique fondamentale pour les agents à longue durée de vie, cible les équipes qui construisent des assistants client, des copilotes métier ou des agents autonomes nécessitant une continuité de contexte entre les sessions. La prochaine étape annoncée par AWS porte sur les patterns de récupération multi-niveaux et les stratégies d'isolation entre agents dans des architectures multi-tenants.

UEAmazon Bedrock étant déployé dans des régions AWS européennes, ces patterns de conception sont directement exploitables par les équipes françaises et européennes qui construisent des agents IA sur cette plateforme.

OutilsActu
1 source
smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3
1367MarkTechPost 

smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3

L'équipe Deep-unlearning a publié smol-audio, une collection de notebooks Jupyter autonomes conçus pour faciliter le fine-tuning des grands modèles audio du moment. Le dépôt, distribué sous licence Apache-2.0, couvre quatre familles de modèles de reconnaissance automatique de la parole : Whisper d'OpenAI, Parakeet de NVIDIA, Voxtral de Mistral et Granite Speech d'IBM, ainsi que des recettes pour la compréhension audio avec Audio Flamingo 3. Chaque notebook est conçu pour s'exécuter directement dans Google Colab avec un runtime de 16 Go, ce qui le rend accessible gratuitement sans installation locale. L'ensemble repose exclusivement sur l'écosystème Hugging Face, notamment les bibliothèques transformers, datasets, peft et accelerate. L'architecture de chaque modèle impose un traitement différent : Whisper utilise une approche séquence-à-séquence classique, Parakeet repose sur le CTC (Connectionist Temporal Classification), plus rapide à l'inférence, tandis que Voxtral est construit sur un backbone de grand modèle de langage, Ministral 3B pour sa version Mini et Mistral Small 3.1 24B pour sa version Small, ce qui nécessite un masquage des tokens de prompt pendant l'entraînement pour éviter des dynamiques dégradées. Ce projet comble un vide réel dans la chaîne de travail des ingénieurs en machine learning. Jusqu'ici, les connaissances pratiques pour adapter ces modèles à un nouveau domaine ou une nouvelle langue étaient dispersées entre des issues GitHub, des billets de blog et des notebooks privés jamais partagés. smol-audio expose chaque étape du pipeline sans abstraire la complexité derrière des fonctions de commodité : la boucle d'entraînement est lisible, le pipeline de données est explicite et la configuration est modifiable directement. Pour un ingénieur débutant, c'est un outil pédagogique ; pour un praticien expérimenté, c'est un point de départ de référence qui évite des heures de débogage. Le support du fine-tuning partiel via LoRA (Low-Rank Adaptation) est particulièrement utile pour les modèles lourds comme Parakeet ou Voxtral, où un fine-tuning complet dépasse souvent les ressources disponibles. Ce lancement s'inscrit dans une année particulièrement dense pour l'audio IA. Les modèles de reconnaissance vocale ont bondi en qualité avec Whisper, Parakeet et Voxtral ; la synthèse vocale conversationnelle a franchi un cap avec Dia-1.6B de Nari Labs ; et Meta a publié le Perception Encoder Audiovisual (PE-AV), un encodeur multimodal capable de construire un espace d'embedding commun entre audio, vidéo et texte. La frontière technique avance vite, mais l'outillage pratique peine à suivre. smol-audio tente de réduire cet écart en standardisant les recettes d'entraînement autour de l'écosystème Hugging Face, qui s'impose progressivement comme infrastructure commune pour l'expérimentation sur ces modèles. Le dépôt devrait s'étoffer à mesure que de nouveaux modèles audio émergent.

UELe dépôt couvre Voxtral, le modèle audio de Mistral (entreprise française), et permet aux développeurs européens d'adapter ces modèles à des langues régionales ou des domaines métier sans infrastructure coûteuse.

OutilsTuto
1 source
15 prompts ChatGPT (et Grok) que vous devez absolument connaître sur Android
1368Le Big Data 

15 prompts ChatGPT (et Grok) que vous devez absolument connaître sur Android

La France figure dans le top 5 mondial des pays consommateurs d'intelligence artificielle conversationnelle, avec 44 % des actifs qui utilisent régulièrement des outils comme ChatGPT, Grok ou Gemini. Pourtant, malgré plus de trois ans d'existence de ces assistants, la majorité des utilisateurs s'en servent uniquement pour de la rédaction basique. Un article publié en avril 2026 recense 15 usages concrets de ces outils sur Android, illustrant à quel point un smartphone peut devenir une station de travail à part entière grâce à des instructions bien formulées. Parmi les cas présentés : résumer une newsletter dense en points clés lisibles en une minute, transformer des notes brutes en e-mail professionnel, apprendre un concept complexe via une explication adaptée à l'écran mobile, ou encore identifier une recette à partir des ingrédients disponibles en photographiant son réfrigérateur. L'intérêt de ces usages dépasse le simple gain de temps. En formulant des contraintes précises dans les prompts, "fais tenir la réponse sur un seul écran", "donne la transcription phonétique", "adapte le format pour lecture rapide sur smartphone", l'utilisateur obtient des réponses calibrées pour la mobilité, là où des outils classiques comme Google Traduction butent sur le contexte ou les nuances culturelles. Ce type d'usage transforme l'IA générative en couche d'intelligence transversale superposée aux applications existantes : agenda, messagerie, cuisine, apprentissage, préparation d'entretiens professionnels ou situations sociales délicates. Pour les professionnels en déplacement constant, l'impact est immédiat et mesurable. Ce recensement de prompts s'inscrit dans une tendance plus large : après une phase d'adoption centrée sur le texte et la bureautique, les utilisateurs avancés cherchent désormais à exploiter les capacités multimodales des IA, vision, audio, raisonnement contextuel, directement depuis leur mobile. Les grands acteurs du secteur, OpenAI avec ChatGPT, Google avec Gemini et xAI avec Grok, se livrent une concurrence directe sur ce terrain de l'assistant personnel mobile, chacun enrichissant ses applications avec des fonctionnalités vocales, visuelles et d'intégration système. À mesure que ces outils gagnent en précision et en rapidité d'exécution sur les appareils Android, la question n'est plus de savoir si l'IA peut remplacer certains gestes du quotidien, mais à quelle vitesse les usages vont se normaliser au-delà du cercle des early adopters.

UELa France est citée dans le top 5 mondial de l'adoption de l'IA conversationnelle avec 44 % des actifs utilisateurs réguliers, rendant ces pratiques directement pertinentes pour les professionnels français en mobilité.

OutilsTuto
1 source
ByteDance, Zhipu AI et Alibaba figurent dans le top 10 des entreprises d'IA les plus influentes de 2026 selon TIME
1369TechNode 

ByteDance, Zhipu AI et Alibaba figurent dans le top 10 des entreprises d'IA les plus influentes de 2026 selon TIME

Le magazine TIME a publié son classement des dix entreprises d'intelligence artificielle les plus influentes de 2026. Contrairement aux palmarès habituels centrés sur les performances des modèles, cette liste met en avant les acteurs qui façonnent l'industrie par leur impact global sur les trajectoires technologiques, les applications industrielles et la société. Les entreprises retenues sont ByteDance, Amazon, Zhipu AI, OpenAI, Alphabet, Meta, Anthropic, Alibaba, Mistral AI et Hugging Face. Ce classement souligne une évolution majeure dans l'équilibre mondial du secteur : trois entreprises chinoises figurent dans le top 10, soit ByteDance, Zhipu AI et Alibaba. C'est un signal fort de la montée en puissance de l'écosystème IA chinois sur la scène internationale, au-delà des seuls marchés domestiques. La présence de Mistral AI, seule entreprise européenne du classement, rappelle quant à elle les ambitions du Vieux Continent dans cette course. Ce palmarès intervient dans un contexte de compétition intense entre les États-Unis et la Chine pour la domination de l'intelligence artificielle, alors que les gouvernements des deux pays investissent massivement dans ce secteur stratégique. La sélection de TIME, qui privilégie l'impact sociétal et industriel à la pure performance technique, reflète une maturité croissante du débat public sur l'IA : il ne s'agit plus seulement de savoir quel modèle est le plus puissant, mais quels acteurs redessinent concrètement l'économie et les usages numériques à l'échelle mondiale.

UEMistral AI, seule entreprise européenne du top 10 de TIME, illustre à la fois la reconnaissance internationale de l'IA européenne et son retard relatif face aux géants américains et chinois.

BusinessOpinion
1 source
Créer des agents Strands avec les modèles SageMaker AI et MLflow
1370AWS ML Blog 

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil
1 source
Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
1371MarkTechPost 

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib. La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

RecherchePaper
1 source
Mend.io publie un cadre de gouvernance de la sécurité IA couvrant inventaire des actifs, niveaux de risque et chaîne d'approvisionnement
1372MarkTechPost 

Mend.io publie un cadre de gouvernance de la sécurité IA couvrant inventaire des actifs, niveaux de risque et chaîne d'approvisionnement

La société Mend.io, spécialisée en sécurité applicative, vient de publier un guide pratique intitulé "AI Security Governance: A Practical Framework for Security and Development Teams". Ce document s'adresse directement aux responsables AppSec, chefs d'équipes ingénierie et data scientists confrontés à une prolifération incontrôlée des outils d'IA au sein de leurs organisations. Le cadre propose quatre piliers concrets : un inventaire exhaustif des actifs IA, un système de classification des risques en trois niveaux, une gestion de la chaîne d'approvisionnement des modèles, et un modèle de maturité progressif. Le système de scoring attribue à chaque déploiement IA une note de 1 à 3 sur cinq dimensions, sensibilité des données, autorité décisionnelle, accès systèmes, exposition externe et origine dans la chaîne d'approvisionnement, pour un total entre 5 et 15. Un score de 5 à 7 place l'actif en Tier 1 (revue standard), 8 à 11 en Tier 2 (audits comportementaux trimestriels), et 12 à 15 en Tier 3, qui impose une évaluation complète, une supervision continue et un plan de réponse aux incidents opérationnel avant tout déploiement. Ce framework répond à un problème devenu critique dans presque toutes les grandes entreprises : les outils d'IA entrent en production bien avant que les équipes sécurité n'en soient informées. Un développeur installe GitHub Copilot, une équipe produit intègre discrètement un modèle tiers dans une branche de fonctionnalité, un analyste interroge un LLM externe pour ses rapports. Résultat : des modèles traitent des données sensibles et prennent des décisions réelles sans aucun contrôle formalisé. Mend insiste sur un point souvent négligé : le niveau de risque d'un modèle peut passer brutalement du Tier 1 au Tier 3 sans que son code change, simplement parce qu'on lui a accordé un accès en écriture à une base de données de production ou qu'on l'a exposé à des utilisateurs externes. Le guide exige aussi d'appliquer le principe du moindre privilège aux systèmes IA exactement comme aux utilisateurs humains : clés API à portée restreinte, accès en lecture seule par défaut, et filtrage des sorties pour les données régulées comme les numéros de sécurité sociale, les cartes bancaires ou les clés d'API. Le document s'inscrit dans une tendance plus large qui voit la sécurité logicielle traditionnelle s'adapter à l'ère des modèles de fondation. Mend étend notamment le concept de SBOM (Software Bill of Materials) en introduisant un "AI-BOM", qui documente non seulement les dépendances logicielles, mais aussi les datasets d'entraînement, les entrées de fine-tuning et l'infrastructure d'inférence. Face à des outils comme OpenAI, Google Gemini, Notion AI ou Codeium désormais omniprésents dans les workflows professionnels, l'enjeu est de normaliser une gouvernance qui reste encore absente dans la majorité des organisations. Le code généré par IA est traité comme une entrée non fiable, soumise aux mêmes analyses SAST, SCA et détection de secrets que le code humain, un changement de posture qui pourrait redéfinir les standards de l'industrie dans les prochains mois.

UECe cadre de gouvernance par niveaux de risque peut aider les entreprises européennes à structurer leur mise en conformité avec l'AI Act, qui impose une classification similaire des systèmes d'IA selon leur niveau de risque.

SécuritéOpinion
1 source
Jailbreak et Prompt Injection : comment les hackers piratent les IA
1373Le Big Data 

Jailbreak et Prompt Injection : comment les hackers piratent les IA

Les intelligences artificielles génératives sont désormais exposées à deux catégories d'attaques bien documentées : le jailbreak et la prompt injection. Le jailbreak consiste à contourner les règles de sécurité intégrées dans un modèle de langage, ces filtres conçus pour empêcher la génération de contenus illégaux, haineux ou dangereux. La prompt injection, elle, introduit des instructions malveillantes directement dans l'entrée du modèle, en exploitant le fait que les LLM ne distinguent pas naturellement une donnée d'une commande. Microsoft et OpenAI ont tous deux documenté de nombreux cas réels où des séquences de messages soigneusement construites, parfois sous forme de jeux de rôle ou de formulations persuasives, ont suffi à faire contourner ses garde-fous à un modèle. La prompt injection prend deux formes : directe, via le champ de saisie de l'utilisateur, ou indirecte, dissimulée dans un document externe lu par l'IA, comme un e-mail ou une page web. Ces vulnérabilités cessent d'être des curiosités techniques dès lors que les IA pilotent des systèmes critiques en entreprise. Un modèle compromis peut exfiltrer des données confidentielles, exécuter des commandes non autorisées ou propager des contenus nuisibles à grande échelle. La dangerosité tient en grande partie à l'asymétrie de l'attaque : ces techniques sont faciles à lancer, ne nécessitent aucune modification du code source, mais restent difficiles à détecter en temps réel. Les applications d'entreprise qui connectent des LLM à des bases de données, des messageries ou des outils internes représentent une surface d'attaque particulièrement exposée, car une injection indirecte peut s'activer sans intervention directe de l'attaquant sur l'interface. La combinaison des deux méthodes amplifie encore le risque : le jailbreak peut être le résultat d'une série de prompts injectés progressivement, poussant le modèle à ignorer ses instructions de base par accumulation. Ce phénomène s'inscrit dans un contexte plus large où la sécurité des systèmes IA accuse un retard structurel sur leur déploiement. Contrairement à la sécurité applicative classique, il n'existe pas encore de standard universel pour auditer ou certifier la robustesse d'un modèle face à ces attaques. Les chercheurs en sécurité, les équipes red team d'OpenAI, Google et Anthropic, ainsi que des cabinets indépendants, travaillent à établir des benchmarks fiables, mais la course entre attaque et défense reste ouverte. La vigilance humaine dans la supervision des sorties des modèles demeure, à ce stade, la mesure de protection la plus concrète disponible.

SécuritéOpinion
1 source
1374MIT Technology Review 

L'IA d'entreprise comme couche d'exploitation

La vraie ligne de fracture dans l'IA d'entreprise n'est pas celle que l'on suit habituellement dans les médias. Pendant que le débat public se focalise sur les benchmarks des modèles fondateurs, GPT contre Gemini, scores de raisonnement, gains marginaux de performance, l'avantage décisif se joue ailleurs : dans la couche opérationnelle, c'est-à-dire l'ensemble formé par les logiciels de workflow, la capture de données, les boucles de rétroaction et la gouvernance qui s'intercale entre les modèles d'IA et le travail réel. Des acteurs comme OpenAI et Anthropic vendent l'intelligence comme un service : on a un problème, on appelle une API, on obtient une réponse. Cette intelligence est généraliste, largement sans mémoire d'une session à l'autre, et de plus en plus interchangeable. À l'opposé, les organisations établies ont la possibilité de traiter l'IA comme une couche opérationnelle permanente : chaque exception, chaque correction, chaque validation humaine devient un signal d'apprentissage, et l'intelligence s'améliore à mesure que la plateforme absorbe davantage de travail. Ce modèle inverse la relation traditionnelle entre humains et machines. Dans une organisation de services classique, les opérateurs utilisent des logiciels pour effectuer un travail d'expert : la technologie est le médium, le jugement humain est le produit. Une plateforme pensée nativement pour l'IA renverse cette logique : le système ingère un problème, applique la connaissance accumulée du domaine, exécute de manière autonome ce qu'il peut traiter avec une haute confiance, et renvoie vers des experts humains uniquement les sous-tâches qui requièrent un jugement que le système ne maîtrise pas encore. Cette inversion n'est pas qu'un simple redesign d'interface, elle exige une matière première que les startups ne peuvent pas fabriquer rapidement : des données opérationnelles propriétaires, une large base d'experts dont les décisions quotidiennes génèrent des signaux d'entraînement, et une connaissance tacite accumulée sur des années quant à la façon dont le travail complexe se fait réellement. C'est là où réside le véritable enjeu stratégique de la décennie. Le récit dominant affirme que les startups agiles vont surpasser les acteurs établis en construisant des systèmes AI-native from scratch. Si l'IA était avant tout un problème de modèles, cette thèse tiendrait. Mais dans beaucoup de secteurs d'entreprise, c'est un problème de systèmes, intégrations, permissions, évaluation, gestion du changement, où l'avantage revient à ceux qui sont déjà ancrés dans des workflows à fort volume et à forts enjeux. La société Ensemble illustre cette approche avec une stratégie de "distillation de connaissance" : transformer l'expertise tacite et périssable des meilleurs opérateurs en signaux réutilisables, puis réinjecter ces résultats dans les workflows pour que le système continue à progresser. Les ingrédients existent déjà chez les acteurs historiques ; la question est de savoir qui saura les convertir en avantage compétitif durable avant que la fenêtre ne se referme.

BusinessOpinion
1 source
Neil Zeghidour (Gradium) : « Je gère les talents en IA comme des footballeurs »
1375La Tribune 

Neil Zeghidour (Gradium) : « Je gère les talents en IA comme des footballeurs »

Neil Zeghidour, directeur général de Gradium, a pris la parole lors de la conférence Tech For Future pour exposer la vision de sa société, récemment implantée dans l'écosystème parisien de l'intelligence artificielle. Sa mission : constituer une équipe de recherche d'élite pour développer des modèles vocaux capables de rivaliser avec les grandes plateformes américaines. Pour attirer ces profils rares, il revendique une approche singulière, comparant la gestion de ses chercheurs en IA à celle de footballeurs professionnels, des talents à recruter, fidéliser et placer dans les meilleures conditions pour performer. L'enjeu derrière cette métaphore est concret : le marché des chercheurs spécialisés en IA est d'une compétition féroce, avec une poignée d'experts mondiaux se disputés par des géants comme Google, OpenAI ou Meta, capables d'offrir des compensations considérables. Gradium parie sur la voix comme vecteur de différenciation, un segment en croissance exponentielle porté par les assistants conversationnels, l'accessibilité et les interfaces multimodales. Construire des modèles vocaux performants en Europe représente un défi technique autant qu'économique, mais aussi une opportunité stratégique face à la dépendance actuelle aux infrastructures et modèles américains. La démarche de Gradium s'inscrit dans une dynamique plus large : celle de la souveraineté numérique européenne en matière d'IA. Zeghidour insiste sur la nécessité d'entraîner des modèles localement, sur des données et des infrastructures européennes, pour ne pas rester tributaires des choix des acteurs américains. Dans un contexte où la régulation européenne (AI Act) pousse les entreprises à davantage de transparence et de contrôle, des acteurs comme Gradium tentent de transformer cette contrainte en avantage compétitif.

UEGradium, startup française basée à Paris, développe des modèles vocaux sur infrastructures européennes pour réduire la dépendance aux plateformes américaines, s'appuyant sur l'AI Act comme levier de différenciation compétitive.

BusinessOpinion
1 source
1376AI News 

Les développeurs citoyens ont désormais leur propre assistant

Emergent, une startup spécialisée dans la création d'applications par intelligence artificielle, a lancé Wingman, un agent autonome capable de prendre en charge et de piloter les outils du quotidien sans que l'utilisateur n'ait besoin de savoir coder. Selon l'entreprise, huit millions de fondateurs issus de 190 pays ont déjà utilisé ses produits pour concevoir des logiciels prêts à être déployés en production. Wingman se distingue des plateformes concurrentes par un système de "frontières de confiance" : certaines actions, comme la modification de données ou l'envoi de messages à des groupes, sont automatiquement suspendues jusqu'à validation humaine, tandis que les tâches courantes s'exécutent de façon autonome en arrière-plan. La plateforme s'intègre nativement à WhatsApp, Telegram, iMessage, les e-mails, les agendas, les CRM et GitHub, sans qu'aucun appel API ni échange de clés ne soit nécessaire de la part de l'utilisateur. Les tarifs démarrent à 20 dollars par mois, avec une formule à 200 dollars pour un usage plus intensif. Ce lancement illustre une tendance de fond : démocratiser le développement logiciel auprès des fondateurs et entrepreneurs sans bagage technique. "La plupart des gens n'échouent pas à être productifs. Ils sont submergés par les petites tâches qui n'arrêtent pas d'arriver", résume Mukund Jha, cofondateur et PDG d'Emergent. En déléguant à un agent la gestion des flux de communication, la planification ou la mise à jour de données dans un CRM, Wingman promet de libérer du temps sur des opérations répétitives à faible valeur ajoutée. Le ton des réponses générées par l'agent est ajustable, afin qu'il ressemble davantage à un collaborateur de confiance qu'à un simple outil. Le moteur peut être alimenté par les modèles d'OpenAI ou d'Anthropic, ou par l'instance propriétaire d'Emergent pour réduire les coûts. Ce type de plateforme s'inscrit dans la vague du "vibe coding", où le langage naturel remplace l'écriture de code. L'idée est séduisante, mais soulève des questions que la communication d'Emergent esquive soigneusement. Le code généré repose sur des corpus de données scrappés sur internet, recombinés et partiellement modifiés pour correspondre aux besoins exprimés. Or, pour les fondateurs qui constituent le public cible, les aspects de sécurité et de fiabilité du code produit resteront largement opaques, y compris via la fonction d'audit de code intégrée à la plateforme. Des acteurs comme OpenClaw ou d'autres outils similaires peuvent convenir à des usages personnels ou exploratoires, mais leur adoption pour des applications à portée commerciale ou publique suppose une confiance aveugle dans des systèmes dont ni les biais ni les failles ne sont aisément auditables par des non-techniciens. C'est précisément là que se situe la tension centrale du marché des agents autonomes en 2026 : entre la promesse d'accessibilité universelle et les exigences réelles d'un logiciel robuste.

OutilsOutil
1 source
L'énigme de l'explosion des startups d'annotation de données
1377The Information AI 

L'énigme de l'explosion des startups d'annotation de données

Le secteur des startups spécialisées dans l'annotation de données et les environnements d'apprentissage par renforcement connaît une croissance spectaculaire, tant en chiffre d'affaires qu'en valorisation. Ces entreprises recrutent des experts en médecine, droit et ingénierie logicielle pour produire des données d'entraînement destinées aux grands modèles d'IA, allant jusqu'à recréer des copies fictives d'applications comme Salesforce ou Excel. Leurs contrats avec les grands laboratoires d'IA varient considérablement : des équipes individuelles ou des chercheurs négocient directement leurs propres accords, avec des montants allant de quelques centaines de milliers à plusieurs millions de dollars. Ce modèle permet à ces startups d'atteindre rapidement 10 millions de dollars de revenus annualisés en partant de zéro. Cette dynamique illustre à quel point les grands labs d'IA dépendent encore massivement de données humaines de haute qualité pour entraîner leurs modèles, malgré les promesses d'automatisation. Des acteurs comme Anthropic ont multiplié les partenariats avec différentes startups, tandis qu'OpenAI a opté pour une approche centralisée avec une équipe dédiée gérant les relations fournisseurs. Pour les professionnels recrutés, médecins ou juristes, ces missions représentent une source de revenus complémentaires significative, tandis que les startups bénéficient d'une croissance rapide sans avoir besoin de lourds investissements technologiques initiaux. Pourtant, le secteur présente une fragilité structurelle majeure : ces entreprises ne disposent d'aucun avantage concurrentiel durable. Leur modèle repose sur des contrats courts et fragmentés, sans fidélisation forte côté clients. La fragmentation même du marché, où chaque chercheur peut choisir son fournisseur, expose ces startups à une concurrence féroce et à une instabilité contractuelle chronique. À mesure que les techniques d'entraînement synthétique et d'auto-amélioration des modèles progressent, la fenêtre d'opportunité pour ces acteurs pourrait se refermer aussi rapidement qu'elle s'est ouverte, soulevant des questions sur leur capacité à pivoter ou à consolider leurs positions avant que la demande ne s'érode.

UELes professionnels européens qualifiés (médecins, juristes, ingénieurs) pourraient accéder à ces contrats d'annotation comme source de revenus complémentaires, mais le marché est structuré autour de laboratoires américains sans ancrage réglementaire ou économique particulier en France ou en UE.

BusinessOpinion
1 source
1378MarkTechPost 

Tutoriel Google ADK : pipeline multi-agents pour chargement de données, tests statistiques, visualisation et rapports en Python

Google a publié son Agent Development Kit (ADK), un framework Python open source permettant de construire des systèmes multi-agents capables de réaliser des analyses de données complexes de bout en bout. Un tutoriel détaillé illustre comment assembler un pipeline complet en Python, en utilisant Google ADK aux côtés de bibliothèques établies comme pandas, numpy, scipy, matplotlib et seaborn, ainsi que le modèle GPT-4o-mini d'OpenAI via l'interface LiteLLM. Le système s'articule autour d'un agent analyste central qui orchestre plusieurs agents spécialisés, chacun responsable d'une tâche précise : chargement des données, exploration statistique, tests d'hypothèses, transformations de tableaux, génération de visualisations et production de rapports. L'installation ne nécessite que quelques commandes pip, et l'accès à l'API est sécurisé dès le départ via des variables d'environnement ou les secrets Colab. Ce type d'architecture multi-agents représente un changement concret dans la façon dont les data scientists et les équipes analytiques peuvent automatiser leurs flux de travail. Plutôt que d'enchaîner manuellement des scripts disparates, un agent coordinateur distribue les tâches à des spécialistes, ce qui rend le pipeline modulaire, testable et extensible sans réécriture complète. L'utilisation d'un DataStore centralisé sous forme de singleton garantit que tous les agents partagent le même état et que les résultats intermédiaires restent accessibles tout au long du processus. Pour les entreprises qui manipulent régulièrement de grands volumes de données, ce modèle réduit la friction opérationnelle et ouvre la voie à des analyses reproductibles pilotées par des LLMs, sans dépendre d'une infrastructure lourde. L'annonce s'inscrit dans une tendance plus large : depuis début 2025, plusieurs acteurs majeurs ont lancé leurs propres frameworks d'agents IA, notamment Microsoft avec AutoGen, Anthropic avec son Model Context Protocol, et OpenAI avec ses Assistants API. Google ADK se distingue par son intégration native avec l'écosystème Google Cloud et sa compatibilité avec des modèles tiers via LiteLLM, ce qui le rend agnostique au fournisseur. Le tutoriel cible explicitement un usage en production, avec gestion des erreurs, sérialisation JSON robuste et sessions en mémoire via InMemorySessionService. La prochaine étape logique serait l'intégration avec des sources de données réelles, des bases de données SQL ou des API métier, transformant ce pipeline pédagogique en socle d'une véritable plateforme d'analyse autonome.

OutilsOutil
1 source
1379Le Big Data 

MyUnisoft : la protection des données au cœur du choix des logiciels comptables

Une enquête réalisée par OpinionWay pour le compte de MyUnisoft, éditeur français de logiciel comptable, révèle que 70 % des professionnels de l'expertise comptable utilisent désormais l'intelligence artificielle dans leur travail quotidien. Parmi eux, 70 % se tournent prioritairement vers ChatGPT, l'outil d'OpenAI, principalement pour la recherche d'informations expertes et le traitement de dossiers complexes. L'étude montre également que 83 % des décideurs du secteur placent la protection et la localisation des données au sommet de leurs critères de sélection d'un logiciel, devant le prix ou les fonctionnalités pures. L'ergonomie reste le critère numéro un pour 89 % des cabinets interrogés, tandis que 31 % des professionnels n'ont pas encore adopté l'IA, souvent par prudence ou par manque d'accompagnement. Grégoire Leclercq, dirigeant de MyUnisoft, souligne que cette transformation marque une prise de conscience collective des experts-comptables sur leur rôle de gardiens des données financières de leurs clients. Ces résultats traduisent un changement structurel dans la façon dont les cabinets d'expertise comptable évaluent leurs outils technologiques. La souveraineté des données n'est plus un argument marketing secondaire : c'est une barrière à l'entrée réelle. Les professionnels refusent désormais de dépendre de solutions dont l'hébergement serait soumis à des législations extra-européennes ou dont les flux de données resteraient opaques. Pour les éditeurs, cela signifie qu'un stockage local, certifié et transparent devient une condition non négociable pour rester dans la course. Parallèlement, l'usage massif de ChatGPT comme super-assistant documentaire confirme que l'IA ne remplace pas le comptable, mais comprime drastiquement le temps passé sur des tâches à faible valeur ajoutée, libérant de la bande passante pour le conseil. Le secteur de la comptabilité française entre dans une phase où l'automatisation des tâches basiques est considérée comme acquise, et où la compétition se déplace vers la capacité à transformer la donnée en aide à la décision stratégique. Les cabinets attendent de leurs éditeurs qu'ils franchissent un cap : passer du statut de fournisseur de logiciel fiable à celui de partenaire de performance. L'interopérabilité entre systèmes et la capacité à intégrer nativement des fonctionnalités d'IA, sans sacrifier l'ergonomie, deviennent les nouveaux axes de différenciation. MyUnisoft, qui se positionne explicitement sur la souveraineté numérique et l'hébergement français, publie cette étude dans un contexte de consolidation du marché des logiciels comptables, où les acteurs qui ne répondront pas à ces exigences risquent de perdre rapidement leur légitimité auprès d'une clientèle professionnelle de plus en plus avertie.

UELes cabinets d'expertise comptable français placent la souveraineté des données et l'hébergement local en tête de leurs critères de sélection logicielle, renforçant l'avantage concurrentiel des éditeurs français conformes au RGPD face aux solutions hébergées hors UE.

SociétéOutil
1 source
Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA
1380Le Big Data 

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper
1 source
Construire un runtime d'agents local-first sécurisé avec OpenClaw Gateway, skills et exécution contrôlée des outils
1381MarkTechPost 

Construire un runtime d'agents local-first sécurisé avec OpenClaw Gateway, skills et exécution contrôlée des outils

OpenClaw Gateway s'impose progressivement comme une solution de référence pour les développeurs souhaitant déployer des agents IA en environnement local, sans dépendance à une infrastructure cloud tierce. Le projet, distribué via npm sous le nom openclaw, s'installe en quelques commandes sur Node.js 22 et expose un serveur de contrôle sur le port 18789 en mode loopback, c'est-à-dire uniquement accessible depuis la machine locale. L'agent communique avec des modèles de langage via une couche de routage configurable, dans les exemples fournis, OpenAI GPT-4o-mini est utilisé comme modèle principal, et orchestre l'exécution d'outils et de compétences personnalisées (appelées « skills ») au travers d'un plan de contrôle centralisé. L'authentification aux APIs de modèles passe par des variables d'environnement, jamais par des secrets codés en dur, et le runtime dispose d'une interface de contrôle web optionnelle accessible via le chemin /openclaw. Ce type d'architecture répond à un besoin croissant dans l'industrie : faire fonctionner des agents autonomes dans des environnements contraints, isolés du réseau public, où la confidentialité des données et la maîtrise des appels aux modèles sont non négociables. Le binding en loopback empêche toute exposition accidentelle du gateway sur le réseau local ou internet, tandis que le mécanisme de timeout configurable sur l'outil exec (1 800 secondes par défaut) et la gestion propre des processus en arrière-plan permettent d'encadrer précisément ce que l'agent est autorisé à faire. Pour les équipes travaillant sur des workflows d'automatisation sensibles, traitement de documents confidentiels, pipelines DevOps internes, assistants métier, cette approche offre un cadre de sécurité que les solutions SaaS ne peuvent garantir par construction. La capacité à définir des skills structurées, découvrables et invocables de manière déterministe par l'agent constitue également un avantage notable pour la reproductibilité des comportements en production. OpenClaw s'inscrit dans une tendance plus large de «local-first AI», portée par des projets comme Ollama pour l'inférence locale ou LM Studio pour la gestion de modèles. Face aux préoccupations réglementaires croissantes autour du traitement des données personnelles, RGPD en Europe, diverses lois sectorielles aux États-Unis, et à la méfiance envers les dépendances cloud critiques, plusieurs startups et équipes d'ingénierie cherchent à rapatrier le cycle complet de raisonnement des agents sur leur propre infrastructure. OpenClaw se positionne sur ce segment en proposant une couche d'abstraction entre le code applicatif Python ou JavaScript et les runtimes de modèles, avec une configuration déclarative en JSON. La prochaine étape logique sera probablement l'intégration native de modèles open source via des backends comme Ollama, pour s'affranchir totalement des API propriétaires tout en conservant la rigueur du contrôle d'exécution.

UELe mode local-first et l'absence de dépendance cloud facilitent la conformité RGPD pour les équipes européennes traitant des données personnelles.

💬 C'est le genre de projet qui arrive au bon moment, quand les DPO commencent à bloquer systématiquement les intégrations SaaS IA dans les grandes boîtes. Le binding loopback par défaut et la définition des skills en JSON déclaratif, c'est exactement ce qu'il faut pour convaincre une équipe sécu que ton agent ne va pas exfiltrer des données sensibles par accident. Reste à voir si l'écosystème grossit assez vite avant qu'un acteur plus connu ne sorte la même chose avec dix fois les ressources derrière.

OutilsOutil
1 source
1382The Verge AI 

L'article sur l'IA n'a pas besoin d'illustrations générées par l'IA

Le New Yorker a publié un portrait de Sam Altman, PDG d'OpenAI, illustré par une image générée avec l'intelligence artificielle, signée de l'artiste David Szauder. L'illustration montre Altman entouré de visages flottants aux expressions diverses, certains à peine reconnaissables. La mention "Generated using A.I." figure en bas de page, dans une transparence qui n'est pas passée inaperçue dans le milieu de l'illustration professionnelle. Ce choix éditorial relance le débat sur l'utilisation de l'IA générative dans les médias de prestige. Pour les illustrateurs et artistes, voir une publication aussi établie que le New Yorker recourir à l'IA pour illustrer un article sur... le PDG d'OpenAI lui-même, représente une forme d'ironie doublée d'une menace concrète. Cela normalise le recours à ces outils dans des contextes où des artistes humains auraient traditionnellement été commissionnés, pesant directement sur leurs revenus et leur visibilité. David Szauder n'est pas un novice en la matière : il travaille depuis plus d'une décennie avec des processus d'art génératif et de collage vidéo, antérieurs aux outils commerciaux d'IA. Son profil brouille donc la frontière entre artiste établi et simple utilisateur d'IA. Ce cas illustre une tension croissante dans les rédactions : comment encadrer l'usage de l'IA dans la création visuelle, à qui en attribuer la paternité, et quand ce choix est-il justifié face à l'alternative humaine disponible ?

UELe recours à l'IA générative par des médias de prestige accentue la pression économique sur les illustrateurs européens et alimente le débat sur les droits d'auteur dans le cadre de l'AI Act.

💬 Illustrer un article sur Sam Altman avec de l'IA générative, c'est soit du second degré assumé, soit une erreur de jugement assez flagrante. Le vrai sujet, c'est que le New Yorker valide le geste, et quand une publication comme ça normalise le truc, les commandes perdues pour les illustrateurs ne sont plus une abstraction. Szauder a un vrai parcours d'artiste, d'accord, mais le signal envoyé, lui, est limpide.

ÉthiqueOpinion
1 source
1383Ars Technica AI 

Les modèles d'IA sont mauvais pour parier sur le football, Grok en tête

Une étude publiée cette semaine par la startup londonnienne General Reasoning révèle que les grands modèles d'IA de Google, OpenAI, Anthropic et xAI ont tous perdu de l'argent en pariant virtuellement sur les matchs de Premier League de la saison 2023-2024. Le rapport, baptisé "KellyBench", a soumis huit systèmes d'IA à une reconstitution virtuelle complète de la saison, en leur fournissant des données historiques détaillées sur chaque équipe et chaque rencontre. Les modèles avaient pour mission de construire des stratégies maximisant les rendements tout en gérant le risque, une tâche à laquelle tous ont échoué, le modèle Grok d'xAI s'illustrant particulièrement mal. Ce résultat met en lumière une limite structurelle des IA actuelles : leur incapacité à raisonner de manière fiable sur des problèmes complexes du monde réel sur de longues périodes. Là où ces mêmes systèmes excellent dans des tâches bien délimitées comme l'écriture de code ou la génération de texte, la prévision sportive exige une intégration de facteurs dynamiques, d'incertitudes cumulées et d'un jugement probabiliste soutenu que les modèles peinent à maintenir sur une saison entière. L'étude KellyBench s'inscrit dans un débat plus large sur les véritables capacités de raisonnement des LLM. Alors que les benchmarks traditionnels sont régulièrement saturés par les nouveaux modèles, General Reasoning cherche à concevoir des épreuves qui résistent dans le temps et mesurent des compétences cognitives authentiques. Les paris sportifs, imprévisibles par nature et impossibles à mémoriser par entraînement, constituent un terrain de test particulièrement révélateur des lacunes réelles de ces systèmes.

💬 Ça paraît anecdotique, mais c'est en fait un des benchmarks les plus honnêtes qu'on ait vus depuis longtemps : tu enlèves la possibilité de mémoriser les réponses pendant l'entraînement, et là les modèles se plantent dans les grandes largeurs. Ce que ça révèle, c'est pas qu'ils sont "mauvais au foot", c'est qu'ils tiennent pas sur la durée dès que le problème est dynamique et bruité. Grok en lanterne rouge, c'est la cerise.

RecherchePaper
1 source
Combiner Google Search, Google Maps et fonctions personnalisées dans un appel Gemini avec chaînes d'agents multi-étapes
1384MarkTechPost 

Combiner Google Search, Google Maps et fonctions personnalisées dans un appel Gemini avec chaînes d'agents multi-étapes

Google a annonce en mars 2026 une mise a jour majeure de son API Gemini permettant desormais de combiner dans un seul appel API des outils integres comme Google Search et Google Maps avec des fonctions personnalisees definies par le developpeur. Jusqu'ici, ces capacites devaient etre appelees separement, necessitant plusieurs requetes et une orchestration manuelle cote client. La mise a jour introduit egalement trois mecanismes cles : la circulation de contexte, qui preserve l'historique complet de chaque appel d'outil et de chaque reponse entre les tours de conversation ; les identifiants uniques de reponse d'outil, qui permettent de lier precisement chaque appel de fonction parallele a son resultat correspondant ; et le "Grounding with Google Maps", qui injecte des donnees de localisation en temps reel directement dans le raisonnement du modele. Les modeles concernes sont gemini-3-flash-preview pour les combinaisons d'outils et gemini-2.5-flash pour l'ancrage cartographique, les deux etant accessibles sans configuration de facturation. Cette evolution transforme la facon dont les developpeurs peuvent construire des agents IA autonomes. Auparavant, orchestrer plusieurs sources d'information, une recherche web, une donnee meteo via API tierce, et une localisation geographique, exigeait plusieurs allers-retours et une logique de coordination externe complexe. Desormais, un unique appel suffit pour que Gemini planifie, execute et synthetise des informations issues de sources heterogenes en une seule chaine de raisonnement. Pour les applications metier, assistants de voyage, outils de veille concurrentielle, agents de support client, cela reduit la latence, simplifie l'architecture et rend les systemes multi-outils beaucoup plus accessibles aux equipes de taille modeste. L'introduction des identifiants de reponse paralleles resout par ailleurs un probleme concret de fiabilite : quand plusieurs fonctions sont appelees simultanement, il etait auparavant difficile de garantir que chaque reponse correspondait bien a la bonne requete. Ces annonces s'inscrivent dans une competition intense entre Google, OpenAI et Anthropic pour imposer leur API comme la couche d'orchestration de reference pour les agents IA. OpenAI avait deja introduit le "parallel function calling" dans GPT-4 en 2023, et Anthropic a renforce les capacites d'outils de Claude tout au long de 2025. Google repond avec une integration native de son ecosysteme, Search et Maps etant des atouts considerables qu'aucun concurrent ne peut repliquer a l'identique. La prochaine etape probable est une extension de ce modele a d'autres services Google (Gmail, Calendar, Drive), transformant Gemini en un agent capable d'agir directement dans l'infrastructure numerique quotidienne des entreprises. La question qui demeure est celle du controle et de la transparence : a mesure que les chaines agentiques se complexifient, auditer ce qu'un modele a reellement fait, et pourquoi, devient un enjeu critique pour la confiance des utilisateurs professionnels.

OutilsOutil
1 source
Amazon Bedrock Projects : gérer les coûts de l'IA
1385AWS ML Blog 

Amazon Bedrock Projects : gérer les coûts de l'IA

Amazon a lancé une nouvelle fonctionnalité appelée Amazon Bedrock Projects, qui permet aux équipes techniques d'attribuer précisément les coûts d'inférence IA à des charges de travail spécifiques. Concrètement, chaque "projet" dans Bedrock constitue une frontière logique représentant une application, un environnement ou une expérimentation. Les développeurs associent des tags de ressources à ces projets et transmettent un identifiant de projet dans leurs appels API. Ces données remontent ensuite dans AWS Cost Explorer et AWS Data Exports, les outils de suivi financier d'Amazon Web Services, permettant de filtrer, regrouper et analyser les dépenses par dimension métier : application, équipe, environnement ou centre de coûts. La fonctionnalité est compatible avec les API OpenAI (Responses API et Chat Completions API), ce qui facilite l'intégration pour les équipes déjà habituées à ces standards. Les requêtes envoyées sans identifiant de projet sont automatiquement rattachées à un projet par défaut dans le compte AWS concerné. L'enjeu est direct pour les grandes organisations qui font tourner plusieurs applications IA en parallèle : sans attribution précise, impossible de savoir quelle équipe consomme quoi, ni d'effectuer des refacturations internes (chargebacks) ou d'investiguer des pics de dépenses inexpliqués. Bedrock Projects répond à ce besoin en donnant une visibilité granulaire sur la facture IA, département par département. Une équipe "CustomerExperience" peut ainsi être distinguée d'une équipe "DataScience", chacune avec son propre centre de coûts. Cela permet également de guider les décisions d'optimisation : identifier quels workloads sont disproportionnément coûteux par rapport à leur valeur métier, et agir en conséquence. Cette annonce s'inscrit dans une tendance plus large de maturité de la FinOps appliquée à l'IA. À mesure que les déploiements LLM passent du stade expérimental à la production à grande échelle, la gestion financière devient un enjeu stratégique autant que technique. AWS rejoint ainsi des préoccupations déjà bien présentes chez les DSI et les directeurs financiers, qui voient les budgets cloud IA gonfler rapidement sans toujours disposer des outils pour les piloter. La stratégie de tags recommandée par Amazon -- Application, Environment, Team, CostCenter -- reflète les pratiques standard de gouvernance cloud, mais appliquées désormais spécifiquement à la couche inférence. Les prochaines étapes logiques pourraient inclure des alertes budgétaires par projet ou des quotas d'utilisation, des mécanismes déjà existants dans AWS pour d'autres services et qui manquent encore à Bedrock Projects dans sa forme actuelle.

UELes organisations européennes utilisant AWS Bedrock peuvent désormais mieux contrôler et attribuer leurs coûts d'inférence IA, un enjeu croissant pour les DSI soumis à des contraintes budgétaires strictes.

OutilsActu
1 source
Google Vids monte en puissance : les modèles IA les plus récents pour créer une vidéo en un clic
1386Siècle Digital 

Google Vids monte en puissance : les modèles IA les plus récents pour créer une vidéo en un clic

Google a annoncé une mise à jour majeure de Google Vids, son outil de création vidéo intégré à Google Workspace, en déployant ses modèles d'intelligence artificielle les plus récents. La plateforme intègre désormais Veo 3.1, capable de générer des clips vidéo en 720p à partir d'une simple description textuelle. L'outil propose également la composition musicale automatique, la personnalisation d'avatars animés, la capture d'écran intégrée et une création de bout en bout à partir d'une idée initiale. Pour les entreprises et les équipes qui produisent du contenu régulièrement, cette mise à jour réduit considérablement le temps et les compétences techniques nécessaires à la production vidéo. Là où il fallait auparavant un outil de montage, des assets sonores et un opérateur formé, Google Vids promet de compresser ce workflow en quelques clics. La cible est clairement professionnelle : présentations internes, formations, communications corporate, ou contenus marketing légers, sans passer par une agence ou un logiciel spécialisé. Google positionne Vids comme le pendant vidéo de Google Slides dans l'écosystème Workspace, capitalisant sur sa base d'utilisateurs enterprise déjà captive. La montée en puissance de Veo, son modèle vidéo génératif, s'inscrit dans une compétition directe avec Sora d'OpenAI et Runway. En intégrant ces capacités directement dans Workspace plutôt qu'en produit autonome, Google mise sur l'effet d'adoption naturelle, là où ses concurrents doivent convaincre les utilisateurs de changer d'outil. La question reste de savoir si la qualité des rendus sera suffisante pour des usages professionnels exigeants.

UEGoogle Workspace étant massivement déployé dans les entreprises françaises et européennes, cette mise à jour impacte directement les équipes qui produisent du contenu vidéo dans cet écosystème.

OutilsOutil
1 source
Publicité dans l’IA : 63% des utilisateurs disent perdre confiance dans les réponses
1387Siècle Digital 

Publicité dans l’IA : 63% des utilisateurs disent perdre confiance dans les réponses

Une enquête Ipsos Consumer Tracker menée auprès de 1 085 adultes américains révèle que 63% des utilisateurs déclarent perdre confiance dans les réponses des assistants IA dès lors que celles-ci intègrent de la publicité. L'étude met également en lumière un fossé générationnel marqué : 49% des 18-34 ans se disent très familiers avec l'IA, contre seulement 15% des plus de 55 ans, ce qui illustre à quel point l'adoption reste concentrée sur les tranches d'âge jeunes. Ce chiffre de 63% est particulièrement significatif pour l'industrie, car il pointe une tension fondamentale entre monétisation et crédibilité. Les grands acteurs comme Google, OpenAI ou Microsoft misent sur l'intégration publicitaire pour rentabiliser leurs assistants IA, dont les coûts d'infrastructure restent colossaux. Or, si les utilisateurs perçoivent les réponses comme biaisées par des intérêts commerciaux, c'est l'utilité même du produit qui s'effondre, et avec elle la fidélisation. Cette défiance s'inscrit dans un contexte où la question de la monétisation de l'IA conversationnelle est devenue centrale. Après une phase d'adoption portée par la gratuité et la nouveauté, les plateformes cherchent désormais des modèles économiques viables. Le recours à la publicité, traditionnel sur le web, se heurte ici à une attente différente : les utilisateurs traitent les assistants IA comme des conseillers neutres, non comme des médias. Trouver un équilibre entre revenus publicitaires et perception d'objectivité sera l'un des défis majeurs des prochains mois pour l'ensemble du secteur.

SociétéOpinion
1 source
Les abonnés Claude doivent désormais payer pour utiliser OpenClaw
1388AI Business 

Les abonnés Claude doivent désormais payer pour utiliser OpenClaw

OpenClaw, le système d'agent personnel développé par Peter Steinberger, ne sera plus accessible gratuitement aux abonnés Claude d'Anthropic. Steinberger, qui avait initialement collaboré avec Anthropic pour intégrer son outil populaire, a décidé de migrer OpenClaw vers l'infrastructure d'OpenAI, rendant de facto payant l'accès pour les utilisateurs qui avaient jusqu'ici bénéficié d'une intégration native avec leur abonnement Claude. Ce changement affecte directement les utilisateurs d'OpenClaw qui comptaient sur leur abonnement Anthropic comme passerelle d'accès. Le départ vers OpenAI implique une rupture de la chaîne d'accès existante : ceux qui ne souhaitent pas migrer vers l'écosystème OpenAI devront soit payer séparément, soit chercher une alternative. Pour Anthropic, c'est la perte d'un outil tiers populaire qui valorisait son offre abonnement. OpenClaw s'est imposé comme l'un des agents personnels les plus utilisés dans l'espace des assistants IA, ce qui fait de ce basculement un signal fort sur la compétition entre plateformes pour attirer les développeurs d'outils tiers. La décision de Steinberger illustre la bataille que se livrent Anthropic et OpenAI pour capter l'écosystème applicatif gravitant autour des LLMs, un levier stratégique autant que commercial.

OutilsOpinion
1 source
Anthropic brille sur les marchés privés, mais SpaceX pourrait tout gâcher
1389TechCrunch AI 

Anthropic brille sur les marchés privés, mais SpaceX pourrait tout gâcher

Glen Anderson, président de Rainmaker Securities, dresse un tableau inédit du marché secondaire des actions privées : jamais l'activité n'a atteint un tel niveau, avec Anthropic comme valeur la plus recherchée par les investisseurs institutionnels et particuliers souhaitant prendre position avant une éventuelle introduction en bourse. Ce regain d'intérêt pour Anthropic traduit un rééquilibrage des convictions dans le secteur de l'intelligence artificielle générative. OpenAI, longtemps dominant sur ce marché secondaire, cède du terrain, signe que les investisseurs diversifient leurs paris et misent sur la concurrence directe entre les deux grands laboratoires américains. Pour les fonds et family offices qui ne peuvent pas accéder aux tours de financement primaires, ces échanges de gré à gré représentent la seule fenêtre d'entrée sur des actifs devenus stratégiques. L'ombre de SpaceX plane cependant sur cette dynamique. Une introduction en bourse imminente du groupe d'Elon Musk aspirerait d'importants volumes de capitaux, réorientant les flux aujourd'hui dirigés vers l'IA vers l'industrie spatiale et aérospatiale. Le marché secondaire des startups tech, encore en surchauffe, pourrait ainsi connaître un refroidissement brutal si l'IPO SpaceX venait à mobiliser les liquidités disponibles sur la place privée.

💬 Anthropic qui dépasse OpenAI sur le marché secondaire, ça dit quelque chose sur où les investisseurs placent leurs convictions en ce moment. Le truc SpaceX est réel par contre : une IPO Musk aspire tout, et les liquidités qui vont vers l'IA aujourd'hui peuvent se retrouver dans des fusées demain matin. Reste à voir si ça change vraiment la trajectoire d'Anthropic ou si c'est juste du bruit de marché.

BusinessOpinion
1 source
Malgré les suppressions massives, le clone de l'outil de code IA d'Anthropic a été dupliqué plus de 8 000 fois sur GitHub
1390The Decoder 

Malgré les suppressions massives, le clone de l'outil de code IA d'Anthropic a été dupliqué plus de 8 000 fois sur GitHub

Le code source de Claude Code, l'outil de programmation assistée par IA d'Anthropic, a été accidentellement rendu public par l'entreprise elle-même. Malgré des tentatives massives de suppression sur GitHub, le dépôt a été forké plus de 8 000 fois avant que les takedowns ne prennent effet, rendant la fuite pratiquement impossible à contenir. L'ampleur de cette fuite est potentiellement considérable pour Anthropic. Le code source d'un outil commercial propriétaire expose l'architecture interne, les choix d'implémentation et possiblement des détails sur les intégrations avec les modèles Claude — des informations que la concurrence (OpenAI, Google, Microsoft) peut analyser en détail. Pour les utilisateurs, la fuite ne présente pas de risque direct, mais elle affaiblit la position concurrentielle d'Anthropic sur le marché des assistants de développement, segment en forte croissance. Claude Code est l'un des outils phares d'Anthropic pour capter les développeurs professionnels, face à GitHub Copilot et Cursor. La startup, valorisée à plus de 60 milliards de dollars après ses dernières levées de fonds, mise sur ces outils pour monétiser ses modèles au-delà des API. Une fuite de ce type illustre les risques opérationnels croissants des entreprises d'IA qui gèrent simultanément des modèles, des produits grand public et des dépôts de code sensibles — et soulève des questions sur les processus internes de gestion des accès chez Anthropic.

BusinessOpinion
1 source
L'IA peut appuyer sur les boutons de votre Stream Deck à votre place
1391The Verge AI 

L'IA peut appuyer sur les boutons de votre Stream Deck à votre place

Elgato a lancé le 1er avril 2026 la version 7.4 de son logiciel Stream Deck, introduisant le support du Model Context Protocol (MCP). Cette mise à jour permet aux assistants IA — dont Claude d'Anthropic, ChatGPT d'OpenAI et G-Assist de Nvidia — de détecter et déclencher des actions configurées sur un Stream Deck à la demande de l'utilisateur. Concrètement, il suffit de taper ou dicter une instruction à son assistant IA préféré pour qu'il active le raccourci correspondant, sans toucher physiquement au périphérique. Pour les streamers, créateurs de contenu et professionnels qui utilisent le Stream Deck comme tableau de bord pour automatiser des tâches — changer de scène OBS, lancer une musique, envoyer un message — cette intégration ouvre une nouvelle couche d'interaction. L'utilisateur continue de configurer ses actions dans l'application Stream Deck comme avant ; le MCP vient simplement ajouter un canal de déclenchement vocal ou textuel via l'IA. Cela réduit la friction pour les flux de travail complexes où retenir l'emplacement de chaque bouton devient fastidieux. Le Model Context Protocol est un standard ouvert promu notamment par Anthropic pour permettre aux modèles de langage d'interagir avec des applications tierces de façon standardisée. Son adoption par Elgato illustre une tendance croissante : les fabricants de périphériques hardware intègrent directement des couches IA dans leurs outils, transformant des appareils physiques en surfaces contrôlables par langage naturel. Après les IDE, les navigateurs et les outils de productivité, c'est désormais le matériel grand public qui entre dans l'écosystème MCP.

OutilsOutil
1 source
Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
1392MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
Gradient Labs dote chaque client bancaire d'un gestionnaire de compte IA
1393OpenAI Blog 

Gradient Labs dote chaque client bancaire d'un gestionnaire de compte IA

Gradient Labs a dévoilé une solution d'intelligence artificielle destinée aux banques, permettant à chaque client de disposer d'un gestionnaire de compte virtuel disponible en permanence. La startup s'appuie sur les modèles GPT-4.1 et GPT-5 mini et nano d'OpenAI pour alimenter des agents capables d'automatiser l'intégralité des flux de support bancaire — de la gestion des réclamations aux opérations courantes — avec une latence réduite et un niveau de fiabilité élevé. Pour les établissements bancaires, l'enjeu est considérable : le service client représente l'un des postes de coût les plus lourds du secteur, et la qualité de l'expérience client reste un facteur clé de fidélisation. En déployant des agents IA capables de traiter les demandes de millions de clients simultanément, Gradient Labs promet de démocratiser l'accès à un accompagnement personnalisé — jusqu'ici réservé aux clients fortunés disposant d'un conseiller dédié — tout en réduisant les délais de traitement et les coûts opérationnels pour les banques. Cette annonce s'inscrit dans une vague d'adoption accélérée de l'IA agentique dans les services financiers, où les établissements cherchent à automatiser les interactions à faible valeur ajoutée sans sacrifier la qualité. L'utilisation combinée de modèles de différentes tailles — GPT-4.1 pour les tâches complexes, les versions mini et nano pour les requêtes simples à haute fréquence — reflète une approche pragmatique d'optimisation coût-performance. Gradient Labs entre en compétition directe avec des acteurs comme Sierra, Intercom ou Salesforce Einstein, dans un marché du support IA pour la finance en pleine consolidation.

UELes banques européennes envisageant d'adopter ce type de solution devront s'assurer de sa conformité avec l'AI Act, qui classe les systèmes d'IA dans les services financiers comme à haut risque.

OutilsOutil
1 source
Anthropic face à un dilemme : son modèle Claude Mythos serait trop puissant pour être lancé
1394Siècle Digital 

Anthropic face à un dilemme : son modèle Claude Mythos serait trop puissant pour être lancé

Anthropic travaille sur un nouveau modèle d'intelligence artificielle baptisé Claude Mythos, décrit en interne comme le système le plus puissant jamais développé par l'entreprise. Selon des documents internes dont le contenu a été révélé par le magazine Fortune, ce modèle surpasse les capacités de tous les modèles Claude actuellement disponibles. Malgré ses performances exceptionnelles, Anthropic a décidé de ne pas le lancer publiquement, du moins pas dans l'immédiat. La raison de cette retenue est précisément la puissance du modèle : Mythos serait jugé trop capable pour être diffusé sans précautions supplémentaires. Ce type de décision illustre un dilemme croissant dans le secteur — plus les modèles progressent, plus les questions de sécurité et d'évaluation des risques deviennent centrales avant tout déploiement. Pour les utilisateurs professionnels et les entreprises qui dépendent des API d'Anthropic, cela signifie que la frontière technologique réelle est désormais en avance sur ce qui est commercialement accessible. Anthropic se distingue depuis sa fondation en 2021 par une approche dite de « sécurité d'abord », à rebours d'OpenAI dont elle est issue. La fuite de ces informations internes intervient dans un contexte de compétition acharnée entre laboratoires d'IA — OpenAI, Google DeepMind, Meta et xAI se livrant une course aux modèles toujours plus puissants. Le cas Mythos soulève une question stratégique : jusqu'où les labos peuvent-ils retenir leurs meilleurs modèles sans perdre du terrain commercial, et comment définir objectivement le seuil au-delà duquel un modèle est « trop dangereux » pour être publié ?

UELes développeurs et entreprises européens utilisant l'API d'Anthropic n'auront pas accès aux capacités les plus avancées de Mythos, creusant l'écart entre la frontière technologique réelle et les outils commercialement disponibles.

SécuritéActu
1 source
Passer de ChatGPT à Claude : comment transférer vos souvenirs
1395ZDNET AI 

Passer de ChatGPT à Claude : comment transférer vos souvenirs

Anthropic a lancé une nouvelle fonctionnalité pour Claude qui permet aux utilisateurs d'importer leurs souvenirs et préférences depuis d'autres assistants IA, notamment ChatGPT, afin de faciliter la transition vers son propre service. Concrètement, les utilisateurs peuvent exporter leurs données de mémoire depuis ChatGPT et les injecter dans Claude, qui reconstruit alors un profil personnalisé à partir de ces informations pour adapter ses réponses aux habitudes de chaque utilisateur. Cette capacité d'interopérabilité réduit le principal frein au changement de plateforme : la perte de contexte accumulé. Les utilisateurs qui ont passé des mois à affiner les préférences de leur assistant IA n'ont plus à recommencer à zéro, ce qui rend la concurrence entre les acteurs du marché plus dynamique et force chacun à se différencier sur la qualité plutôt que sur l'effet de verrouillage. La course à la rétention des utilisateurs s'intensifie entre Anthropic et OpenAI, qui dominent tous deux le marché des assistants IA grand public. OpenAI avait introduit la mémoire persistante pour ChatGPT Plus en 2024, et Anthropic développe depuis ses propres mécanismes de personnalisation. Cette migration facilitée pourrait accélérer les transferts d'utilisateurs vers Claude au moment où Anthropic cherche à élargir sa base, notamment après le succès de Claude 3.5 Sonnet et les investissements massifs levés pour tenir tête à OpenAI et Google.

UELes utilisateurs français et européens de ChatGPT peuvent désormais migrer vers Claude sans perdre leur contexte personnalisé accumulé.

💬 C'est le genre de feature qui semble anodine mais qui change tout dans la vraie vie. Passer d'un assistant à l'autre en gardant son contexte, ça lève le seul vrai frein que j'entendais partout, ce truc de "ouais mais j'ai tout paramétré dans ChatGPT". Reste à voir si la reconstruction du profil est fidèle, ou si Claude interprète les données à sa façon et te sort un alter ego légèrement différent de celui que t'avais construit.

OutilsOutil
1 source
J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts
1396ZDNET AI 

J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts

Claude, l'assistant IA d'Anthropic, est désormais capable de prendre le contrôle d'un ordinateur Mac pour y exécuter des tâches concrètes : rechercher des fichiers, rédiger et envoyer des e-mails, naviguer dans des applications, et accomplir des actions complexes sans intervention manuelle. Un test pratique réalisé récemment a démontré que cette fonctionnalité, baptisée « computer use », fonctionne de manière quasi irréprochable, malgré deux accrocs mineurs signalés lors de l'expérience. L'enjeu est considérable : il ne s'agit plus d'un simple chatbot répondant à des questions, mais d'un agent capable d'agir directement dans l'environnement de l'utilisateur. Pour les professionnels, cela ouvre la voie à une automatisation réelle des tâches répétitives — gestion de fichiers, traitement d'e-mails, navigation web — sans nécessiter de compétences techniques particulières. Cette évolution redéfinit ce qu'on entend par « assistant IA ». Anthropic a introduit cette capacité d'utilisation de l'ordinateur fin 2024, dans le cadre de la course aux agents autonomes qui mobilise aussi OpenAI, Google et Microsoft. L'objectif à terme est de créer des IA capables de mener des workflows entiers de façon indépendante. Les deux limitations observées lors du test rappellent toutefois que la technologie, prometteuse, reste en phase de maturation.

UELes professionnels français peuvent adopter cette fonctionnalité pour automatiser des tâches bureautiques répétitives, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
Google s'associe à Agile Robots dans sa nouvelle offensive en robotique IA
1397AI Business 

Google s'associe à Agile Robots dans sa nouvelle offensive en robotique IA

Google s'est associé à Agile Robots dans le cadre d'un nouveau partenariat stratégique qui verra les modèles d'IA Gemini intégrés directement dans le matériel robotique du fabricant allemand. Cette collaboration marque une nouvelle étape dans la volonté de Google de déployer ses technologies d'intelligence artificielle dans des environnements physiques réels, au-delà des applications logicielles. En embarquant Gemini dans des robots capables d'agir dans le monde réel, Google franchit un cap important vers une IA incarnée et opérationnelle. La course à la robotique dopée à l'IA s'intensifie, avec des acteurs comme OpenAI, Microsoft et Amazon qui multiplient eux aussi leurs investissements dans ce secteur en pleine effervescence.

UEAgile Robots, fabricant allemand, se retrouve au cœur de la course mondiale à la robotique IA grâce à ce partenariat, renforçant potentiellement la compétitivité d'un acteur européen face aux géants américains et asiatiques.

RobotiqueActu
1 source
Aider les développeurs à créer des expériences IA plus sûres pour les adolescents
1398OpenAI Blog 

Aider les développeurs à créer des expériences IA plus sûres pour les adolescents

OpenAI publie des politiques de sécurité adaptées aux adolescents pour les développeurs utilisant gpt-oss-safeguard, permettant de modérer les risques spécifiques à cette tranche d'âge dans les systèmes d'IA. Ces directives basées sur des prompts aident les équipes à construire des expériences plus sûres pour les mineurs.

UELes développeurs européens soumis au DSA et à l'AI Act doivent protéger les mineurs en ligne — ces directives OpenAI peuvent aider à se conformer aux obligations de sécurité pour les moins de 18 ans.

SécuritéActu
1 source
Les 100 outils IA les plus utilisés dans le monde en 2026
1399Blog du Modérateur 

Les 100 outils IA les plus utilisés dans le monde en 2026

Le rapport Andreessen Horowitz (6e édition) dresse le classement des 100 outils IA les plus utilisés dans le monde en 2026, élargissant son périmètre aux applications intégrant l'IA. ChatGPT confirme sa domination du marché, mais la concurrence monte en puissance face au leader d'OpenAI.

OutilsOutil
1 source
Guide : quelle IA utiliser à l'ère des agents autonomes
1400One Useful Thing 

Guide : quelle IA utiliser à l'ère des agents autonomes

Depuis l'émergence de ChatGPT, les guides d'utilisation de l'IA se succèdent — mais celui-ci marque une rupture fondamentale. Jusqu'à très récemment, « utiliser l'IA » signifiait dialoguer avec un chatbot dans une fenêtre de conversation. Aujourd'hui, il est devenu pratique d'utiliser l'IA comme un agent autonome : on lui confie une tâche, elle l'exécute en mobilisant des outils, en enchaînant des étapes, sans intervention humaine à chaque tour. Cette évolution oblige à penser l'IA à travers trois dimensions distinctes : les modèles (le cerveau), les applications (le produit qu'on utilise), et le harnais (le système qui donne au modèle la capacité d'agir). Les grands modèles du moment sont GPT-5.2/5.3 d'OpenAI, Claude Opus 4.6 d'Anthropic et Gemini 3 Pro de Google — les versions évoluant désormais à un rythme bien plus rapide qu'auparavant. Pour accéder à ces modèles avancés, il faut généralement débourser au moins 20 dollars par mois. Cette distinction modèle/application/harnais est devenue essentielle car le même modèle peut produire des résultats radicalement différents selon l'environnement dans lequel il opère. Claude Opus 4.6 utilisé dans une simple fenêtre de chat n'a rien à voir avec Claude Opus 4.6 intégré dans Claude Code, qui dispose d'un ordinateur virtuel, d'un navigateur web et d'un terminal, et peut autonomement rechercher, construire et tester un site web pendant des heures. De même, GPT-5.2 en mode conversation classique diffère fondamentalement de GPT-5.2 Thinking, capable de naviguer sur le web et de produire une présentation complète. Des outils comme Manus — récemment racheté par Meta — ou OpenClaw ont d'ailleurs émergé principalement comme des harnais, capables d'envelopper plusieurs modèles pour orchestrer des tâches complexes. La question « quel outil IA utiliser ? » est donc devenue bien plus difficile à répondre, car la réponse dépend désormais intimement de ce qu'on cherche à accomplir. Ce changement de paradigme s'inscrit dans une accélération brutale du secteur depuis fin 2024. Les performances des grands modèles se sont rapprochées au point que les écarts de capacité brute entre GPT, Claude et Gemini s'estompent — mais les harnais creusent de nouveaux écarts selon les usages. Pour un développeur, Claude Code offre une autonomie inédite sur des projets logiciels entiers. Pour un professionnel du conseil ou de la communication, un harnais orienté recherche et présentation sera plus pertinent. La compétition ne se joue plus seulement sur les benchmarks des modèles, mais sur la qualité de l'orchestration, la fiabilité des outils fournis et la confiance accordée à l'agent pour agir de manière autonome — ce qui soulève des questions nouvelles sur le contrôle, la sécurité et la responsabilité dans l'usage quotidien de ces systèmes.

OutilsOutil
1 source