Aller au contenu principal

Dossier OpenAI — page 29

1663 articles · page 29 sur 34

Toute l'actualité d'OpenAI : nouvelles versions de ChatGPT et GPT, stratégie produit, partenariats, controverses et décisions de Sam Altman.

Sarang Kulkarni : les enseignements du développement d'agents de recherche approfondie en production
1401InfoQ AI OutilsOutil

Sarang Kulkarni : les enseignements du développement d'agents de recherche approfondie en production

Sarang Kulkarni, architecte chez Thoughtworks, a présenté lors de l'Arc of AI Conference 2026 les enseignements tirés du déploiement en production de systèmes d'agents de recherche approfondie. Ces systèmes, appelés Deep Research Agentic Systems, sont des agents IA capables de conduire des investigations en plusieurs étapes sur des questions complexes : ils combinent raisonnement dynamique, récupération d'information en chaîne (multi-hop retrieval) et génération de rapports analytiques structurés, allant bien au-delà des chatbots classiques. Ces architectures multi-agents représentent un saut qualitatif pour les entreprises qui ont besoin d'automatiser des tâches de veille, d'analyse concurrentielle ou de recherche documentaire. Là où un LLM standard répond à une question en une passe, un agent de recherche profonde décompose le problème, interroge plusieurs sources, valide ses hypothèses et synthétise un rapport cohérent. Le retour d'expérience de Thoughtworks, cabinet de conseil technologique présent dans le monde entier, est particulièrement précieux car il aborde les réalités du déploiement en production : latence, fiabilité, coûts opérationnels et maintenance des workflows. L'intervention de Kulkarni s'inscrit dans une tendance de fond : après l'engouement pour les LLMs, l'industrie entre dans une phase d'industrialisation des agents IA. Des acteurs comme Google avec Deep Research, Perplexity ou OpenAI ont popularisé le concept, mais les pratiques de déploiement en entreprise restent peu documentées. Les conférences spécialisées comme Arc of AI 2026 deviennent des espaces clés pour partager ce savoir tacite, avant que les standards de l'ingénierie agentique ne se cristallisent.

UELes entreprises européennes déployant des agents IA en production peuvent s'appuyer sur ce retour d'expérience de Thoughtworks pour anticiper les défis de latence, fiabilité et coûts opérationnels.

1 source
Utilisateurs d’iPhone, vous pouvez maintenant précommander l’application Google AI Studio
1402Le Big Data 

Utilisateurs d’iPhone, vous pouvez maintenant précommander l’application Google AI Studio

Google a ouvert ce 21 mai 2026 les précommandes de l'application Google AI Studio sur l'App Store d'Apple, avec un lancement officiel programmé au 1er juillet prochain. L'application sera gratuite au téléchargement, même si certaines fonctionnalités avancées pourraient rester liées aux abonnements payants Gemini. Côté Android, la version Play Store était déjà disponible en préinscription depuis le 19 mai. Concrètement, l'application permet de créer, tester et prototyper des applications basées sur l'IA Gemini directement depuis un smartphone, en utilisant des commandes vocales ou du texte, sans écrire une seule ligne de code. Google met en avant plusieurs fonctionnalités orientées productivité mobile : synchronisation entre appareils, partage de projets simplifié, et une galerie communautaire regroupant des exemples créés par d'autres utilisateurs. Cette version mobile de Google AI Studio représente un changement de cible significatif pour l'outil, jusqu'ici réservé aux développeurs sur navigateur. En rendant le prototypage d'applications IA accessible depuis un iPhone ou un Android, Google élargit son audience bien au-delà des ingénieurs : designers, chefs de produit, entrepreneurs ou simples curieux peuvent désormais tester des idées en déplacement, sans environnement de développement. L'enjeu est de démocratiser la création d'outils IA, en réduisant la friction technique à son minimum. Pour l'industrie, cela accélère potentiellement les cycles d'idéation et de validation de produits, à condition que l'expérience mobile tienne ses promesses en termes de performance et de complétude par rapport à la version desktop. Cette annonce s'inscrit dans une stratégie d'expansion agressive de l'écosystème Gemini par Google, qui cherche à couvrir l'ensemble des points de contact numériques, navigateur, IDE, assistant, et maintenant smartphone. La firme de Mountain View fait face à une concurrence directe d'OpenAI, qui pousse ChatGPT sur mobile avec des fonctionnalités de plus en plus avancées, et d'Anthropic, qui développe ses propres interfaces pour Claude. Proposer un outil de prototypage IA natif sur iOS et Android est aussi une réponse à l'appétit croissant des professionnels pour des workflows IA nomades. Si le lancement du 1er juillet confirme les fonctionnalités annoncées, Google AI Studio mobile pourrait s'imposer rapidement comme un outil de référence pour quiconque souhaite expérimenter avec les modèles Gemini sans contrainte de lieu ni de configuration technique.

UELes professionnels et indépendants européens pourront prototyper des applications IA directement depuis leur smartphone dès le 1er juillet 2026, sans configuration technique ni environnement de développement.

OutilsOutil
1 source
Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte
1403MarkTechPost 

Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte

Un tutoriel récemment publié détaille la construction complète d'un système d'agent IA de type MCP (Model Context Protocol) en Python, depuis la configuration jusqu'à l'exécution de tâches réelles. Le système repose sur un serveur d'outils modulaire qui expose des capacités structurées : recherche web via DuckDuckGo, récupération de documents locaux par similarité TF-IDF, chargement de jeux de données et exécution de code Python. Le tout s'appuie sur l'API OpenAI avec le modèle gpt-4.1-mini, et mobilise des bibliothèques comme Pydantic pour la validation des schémas, scikit-learn pour la recherche vectorielle, et Rich pour l'affichage console. Les paramètres globaux limitent volontairement l'agent à trois appels d'outils maximum par tâche, cinq résultats web, et trois documents récupérés, afin de maintenir des performances prévisibles. Ce que ce tutoriel apporte de concret, c'est une réponse au problème central des agents IA en production : comment éviter qu'un agent appelle n'importe quel outil dans n'importe quel contexte. Le système implémente un routeur hybride qui combine des heuristiques simples et du raisonnement LLM pour décider dynamiquement quels outils rendre visibles selon la tâche en cours. Un agent qui répond à une question factuelle simple ne voit pas les outils d'exécution de code ; un agent qui analyse des données n'a pas accès à la recherche web si elle est inutile. Cette exposition sélective réduit les coûts d'inférence, améliore la traçabilité des décisions, et limite la surface d'erreur, trois enjeux critiques pour quiconque déploie des agents dans un environnement professionnel. Le Model Context Protocol, popularisé par Anthropic en novembre 2024 comme standard ouvert pour connecter les LLM à des outils externes, cherche à résoudre un problème de fragmentation : chaque développeur réinventait sa propre façon de brancher des modèles à des APIs ou des bases de données. Ce tutoriel illustre comment les principes MCP, notamment l'injection de contexte structuré, les politiques de routage et le contrôle d'accès aux outils, peuvent être implémentés sans framework propriétaire, en Python pur. À mesure que les systèmes multi-agents se multiplient dans les entreprises, cette approche d'exposition minimale et contrôlée des capacités s'impose comme une bonne pratique d'architecture, opposée aux agents monolithiques qui ont accès à tout et dont le comportement devient difficile à auditer ou à reproduire.

💬 Le routage sélectif des outils, c'est exactement ce qui manque à 90% des démos d'agents qu'on voit tourner. Un agent qui n'expose que ce dont il a besoin pour la tâche en cours, c'est pas glamour, mais c'est ce qui fait la différence entre un prototype et quelque chose qu'on peut vraiment auditer en prod. Reste à voir si les gens implémentent ça sérieusement ou si c'est encore du "best practice" qu'on lit le dimanche et qu'on oublie le lundi.

OutilsTuto
1 source
Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic
1404AWS ML Blog 

Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic

Amazon et Stream ont annoncé une intégration combinant le framework open-source Vision Agents de Stream avec Amazon Nova 2 Sonic, un modèle de fondation voix-à-voix disponible via Amazon Bedrock. Cette solution permet de construire des agents vocaux en temps réel capables d'être déployés en production en quelques minutes. Nova 2 Sonic prend en charge l'intégralité du pipeline vocal, entrée audio, détection de tour de parole, appel de fonctions et sortie audio, sans recourir à des services séparés de reconnaissance ou de synthèse vocale. Vision Agents, côté Stream, est un framework Python open-source proposant plus de 25 intégrations, des SDK clients pour React, iOS, Android, Flutter et React Native, et une architecture modulaire basée sur des décorateurs. Le réseau edge mondial de Stream complète le dispositif, avec des temps de connexion inférieurs à 500 ms et une latence audio typique de moins de 30 ms. L'enjeu est considérable pour les équipes qui développent des applications vocales : une conversation naturelle exige que la totalité du pipeline, capture du micro, traitement, génération de réponse, restitution audio, s'exécute en quelques centaines de millisecondes. Jusqu'ici, les développeurs devaient consacrer l'essentiel de leur temps non pas à l'IA elle-même, mais à la gestion des connexions WebRTC, aux logiques de reconnexion automatique, à la compatibilité navigateur et à la dégradation gracieuse en cas d'indisponibilité d'un service. Cette charge infrastructure forçait les équipes soit à investir plusieurs mois dans des solutions maison, soit à se contenter de produits clés en main trop rigides. L'intégration Vision Agents + Nova 2 Sonic absorbe cette complexité et libère les développeurs pour se concentrer sur les cas d'usage : support client, automatisation de workflows, actions pilotées par API. La course à l'agent vocal de qualité production s'est intensifiée ces derniers mois, avec OpenAI, Google et Mistral qui proposent chacun des modèles natifs voix-à-voix. Amazon positionne Nova 2 Sonic comme une réponse enterprise via Bedrock, en s'appuyant sur l'écosystème AWS et le réseau de partenaires comme Stream pour accélérer l'adoption. Le support multilingue natif et les capacités de function calling de Nova 2 Sonic ouvrent la voie à des agents vocaux connectés à des systèmes tiers, CRM, bases de données, outils métier, sans couche d'intégration supplémentaire. La prochaine étape pour cet écosystème sera probablement l'extension vers des agents multimodaux combinant voix et vision, une direction que Vision Agents anticipe déjà avec son nom et son architecture.

UELes développeurs et entreprises européens utilisant AWS Bedrock peuvent désormais déployer des agents vocaux en production sans infrastructure supplémentaire grâce à cette intégration.

OutilsOutil
1 source
Workshop Apple 2026 : machine learning et IA préservant la vie privée
1405Apple Machine Learning 

Workshop Apple 2026 : machine learning et IA préservant la vie privée

Apple a organisé début 2026 un atelier de deux jours intitulé "Workshop on Privacy-Preserving Machine Learning & AI", réunissant des chercheurs internes et des membres de la communauté scientifique internationale. L'événement avait pour objectif de faire avancer les recherches sur les techniques permettant de préserver la vie privée des utilisateurs tout en intégrant des capacités d'IA dans les produits grand public. Apple y a présenté ses travaux fondamentaux dans ce domaine, positionnant l'entreprise comme un acteur actif dans la définition de nouvelles normes pour l'IA respectueuse des données personnelles. Pour des centaines de millions d'utilisateurs d'iPhone, Mac et autres appareils Apple, ces recherches ont des implications directes : elles conditionnent la manière dont Siri, la suite Apple Intelligence et d'autres fonctionnalités futures pourront exploiter des données personnelles sans jamais les exposer à des serveurs tiers. La protection de la vie privée devient ainsi un avantage concurrentiel autant qu'une garantie technique, dans un secteur où les géants de la tech sont régulièrement critiqués pour leur collecte massive de données. Apple défend depuis des années une philosophie selon laquelle la vie privée est un droit humain fondamental, un discours qui prend une nouvelle dimension à mesure que l'IA générative s'installe dans le quotidien numérique. Face à OpenAI, Google et Meta qui s'appuient largement sur des données utilisateurs pour entraîner leurs modèles, Apple mise sur des approches comme l'apprentissage fédéré et le chiffrement différentiel pour se différencier. Cet atelier illustre sa volonté de structurer une communauté de recherche autour de cette vision.

UELes techniques d'apprentissage fédéré et de chiffrement différentiel présentées lors de cet atelier s'inscrivent directement dans le cadre du RGPD et pourraient alimenter les standards européens sur l'IA respectueuse de la vie privée.

ÉthiquePaper
1 source
Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé
1406MarkTechPost 

Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé

La fiabilité des grands modèles de langage en production est devenue une préoccupation d'ingénierie à part entière. Un guide technique récemment publié identifie cinq techniques de prompting avancées, conçues non pas pour améliorer les résultats en moyenne, mais pour garantir leur cohérence dans des systèmes critiques. Ces méthodes opèrent entièrement au niveau du prompt, sans nécessiter de fine-tuning, de modification du modèle ni d'infrastructure supplémentaire. Les cinq techniques présentées sont : le prompting par rôle (role-specific prompting), le prompting négatif, le prompting structuré JSON, les requêtes de raisonnement attentif (ARQ, Attentive Reasoning Queries) et l'échantillonnage verbalisé (verbalized sampling). L'auteur les démontre en comparant côte à côte des résultats obtenus avec et sans chaque technique sur les mêmes tâches, en utilisant le modèle GPT-4o-mini d'OpenAI via l'API. La principale valeur de ces approches réside dans leur capacité à corriger des modes de défaillance précis. Le prompting par rôle, qui consiste à attribuer un persona dans le prompt système comme « vous êtes un chercheur senior en sécurité applicative », ne modifie pas les faits que le modèle connaît, mais change les parties de sa connaissance pondérées en priorité. Dans un exemple sur les tokens de session stockés en localStorage, la réponse sans rôle décrit les risques de manière générale, tandis que la réponse avec rôle raisonne comme un attaquant, en détaillant ce qu'un adversaire ferait concrètement en cas d'injection XSS. Le prompting négatif précise explicitement ce que le modèle ne doit pas faire, évitant certains formats, biais ou glissements stylistiques indésirables. Le JSON prompting contraint la sortie à une structure définie, indispensable lorsque le résultat doit être parsé par un programme en aval. Enfin, ARQ et l'échantillonnage verbalisé forcent le modèle à expliciter son raisonnement ou à explorer plusieurs hypothèses avant de conclure, réduisant les erreurs silencieuses qui passent inaperçues dans les évaluations rapides. Ces travaux s'inscrivent dans une tendance plus large de formalisation du prompt engineering comme discipline à part entière. Longtemps considéré comme de l'empirisme artisanal, le prompting fait l'objet depuis 2023 d'une littérature de recherche croissante : des équipes chez Google DeepMind, Meta et des chercheurs indépendants ont publié des taxonomies et des benchmarks pour évaluer ces techniques de manière systématique. L'enjeu est de taille : à mesure que les LLMs s'intègrent dans des pipelines automatisés comme l'analyse médicale, la génération de code ou le traitement juridique, la différence entre un prompt qui « marche souvent » et un prompt qui « marche toujours » devient une question de risque opérationnel. Les développeurs qui maîtrisent ces cinq techniques peuvent déployer des systèmes plus robustes sans modifier les modèles eux-mêmes, ce qui représente un avantage économique et technique considérable dans un contexte où le fine-tuning reste coûteux et complexe.

LLMsTuto
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
1407Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !
1408Le Big Data 

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

GPT-5.5, le dernier modèle d'OpenAI, s'est mis à glisser des gobelins, gremlins, ratons laveurs, trolls, ogres et pigeons dans ses réponses, même lorsque le sujet n'a aucun rapport avec ces créatures. Le phénomène a été documenté publiquement le 28 avril 2026 par Arena.ai, qui a publié un graphique montrant l'évolution de l'utilisation de ces termes par les modèles GPT au fil du temps. La réaction d'OpenAI ne s'est pas fait attendre : des développeurs ont découvert dans Codex une instruction système associée à GPT-5.5 qui interdit explicitement au modèle de mentionner gobelins, gremlins, ratons laveurs, trolls, ogres ou pigeons, sauf si cela est strictement pertinent à la demande de l'utilisateur. Ce comportement, qualifié par plusieurs spécialistes d'« effondrement de mode », serait lié aux données d'entraînement du modèle : GPT-5.5 aurait développé un tic linguistique, répétant certains motifs de façon excessive et incontrôlée. Si quelques utilisateurs y voient une touche d'humour involontaire et presque attachante, la manière dont OpenAI a choisi de réagir suscite davantage de critiques. Sur X, un utilisateur a résumé l'incompréhension générale : face à un comportement aussi inattendu dans un système aussi avancé, la réponse n'a pas été de chercher la cause profonde du problème, mais simplement d'ordonner au modèle de ne plus mentionner ces créatures. D'autres interprètent l'instruction comme une hostilité ciblée envers les pigeons et les ratons laveurs, ce qui n'a fait qu'amplifier les moqueries en ligne. Ce bug illustre un problème fondamental que l'industrie de l'IA peine encore à résoudre : les grands modèles de langage restent des boîtes noires. Comme l'a formulé un utilisateur de Reddit, on peut identifier un comportement anormal et le corriger par instruction directe, mais expliquer précisément pourquoi il est apparu reste hors de portée. OpenAI n'est pas la première entreprise confrontée à des dérives comportementales inattendues dans ses modèles, et chaque incident de ce type relance le débat sur l'interprétabilité des systèmes d'IA et la solidité des processus d'entraînement. Sam Altman a choisi de désamorcer la situation avec humour, partageant une capture d'écran évoquant l'entraînement de GPT-6 avec « encore plus de gobelins », mais cette légèreté n'efface pas la question de fond : à mesure que ces modèles deviennent plus puissants et plus intégrés dans des outils professionnels comme Codex, leur imprévisibilité devient un risque difficile à ignorer.

UECe comportement imprévisible alimente le débat européen sur l'interprétabilité et la transparence des LLMs, un enjeu central de l'AI Act.

LLMsOpinion
1 source
LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs
1409Apple Machine Learning 

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Des chercheurs ont publié LaDiR (Latent Diffusion Reasoner), un nouveau cadre de raisonnement qui couple les grands modèles de langage existants à des modèles de diffusion latente. L'objectif : dépasser les limites inhérentes à la génération autoreégressive, en introduisant une étape de raffinement itératif dans un espace de représentation continu structuré, avant que le modèle ne produise sa réponse finale en texte. Le problème visé est fondamental. Lorsqu'un LLM génère token par token, il ne peut pas revenir modifier ce qu'il a déjà écrit, une contrainte qui pénalise les tâches de raisonnement complexes où la solution exige d'explorer plusieurs pistes et de corriger des erreurs en cours de route. LaDiR contourne cette limite en faisant "mûrir" le raisonnement dans un espace latent continu, via un processus de diffusion, avant de le transcrire en langage naturel. Cela permet une exploration plus diverse et un affinement global de la chaîne de pensée, impossible avec le décodage autorégressif classique. L'approche s'inscrit dans une vague de recherches cherchant à améliorer le raisonnement des LLMs au-delà du simple chain-of-thought (CoT), popularisé notamment par les modèles o1 d'OpenAI et R1 de DeepSeek. Contrairement aux méthodes qui allongent simplement le texte intermédiaire, LaDiR exploite l'espace continu des représentations pour structurer ce raisonnement de façon plus riche. La compatibilité avec des modèles existants, sans réentraînement complet, constitue un avantage pratique notable si les résultats se confirment sur des benchmarks de référence.

RecherchePaper
1 source
Mend publie un cadre de gouvernance de la sécurité IA : inventaire des ressources, classification des risques, sécurité de la chaîne d'approvisionnement et modèle de maturité
1410MarkTechPost 

Mend publie un cadre de gouvernance de la sécurité IA : inventaire des ressources, classification des risques, sécurité de la chaîne d'approvisionnement et modèle de maturité

Mend, spécialiste de la sécurité applicative, a publié un guide pratique intitulé "AI Security Governance: A Practical Framework for Security and Development Teams", destiné aux équipes de sécurité et de développement confrontées à l'essor incontrôlé des outils d'IA en entreprise. Le document part d'un constat précis : dans la quasi-totalité des organisations, les développeurs adoptent des outils comme GitHub Copilot ou des API tierces (OpenAI, Google Gemini) avant même que les équipes sécurité n'en aient connaissance. Le framework propose une réponse structurée en quatre piliers : inventaire des actifs IA, système de classification par niveau de risque, contrôle d'accès et traçabilité de la chaîne d'approvisionnement des modèles. Le coeur du dispositif repose sur un système de score allant de 5 à 15 points, évalué sur cinq dimensions : sensibilité des données, autorité décisionnelle, accès aux systèmes, exposition externe et origine dans la chaîne d'approvisionnement. Selon ce score, chaque déploiement IA est classé en Tier 1 (risque faible, revue standard), Tier 2 (risque modéré, audits comportementaux trimestriels) ou Tier 3 (risque élevé, évaluation complète, surveillance continue et plan de réponse aux incidents obligatoire). Ce cadre répond à un problème structurel croissant : le "shadow AI", c'est-à-dire les outils d'IA utilisés en production sans validation de la sécurité. Mend insiste sur le fait que la découverte de ces outils doit être non punitive, afin que les développeurs les déclarent sans crainte. Le framework souligne également que le niveau de risque d'un modèle peut changer radicalement sans modification de son code : connecter un modèle précédemment isolé à une base de données de production en écriture suffit à le faire passer du Tier 1 au Tier 3. Pour les sorties de modèles, le guide impose un filtrage actif des données réglementées (numéros de sécurité sociale, cartes bancaires, clés API) et exige que le code généré par IA soit traité comme une entrée non fiable, soumis aux mêmes analyses SAST, SCA et détection de secrets que le code écrit par des humains. Le troisième volet majeur concerne la chaîne d'approvisionnement des modèles. Mend introduit le concept d'AI Bill of Materials (AI-BOM), extension du SBOM traditionnel appliqué aux artefacts de modèles, aux jeux de données d'entraînement, aux entrées de fine-tuning et à l'infrastructure d'inférence. L'idée centrale est qu'intégrer un modèle tiers revient à hériter de la posture de sécurité de ceux qui l'ont entraîné. Ce framework s'inscrit dans un mouvement plus large de régulation de l'IA en entreprise, porté à la fois par des exigences réglementaires émergentes (EU AI Act, directives NIST) et par la multiplication des incidents liés à des modèles mal configurés ou mal cloisonnés. Mend positionne ce guide comme un point de départ accessible, non comme un programme de maturité avancée, ce qui le rend particulièrement pertinent pour les organisations qui débutent leur gouvernance IA.

UELe cadre s'aligne explicitement sur les exigences de l'EU AI Act en matière de classification des risques IA et de documentation (AI-BOM), offrant aux entreprises européennes une méthodologie concrète pour structurer leur conformité réglementaire.

SécuritéActu
1 source
Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)
1411Latent Space 

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Enregistré quelques jours après la conférence AIE Europe 2026, un épisode spécial du podcast Unsupervised Learning a réuni Jacob Effron et Shawn Wang, plus connu sous le pseudonyme "swyx", figure centrale de la communauté AI engineering, pour faire le point un an après leur premier épisode croisé avec Latent Space. Les deux animateurs ont passé en revue l'ensemble du paysage IA : infrastructure agentique, guerres du code, formation de modèles spécialisés, valorisations débridées, et ce que signifie vendre à des agents plutôt qu'à des humains. Parmi les points saillants : le playbook des "agent labs", qui consiste à démarrer avec des modèles frontier, à se spécialiser sur un domaine, puis à entraîner ses propres modèles une fois que les données, les volumes d'usage et les économies de latence le justifient. Des entreprises comme Cursor et Cognition sont citées comme exemples concrets de cette trajectoire. Ce que l'épisode documente, c'est la maturation accélérée d'un marché encore en phase d'exploration intensive. L'infrastructure IA a contraint ses acteurs à se réinventer chaque année, tandis que les entreprises applicatives ont mieux résisté à la volatilité des modèles en s'ancrant dans des workflows métier précis. La spécialisation de domaine, la distillation et l'amélioration du contexte ("context engineering") émergent comme leviers de différenciation réels, pas de simples arguments marketing. Le marché du coding IA, l'une des catégories à la croissance la plus rapide, illustre cette dynamique : Anthropic, OpenAI, Cursor et Cognition y ont tous prospéré, mais seule une poignée de noms s'impose comme gagnants réels, un mystère que l'épisode laisse en partie ouvert. La mémoire et la personnalisation sont identifiées comme le prochain grand vecteur de différenciation produit, dans un monde où les modèles récompensent encore trop la fréquence de mention plutôt que la pertinence contextuelle. L'épisode s'inscrit dans un moment charnière : les grands labos frontier tentent d'envahir les verticaux comme la finance et la santé, mais laissent encore de l'espace aux entreprises focalisées qui contrôlent le workflow et le "dernier kilomètre" utilisateur. Swyx se dit plus optimiste qu'avant sur l'open source et sur l'émergence de hardware non-Nvidia, soulignant que chaque accélération de 10x en inférence peut débloquer des expériences produit inédites. L'épisode a été enregistré avant l'annonce de l'accord Cursor-xAI, ce qui lui donne rétrospectivement une valeur de document pré-rupture, un instantané du marché juste avant que la consolidation ne s'accélère davantage. Le marché du coding est présenté comme le modèle préfigurant la trajectoire de toutes les autres verticales IA.

UELa conférence AIE Europe 2026 fournit le cadre géographique, mais l'analyse porte essentiellement sur des acteurs américains ; les startups et développeurs européens peuvent s'inspirer du playbook des 'agent labs' pour calibrer leur propre trajectoire de spécialisation.

BusinessOpinion
1 source
Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique
1412MarkTechPost 

Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique

Un tutoriel publié récemment détaille comment concevoir un système multi-agents de niveau production à l'aide du framework CAMEL, une bibliothèque Python open source dédiée à l'orchestration d'agents LLM. Le pipeline décrit met en scène cinq agents spécialisés aux rôles clairement délimités : un planificateur, un chercheur, un rédacteur, un critique et un rééditeur. L'ensemble repose sur GPT-4o d'OpenAI (via l'API), la validation de schémas avec Pydantic 2.7, et l'affichage structuré via Rich 13.7. Concrètement, le système génère des synthèses techniques documentées de façon autonome, en combinant recherche web en temps réel, échantillonnage par auto-cohérence et raffinement itératif piloté par critique interne. Ce type d'architecture multi-agents représente une évolution significative par rapport aux approches LLM classiques en pipeline simple. En distribuant les responsabilités entre agents distincts, chacun doté de contraintes de sortie précises (schémas JSON validés par Pydantic), le système réduit les hallucinations et améliore la cohérence des résultats. L'ajout d'un agent critique qui évalue la production de l'agent rédacteur, puis déclenche un agent rééditeur si le score est insuffisant, introduit une boucle de contrôle qualité autonome : le système s'auto-corrige sans intervention humaine. Pour les équipes produit ou data qui cherchent à industrialiser des workflows de génération de contenu ou d'analyse, cette approche offre un cadre reproductible, modulaire et extensible. CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) est un framework open source initié en 2023, qui a gagné en maturité avec des versions stables permettant l'intégration native d'outils web, de modèles multi-plateformes et de mécanismes de validation structurée. Le tutoriel s'inscrit dans un mouvement plus large d'industrialisation des agents LLM, où des acteurs comme LangChain, AutoGen de Microsoft ou CrewAI cherchent à standardiser la façon dont on compose des agents spécialisés. L'enjeu central est de passer du prototype expérimental au système fiable en production, ce qui exige précisément les mécanismes décrits ici : contrôle de schéma, gestion des erreurs, logique de retry et traçabilité des sorties. Les prochaines évolutions de ces frameworks devraient intégrer davantage de mémoire persistante entre agents et des mécanismes de délégation dynamique des tâches, rapprochant ces systèmes des premières formes d'automatisation cognitive véritablement autonome.

OutilsTuto
1 source
1413AWS ML Blog 

Commandes omnicanales avec Amazon Bedrock AgentCore et Amazon Nova 2 Sonic

Amazon a présenté une architecture complète pour construire des systèmes de commande vocale omnicanaux en s'appuyant sur deux de ses services cloud : Amazon Bedrock AgentCore, une plateforme dédiée au déploiement d'agents IA en production, et Amazon Nova 2 Sonic, un modèle de fondation speech-to-speech disponible via Amazon Bedrock. La solution permet à une application de traiter des commandes vocales en temps réel sur plusieurs points de contact simultanément, application mobile, site web et interface vocale, tout en maintenant le contexte conversationnel entre les échanges. L'infrastructure s'appuie sur AWS CDK pour le déploiement, le protocole MCP (Model Context Protocol) pour connecter l'agent IA aux services métier, et une série de services managés : Amazon Cognito pour l'authentification OAuth 2.0, API Gateway pour exposer les endpoints REST, AWS Lambda pour la logique métier, DynamoDB pour le stockage des profils et commandes, et AWS Location Services pour les recommandations géolocalisées de points de retrait. L'intérêt principal de cette architecture réside dans sa capacité à isoler chaque composant pour les faire évoluer indépendamment. AgentCore Runtime exécute chaque session utilisateur dans une microVM isolée, ce qui garantit qu'un pic de charge sur une session n'affecte pas les autres, un problème classique des systèmes vocaux en production. Le MCP standardise la communication entre l'agent et les services backend, ce qui permet de modifier ou d'étendre la logique métier sans réécrire le code d'intégration. Pour les équipes qui construisent des expériences de commande vocale à grande échelle, restauration rapide, retail, logistique, cette séparation claire entre la couche IA, le frontend et le backend réduit significativement la complexité opérationnelle et les risques de régression lors des mises à jour. La publication de cette solution s'inscrit dans une compétition intense autour des agents IA en production. Google, Microsoft et des acteurs comme Anthropic proposent leurs propres infrastructures agentiques, mais AWS mise sur l'intégration native avec son écosystème de services cloud existants comme différenciateur clé. Nova 2 Sonic, le modèle speech-to-speech au coeur du système, représente l'entrée d'Amazon dans les interfaces vocales conversationnelles en temps réel, un segment où OpenAI s'est imposé avec GPT-4o Voice. En publiant ce tutoriel complet avec une architecture de restaurant fictive comme backend d'exemple, Amazon cherche à accélérer l'adoption par les développeurs et à établir AgentCore comme standard de fait pour le déploiement d'agents IA sur AWS. Les prochaines étapes logiques incluront probablement l'extension à d'autres modalités et l'intégration avec des systèmes de caisse et d'inventaire existants.

OutilsOutil
1 source
Le directeur financier d'Anthropic exerce son influence dans l'ombre
1414The Information AI 

Le directeur financier d'Anthropic exerce son influence dans l'ombre

Krishna Rao, directeur financier d'Anthropic, s'est imposé comme l'une des figures les plus influentes de la startup en coulisses depuis son arrivée en 2024. Alors qu'Anthropic disposait déjà d'un accord exclusif avec Google pour ses besoins en cloud computing, Rao a rapidement plaidé pour une diversification des partenariats, ciblant plusieurs fournisseurs de puces et de cloud simultanément. Cette stratégie a été discutée notamment avec Byron Deeter, associé chez Bessemer Venture Partners, l'un des investisseurs d'Anthropic. Cette décision de multiplier les partenaires d'infrastructure représente un virage stratégique majeur pour Anthropic. Selon Deeter, c'est Rao qui a compris qu'Anthropic pouvait accélérer sa croissance bien plus vite en ne dépendant pas d'un seul fournisseur. Dans un secteur où l'accès aux GPU et à la puissance de calcul conditionne directement la vitesse de développement des modèles d'IA, diversifier ses sources d'approvisionnement est un avantage compétitif concret face à OpenAI ou Google DeepMind. Anthropic est une entreprise atypique, peuplée de chercheurs en sécurité de l'IA, d'un philosophe maison et d'une direction prête à affronter les plus grandes institutions. Dans ce contexte idéologique fort, Rao incarne le contrepoids pragmatique et financier, celui qui transforme les ambitions en infrastructure durable. Sa discrétion tranche avec le profil public de Dario Amodei, le PDG, mais son influence sur l'architecture commerciale et les alliances industrielles de l'entreprise semble déterminante pour sa trajectoire à long terme.

💬 Un CFO qui diversifie les fournisseurs GPU au lieu de rester sous perfusion Google exclusive, c'est exactement le genre de décision structurelle qui fait la différence à l'échelle. Bon, ça ne fait pas les grands discours sur la sécurité de l'IA, mais sans infrastructure solide, les ambitions de Dario Amodei restent du vent. Ce sont souvent les profils discrets comme Rao qui évitent les catastrophes opérationnelles.

BusinessOpinion
1 source
MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche
1415MarkTechPost 

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche

MiniMax, la startup chinoise d'intelligence artificielle connue pour ses modèles multimodaux, a lancé MMX-CLI, une interface en ligne de commande open source qui donne aux développeurs et aux agents IA un accès direct à l'ensemble de la plateforme MiniMax : génération de texte, d'images, de vidéos, de voix, de musique, d'analyse visuelle et de recherche web. L'outil, écrit en TypeScript avec le runtime Bun, s'organise en sept groupes de commandes, mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision et mmx search, couvrant des cas d'usage allant du chat multi-tour en streaming jusqu'à la synthèse musicale avec contrôle du tempo, du BPM, de la tonalité et des instruments. La commande mmx speech propose plus de 30 voix et accepte jusqu'à 10 000 caractères, tandis que mmx video s'appuie par défaut sur le modèle MiniMax-Hailuo-2.3 et permet de générer une vidéo à partir d'une image de départ via le flag --first-frame. L'enjeu principal est de simplifier radicalement l'intégration des capacités multimodales dans les workflows des agents IA. Aujourd'hui, des outils comme Cursor, Claude Code ou OpenCode sont puissants pour manipuler du texte et du code, mais n'ont pas de chemin natif pour générer des médias sans passer par des couches d'intégration supplémentaires, wrappers d'API, configuration serveur, gestion d'authentification séparée, ou protocoles comme le Model Context Protocol (MCP). MMX-CLI contourne tout cela : un agent peut invoquer une commande shell comme n'importe quel outil terminal, sans glue MCP. Pour les équipes qui automatisent des pipelines de création de contenu, de localisation audio ou de production vidéo, cela représente une réduction concrète du coût d'intégration et du temps de développement. Ce lancement s'inscrit dans une tendance plus large où les fournisseurs de modèles cherchent à devenir des plateformes complètes plutôt que de simples API de texte. MiniMax, qui a levé des centaines de millions de dollars et positionne son stack "omni-modal" face aux offres de Google, OpenAI et ElevenLabs, mise sur l'outillage développeur comme levier d'adoption. En exposant ses modèles via une CLI standardisée compatible avec les grands environnements de développement assistés par IA, la société cherche à s'ancrer dans les workflows quotidiens des ingénieurs avant que des concurrents ne comblent le même manque. La prochaine étape probable est une adoption croissante dans les pipelines d'automatisation, content factories, doublage automatique, génération de supports marketing, où la combinaison texte-image-vidéo-voix en une seule interface représente un avantage opérationnel réel.

💬 Pas de wrapper MCP, pas de config serveur, juste une commande shell pour avoir du texte, de la vidéo, de la voix, de la musique : sur le papier, c'est exactement le raccourci qu'il me manquait dans mes pipelines. Si tu automatises de la prod de contenu multimédia, l'intégration devient triviale du coup. La vraie question c'est la qualité des modèles MiniMax face à ElevenLabs ou Hailuo en conditions réelles.

OutilsOutil
1 source
Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice
1416MarkTechPost 

Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice

Microsoft a publié VibeVoice, un système de traitement de la parole combinant reconnaissance vocale avancée et synthèse vocale expressive, accompagné d'un tutoriel complet permettant de déployer l'ensemble du pipeline directement dans Google Colab. Le modèle ASR (reconnaissance automatique de la parole) pèse 7 milliards de paramètres et nécessite environ 14 Go de téléchargement lors de la première utilisation. Il s'appuie sur la bibliothèque Transformers de HuggingFace, avec un support spécifique via la classe VibeVoiceAsrForConditionalGeneration. Le tutoriel couvre l'installation des dépendances, le clonage du dépôt officiel depuis GitHub, et la configuration de l'environnement d'exécution, avant de plonger dans des cas d'usage concrets : transcription de podcasts avec identification des locuteurs, traitement audio par lots, génération de parole longue durée avec différents préréglages vocaux, et déploiement d'une interface interactive via Gradio. Un pipeline bout-en-bout speech-to-speech est également présenté, permettant de transformer directement une entrée audio en sortie vocale synthétisée. L'intérêt majeur de VibeVoice réside dans sa capacité à combiner dans un même système la diarisation des locuteurs, la transcription guidée par contexte et la synthèse vocale expressive multilingue, avec un exemple en allemand fourni dans les données de démonstration hébergées sur HuggingFace. Pour les développeurs et chercheurs, cela représente un gain concret : là où il fallait auparavant assembler plusieurs modèles spécialisés (un pour la transcription, un pour la détection des locuteurs, un pour la synthèse), VibeVoice propose une interface unifiée. La prise en charge native de device_map="auto" et du format float16 facilite également le déploiement sur GPU grand public sans optimisation manuelle. Le fait que le tutoriel soit conçu pour Colab rend le modèle accessible sans infrastructure locale dédiée. Microsoft s'inscrit avec VibeVoice dans une compétition intense autour des modèles de parole fondationnels, face à OpenAI Whisper, Meta SeamlessM4T ou encore Google USM. La publication simultanée d'un tutoriel détaillé et de jeux de données d'exemple sur HuggingFace suggère une stratégie d'adoption communautaire, cherchant à ancrer VibeVoice comme référence dans l'écosystème open source. L'intégration dans Transformers, bibliothèque centrale de l'industrie, est un signal fort : Microsoft ne veut pas que VibeVoice reste un projet isolé, mais qu'il devienne un composant standard dans les pipelines de traitement audio. Les prochaines étapes probables incluent des versions plus légères pour un déploiement embarqué, et une extension du support multilingue au-delà des langues déjà couvertes.

OutilsOutil
1 source
Le tokenmaxxing commence peut-être déjà à reculer
1417The Information AI 

Le tokenmaxxing commence peut-être déjà à reculer

Chez Meta, un phénomène insolite a récemment été mis en lumière par The Information : des employés se livrent à une compétition interne baptisée "Claudeonomics", un classement mesurant qui consomme le plus de tokens d'IA dans son travail quotidien. Le record récent appartient à un employé ayant utilisé 328,5 milliards de tokens sur une période de 30 jours, ce qui représente une facture potentielle de près de 2 millions de dollars aux tarifs publics d'Anthropic. Ce comportement, surnommé "tokenmaxxing", consiste à maximiser délibérément sa consommation d'IA pour signaler son implication et sa productivité à l'entreprise. Ce phénomène révèle une fracture croissante entre les géants technologiques ultra-capitalisés et le reste des entreprises. Si Meta peut absorber des dépenses d'IA colossales pour ses ingénieurs, la grande majorité des organisations ne dispose pas de tels budgets. Le tokenmaxxing risque ainsi de devenir un indicateur trompeur de performance, encourageant une consommation artificielle plutôt qu'une utilisation réellement productive des outils d'IA. Ce cas intervient dans un contexte où les entreprises tech cherchent à quantifier l'adoption interne de l'IA et à mesurer le retour sur investissement de leurs abonnements aux modèles comme Claude d'Anthropic ou GPT d'OpenAI. La course aux classements internes illustre une tension plus profonde : comment distinguer l'usage pertinent de l'IA d'une simple démonstration ostentatoire ? À mesure que les coûts des modèles diminuent, cette dynamique pourrait évoluer, mais pour l'instant, le tokenmaxxing reste un luxe réservé aux plus grands acteurs de la Silicon Valley.

SociétéOpinion
1 source
[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
1418Next INpact 

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Faire tourner un grand modèle de langage sur sa propre machine est désormais accessible à quiconque dispose d'un ordinateur suffisamment puissant. Des outils comme Ollama permettent d'installer et d'utiliser localement des LLM tels que Mistral, LLaMA ou Qwen, sans connexion internet et sans envoyer la moindre donnée à un serveur tiers. L'article propose un tutoriel pas à pas pour configurer cet environnement en local, accompagné d'un comparatif de performances entre deux configurations : un serveur équipé de 24 cœurs CPU sans GPU, et un autre disposant d'une carte graphique dédiée. Le résultat est sans appel : l'écart de vitesse d'inférence entre les deux setups est énorme, le GPU surclassant massivement le CPU seul pour ce type de charge de travail. L'enjeu central est la confidentialité des données. Utiliser ChatGPT, Claude ou Le Chat implique d'envoyer ses requêtes sur les serveurs d'OpenAI, Anthropic ou Mistral, où elles peuvent potentiellement servir à l'entraînement ou à l'amélioration des modèles. Pour les professionnels manipulant des données sensibles, documents juridiques, médicaux, financiers, code propriétaire, cette dépendance aux infrastructures cloud représente un risque réel. L'exécution locale supprime complètement ce vecteur : le modèle tourne sur la machine de l'utilisateur, les données n'en sortent jamais. C'est aussi une question d'autonomie : pas de quota d'API, pas d'abonnement mensuel, pas de coupure de service. Deux contraintes techniques conditionnent la faisabilité de cette approche. D'abord la mémoire : les poids d'un modèle de 7 milliards de paramètres occupent environ 4 à 8 Go selon le niveau de quantisation, tandis qu'un modèle de 70 milliards en requiert facilement 40 Go ou plus. Ensuite la puissance de calcul : un GPU accélère les opérations matricielles qui constituent le cœur de l'inférence, là où un CPU seul produit des réponses lentes et difficilement utilisables en pratique. Cette architecture locale n'est pas nouvelle, la communauté open source travaille dessus depuis la publication de LLaMA par Meta en 2023, mais elle est devenue beaucoup plus accessible grâce à des outils comme Ollama, LM Studio ou llama.cpp, qui abstraient la complexité technique. L'essor des modèles compacts et quantisés (3B, 7B, 14B paramètres) rend aujourd'hui possible une expérience satisfaisante même sur du matériel grand public, à condition de disposer d'une carte graphique avec suffisamment de VRAM.

UELes professionnels européens soumis au RGPD peuvent éliminer le risque d'envoi de données sensibles vers des serveurs américains en exécutant leurs modèles en local.

OutilsTuto
1 source
Qu'est-ce qui cloche chez les géants de l'IA ?
1419Ars Technica AI 

Qu'est-ce qui cloche chez les géants de l'IA ?

Sam Altman, PDG d'OpenAI, a publié l'an dernier un billet de blog intitulé "A Gentle Singularity", lu par près de 600 000 personnes. Sa thèse centrale : l'IA ne présente que des avantages, et tout ce qui s'est produit jusqu'ici n'est qu'un avant-goût d'un avenir encore plus radieux. Altman y décrit un scénario de croissance exponentielle : fabriquer un premier million de robots humanoïdes "à l'ancienne", puis laisser ces robots gérer l'intégralité de la chaîne d'approvisionnement, de l'extraction minière à la fabrication de puces, pour produire ensuite encore plus de robots et de centres de données. Des "boucles auto-renforçantes" qui, selon lui, vont transformer le rythme du progrès de façon radicale. Ce discours pose un problème fondamental : il évacue systématiquement les risques. Interrogé sur les inconvénients, Altman répond, en substance, que les humains s'adaptent vite. Cette posture n'est pas anodine venant du patron de l'entreprise la plus influente du secteur. Quand le PDG d'OpenAI présente une vision aussi unilatéralement optimiste à 600 000 lecteurs, il contribue à façonner la manière dont l'industrie, les investisseurs et les décideurs politiques perçoivent les risques liés à l'IA. L'absence de nuance n'est pas une légèreté rhétorique, c'est un choix éditorial avec des conséquences réelles sur les régulations et les priorités de recherche en matière de sécurité. Ce billet s'inscrit dans un pattern plus large chez les dirigeants des grandes entreprises d'IA : des déclarations qui ressemblent davantage à des arguments de vente qu'à une réflexion sincère sur l'avenir technologique. Altman n'est pas seul dans ce registre, mais il occupe une position particulièrement centrale. OpenAI reste l'acteur de référence du secteur, et chaque prise de parole de son PDG est amplifiée à l'échelle mondiale. La question que pose cet article dépasse le cas Altman : peut-on faire confiance aux architectes de cette révolution pour en évaluer lucidement les risques, ou leur intérêt économique rend-il cette lucidité structurellement impossible ?

UELes discours unilatéralement optimistes des dirigeants d'IA américains influencent directement les décideurs politiques européens et risquent de biaiser les priorités de l'AI Act vers l'innovation au détriment de la sécurité.

ÉthiqueOpinion
1 source
Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?
1420Le Big Data 

Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?

Une poignée de géants technologiques concentre aujourd'hui l'essentiel de la puissance de l'intelligence artificielle mondiale. Microsoft, en tête, a réalisé un pivot stratégique majeur en investissant plusieurs milliards de dollars dans OpenAI, le laboratoire créateur de ChatGPT. En échange de ce partenariat exclusif, la firme de Redmond intègre les modèles GPT dans l'ensemble de son écosystème sous la marque Copilot : Windows, la suite Office, GitHub et ses outils de cybersécurité. Son cloud Azure sert simultanément de plateforme d'entraînement pour OpenAI et d'infrastructure pour les entreprises souhaitant déployer leurs propres applications d'IA. Alphabet, maison mère de Google, incarne quant à elle une présence encore plus ancienne dans le domaine : en 2017, ses chercheurs ont publié "Attention Is All You Need", le papier fondateur de l'architecture transformer sur laquelle reposent aujourd'hui la quasi-totalité des grands modèles de langage. Nvidia, OpenAI, Meta, Amazon, Apple, Anthropic et d'autres acteurs complètent ce cercle restreint qui contrôle modèles, puces et infrastructure cloud. Ce niveau de concentration a des conséquences directes sur l'ensemble de l'économie numérique. En contrôlant à la fois les algorithmes et l'infrastructure, ces entreprises deviennent les principaux distributeurs d'IA pour des centaines de millions d'utilisateurs et pour les entreprises qui cherchent à automatiser leurs processus. Microsoft et Google, en particulier, transforment des logiciels déjà massivement adoptés en interfaces d'intelligence artificielle, rendant l'adoption quasi-transparente pour l'utilisateur final. Les entreprises qui souhaitent développer leurs propres solutions d'IA se retrouvent en grande partie dépendantes de l'infrastructure cloud de ces mêmes acteurs, renforçant ainsi leur position dominante sur toute la chaîne de valeur, de la recherche fondamentale jusqu'à la distribution commerciale. Cette domination est le fruit de décennies d'investissement massif dans la recherche et l'infrastructure. Google Finance cette transformation depuis les années 2010 via DeepMind et Google Brain, tandis que Microsoft a su reconvertir sa position de leader du logiciel d'entreprise en levier d'adoption de l'IA générative. La barrière à l'entrée est désormais astronomique : entraîner un grand modèle de langage compétitif nécessite des dizaines de milliers de GPU et des investissements se chiffrant en milliards de dollars, ce que seuls quelques acteurs peuvent se permettre. La question qui se pose pour la suite est double : comment les régulateurs, notamment en Europe avec l'AI Act, vont-ils encadrer cette concentration de pouvoir technologique, et quels nouveaux entrants, à l'image d'Anthropic ou Mistral, parviendront à s'imposer face à des géants qui ont pris plusieurs longueurs d'avance ?

UELa concentration du pouvoir IA entre quelques géants américains renforce la dépendance des entreprises européennes à des infrastructures cloud étrangères, un enjeu central de l'AI Act et une menace directe pour la souveraineté numérique de l'UE.

BusinessActu
1 source
Les chatbots IA progressent sept fois plus vite que les réseaux sociaux, mais restent quatre fois moins fréquentés
1421The Decoder 

Les chatbots IA progressent sept fois plus vite que les réseaux sociaux, mais restent quatre fois moins fréquentés

Le trafic vers les chatbots d'intelligence artificielle croît sept fois plus vite que celui des réseaux sociaux, mais reste quatre fois inférieur en volume total, selon une analyse publiée par Similarweb. Ces données portent sur les principales plateformes de conversation IA, dont ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic, et révèlent des différences notables entre ces deux catégories de services numériques, notamment dans les habitudes d'utilisation selon les appareils et les comportements des utilisateurs. Ce rythme de croissance exceptionnel illustre l'adoption massive et rapide des outils d'IA conversationnelle par le grand public, mais l'écart de volume avec les réseaux sociaux rappelle que ces derniers restent ancrés dans le quotidien numérique de milliards de personnes. Pour les acteurs du secteur tech, cela signifie que le marché de l'IA conversationnelle est encore loin de sa maturité et que les marges de progression restent considérables. La question des usages par appareil est particulièrement stratégique : les chatbots sont aujourd'hui davantage utilisés sur ordinateur, là où les réseaux sociaux dominent sur mobile. Cette dynamique s'inscrit dans un contexte de compétition intense entre les grandes plateformes d'IA, qui multiplient les mises à jour et les nouvelles fonctionnalités pour capter des parts de marché. Les réseaux sociaux, eux, ont bénéficié de deux décennies d'intégration dans les usages quotidiens. Si la trajectoire actuelle se maintient, l'écart de trafic entre les deux catégories pourrait se réduire significativement dans les prochaines années, à mesure que l'IA s'intègre dans davantage d'applications et de flux de travail professionnels.

SociétéOutil
1 source
Composants d'un agent de codage
1422Ahead of AI 

Composants d'un agent de codage

Les agents de codage comme Claude Code ou le Codex CLI d'OpenAI sont devenus des outils incontournables pour les développeurs, mais leur fonctionnement repose sur une architecture précise que peu d'articles détaillent. Un agent de codage n'est pas simplement un grand modèle de langage (LLM) auquel on pose des questions : c'est un LLM enveloppé dans une couche logicielle appelée "harness" (ou cadre agentique), qui orchestre les appels au modèle, gère les outils disponibles, maintient un état en mémoire et décide quand s'arrêter. Cette distinction est fondamentale : le modèle est le moteur, mais le harness est la transmission, le tableau de bord et les roues réunies. Un agent de codage comprend six composants principaux — la boucle de contrôle, la gestion du contexte, les outils (lecture/écriture de fichiers, exécution de code, recherche), la mémoire, la gestion des prompts et la continuité entre sessions longues. Ce cadre explique pourquoi Claude Code ou Codex semblent nettement plus capables que le même modèle sous-jacent utilisé dans une interface de chat ordinaire. La différence n'est pas dans les paramètres du modèle, mais dans le système qui l'entoure : la stabilité du cache de prompts, l'accès au contexte du dépôt Git, la boucle de feedback itérative après exécution du code, et la gestion de sessions qui peuvent durer des heures. Pour les développeurs et les équipes d'ingénierie, cela signifie que choisir un outil de codage assisté par IA revient autant à évaluer l'architecture du harness qu'à comparer les benchmarks des modèles. Un modèle plus puissant dans un harness médiocre produira des résultats inférieurs à un modèle modeste bien intégré. Il convient également de distinguer trois notions souvent confondues : le LLM classique génère des tokens ; le modèle de raisonnement est un LLM entraîné à produire des traces de réflexion intermédiaires et à s'auto-vérifier (à l'image de o1 ou de QwQ), ce qui le rend plus puissant mais plus coûteux à l'inférence ; l'agent, lui, est une boucle de contrôle qui appelle le modèle répétitivement dans un environnement, en mettant à jour son état à chaque itération. Le harness de codage est un cas spécialisé de harness agentique, orienté vers les tâches de génie logiciel — gestion du contexte de code, exécution, débogage itératif. Des systèmes comme Claude Code d'Anthropic ou Codex CLI d'OpenAI illustrent cette catégorie, et la tendance de fond est claire : les progrès les plus décisifs en IA appliquée ne viennent plus seulement des modèles eux-mêmes, mais de l'ingénierie des systèmes qui les entourent.

OutilsOpinion
1 source
Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming
1423MarkTechPost 

Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming

Z.AI a publié un tutoriel complet présentant les capacités avancées de son modèle GLM-5, conçu pour construire des systèmes agentiques prêts pour la production. Le guide couvre l'intégralité du cycle de développement : configuration via le SDK Z.AI (compatible avec l'interface OpenAI), réponses en streaming, mode de raisonnement approfondi (dit "thinking mode"), conversations multi-tours, appels de fonctions, sorties structurées, et construction d'un agent multi-outils complet. L'installation se fait via pip avec les paquets zai-sdk et openai, et l'authentification repose sur une clé API obtenue gratuitement sur z.ai. Dès les premières lignes de code, GLM-5 répond à des questions techniques — comme expliquer l'architecture Mixture-of-Experts en trois phrases — avec une consommation de tokens détaillée et un contrôle fin via les paramètres temperature et max_tokens. Ce qui distingue GLM-5 des modèles classiques est son mode de raisonnement enchaîné (chain-of-thought), qui expose le processus interne du modèle avant de fournir une réponse finale. Sur des problèmes logiques ou mathématiques — l'exemple du fermier avec 17 moutons dont "tous sauf 9 s'enfuient" illustre le piège classique de la lecture rapide — le modèle affiche séparément son raisonnement intermédiaire et sa conclusion. Cette transparence est particulièrement précieuse pour les équipes qui déploient des agents autonomes dans des contextes critiques : débogage plus facile, auditabilité améliorée, et meilleure confiance dans les décisions du modèle. Le streaming en temps réel des tokens, géré chunk par chunk, rend l'expérience utilisateur fluide même pour des réponses longues et complexes. GLM-5 s'inscrit dans la dynamique actuelle d'ouverture des modèles chinois à l'écosystème international. Z.AI, filiale de Zhipu AI — laboratoire issu de l'Université Tsinghua — positionne GLM-5 comme un concurrent direct aux modèles d'OpenAI et Anthropic, avec une compatibilité API volontairement calquée sur le standard OpenAI pour faciliter la migration. La prise en charge native du function calling et des sorties structurées permet d'intégrer GLM-5 dans des pipelines d'automatisation complexes sans couche d'adaptation. Alors que les entreprises cherchent à diversifier leurs dépendances vis-à-vis des fournisseurs américains, ce type de modèle — accessible, documenté, et compatible avec les outils existants — représente une alternative crédible pour les développeurs européens et asiatiques construisant des applications d'IA en production.

UEGLM-5 offre aux développeurs européens une alternative compatible OpenAI pour diversifier leurs dépendances vis-à-vis des fournisseurs américains, accessible gratuitement via une clé API.

LLMsTuto
1 source
Codex propose désormais une tarification plus flexible pour les équipes
1424OpenAI Blog 

Codex propose désormais une tarification plus flexible pour les équipes

OpenAI a annoncé l'ajout d'une option de facturation à l'usage pour Codex, son agent de programmation, disponible désormais pour les abonnés ChatGPT Business et Enterprise. Ce modèle tarifaire vient compléter les formules d'abonnement existantes et permet aux équipes de ne payer que ce qu'elles consomment réellement, sans engagement forfaitaire fixe. Ce changement facilite concrètement l'adoption de Codex dans les entreprises qui hésitaient à s'engager sur un abonnement avant d'évaluer leur usage réel. Les équipes de développement peuvent désormais tester l'outil à petite échelle, mesurer le retour sur investissement, puis augmenter progressivement leur consommation sans friction tarifaire. C'est particulièrement pertinent pour les grandes organisations où les déploiements se font par étapes et nécessitent des validations budgétaires successives. Codex s'inscrit dans la stratégie d'OpenAI pour conquérir le marché des outils de développement, en concurrence directe avec GitHub Copilot (Microsoft), Cursor et Claude d'Anthropic. La tarification à l'usage est devenue un standard dans ce secteur, les entreprises préférant une corrélation directe entre coût et valeur produite. Cette flexibilité tarifaire devrait accélérer la pénétration de Codex dans les équipes techniques enterprise, segment où la friction à l'adoption reste le principal frein.

UELes équipes de développement européennes abonnées à ChatGPT Business ou Enterprise peuvent désormais adopter Codex sans engagement forfaitaire, réduisant la friction budgétaire pour les DSI soumis à des cycles de validation stricts.

OutilsOutil
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
1425MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible
1426Google AI Blog 

Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible

Google a mis en disponibilité Veo 3.1 Lite, sa nouvelle version allégée de modèle de génération vidéo, en accès payant via l'API Gemini et en test gratuit sur Google AI Studio. Présenté comme le modèle de génération vidéo le plus économique de la gamme, il s'adresse aux développeurs et entreprises souhaitant intégrer la création vidéo IA dans leurs applications sans supporter les coûts de la version complète Veo 3.1. Ce lancement répond à une demande croissante de solutions vidéo IA accessibles pour les équipes produit et les startups. En proposant une alternative moins coûteuse, Google ouvre la génération vidéo à une base bien plus large de développeurs, au-delà des grandes entreprises capables d'absorber les tarifs premium. La disponibilité directe via l'API Gemini facilite l'intégration dans des pipelines existants. Veo 3.1 Lite s'inscrit dans la stratégie de Google de démocratiser ses outils d'IA générative face à la concurrence de Sora d'OpenAI et Runway. La famille Veo, lancée en 2024, monte progressivement en accessibilité après avoir ciblé initialement les partenaires enterprise. La phase de "paid preview" suggère une disponibilité générale prochaine, avec des tarifs définitifs à préciser.

UELes développeurs et startups européens peuvent désormais intégrer la génération vidéo IA dans leurs pipelines applicatifs à moindre coût via l'API Gemini.

OutilsOutil
1 source
76% des Américains ne font pas confiance à l’IA, malgré un usage en forte hausse
1427Siècle Digital 

76% des Américains ne font pas confiance à l’IA, malgré un usage en forte hausse

Selon une nouvelle enquête publiée en 2026, 76 % des Américains déclarent ne pas faire confiance à l'intelligence artificielle, alors même que son usage progresse significativement : seulement 27 % affirment ne jamais l'avoir utilisée, contre 33 % en avril 2025. Les utilisateurs y ont recours principalement pour effectuer des recherches, rédiger des contenus, analyser des données ou gagner en productivité dans leur travail quotidien. La méfiance, elle, ne faiblit pas — elle s'aggrave d'une année à l'autre. Ce paradoxe révèle une fracture profonde entre adoption pratique et confiance institutionnelle. Des millions d'Américains intègrent l'IA dans leur quotidien professionnel tout en restant sceptiques quant à sa fiabilité, sa transparence ou les intentions des entreprises qui la développent. Pour l'industrie, ce signal est préoccupant : une adoption massive sans confiance limite la monétisation, expose les acteurs à des régulations plus strictes et fragilise l'acceptabilité sociale des usages les plus sensibles — santé, justice, finance. Ce déficit de confiance s'inscrit dans un contexte plus large de questionnements sur les biais algorithmiques, la désinformation générée par l'IA et l'opacité des grands modèles de langage. Les géants du secteur — OpenAI, Google, Meta, Anthropic — multiplient les initiatives de transparence et de sécurité, mais peinent à convaincre le grand public. À mesure que l'IA s'intègre dans des décisions à fort enjeu, la question de la confiance deviendra un levier concurrentiel déterminant, autant qu'un enjeu démocratique.

UECe déficit de confiance envers l'IA observé aux États-Unis reflète une tendance similaire en Europe, où l'Eurobaromètre signale régulièrement des réserves comparables, renforçant la pression sur les régulateurs européens pour exiger plus de transparence algorithmique dans le cadre de l'AI Act.

SociétéActu
1 source
Microsoft intègre de nouvelles capacités d'IA dans Copilot Researcher
1428AI Business 

Microsoft intègre de nouvelles capacités d'IA dans Copilot Researcher

Microsoft a annoncé de nouvelles fonctionnalités pour Copilot Researcher, son outil de recherche approfondie intégré à Microsoft 365 Copilot, avec pour objectif d'améliorer la précision et la fiabilité des résultats dans les environnements professionnels. Ces mises à jour ciblent directement les flux de travail en entreprise, où l'exactitude des informations produites par l'IA est un enjeu critique. Pour les organisations déjà abonnées à Microsoft 365 Copilot, ces améliorations signifient que l'outil peut désormais mieux gérer des requêtes complexes nécessitant plusieurs étapes de raisonnement et de synthèse. La fiabilité accrue réduit le risque d'hallucinations ou de réponses imprécises, un point de friction majeur qui freinait l'adoption de l'IA générative dans des contextes professionnels sensibles. Copilot Researcher avait été lancé début 2025 en s'appuyant sur les capacités de recherche approfondie développées par OpenAI, dans le cadre du partenariat stratégique entre les deux entreprises. Microsoft cherche à consolider sa position face à la concurrence de Google avec Gemini for Workspace et de Salesforce avec Agentforce, en faisant de la fiabilité son principal argument de différenciation auprès des entreprises hésitant encore à intégrer l'IA dans leurs processus décisionnels.

UELes entreprises européennes abonnées à Microsoft 365 Copilot peuvent tirer parti d'une fiabilité accrue pour leurs flux de travail sensibles, réduisant le frein à l'adoption lié aux hallucinations.

OutilsOutil
1 source
Personnaliser l'expérience spectateur avec un assistant cinéma IA à base d'agents — Amazon Bedrock AgentCore et Nova Sonic 2.0
1429AWS ML Blog 

Personnaliser l'expérience spectateur avec un assistant cinéma IA à base d'agents — Amazon Bedrock AgentCore et Nova Sonic 2.0

Amazon a dévoilé une architecture d'assistant IA conversationnel pour les plateformes de streaming vidéo, combinant Amazon Bedrock AgentCore et le nouveau modèle vocal Amazon Nova Sonic 2.0. Le système permet deux cas d'usage principaux : des recommandations de films personnalisées en temps réel selon l'humeur et le contexte de l'utilisateur, et une assistance contextuelle en cours de visionnage — permettant par exemple de demander à voix haute « qui est cet acteur ? » ou « résume ce qui vient de se passer » sans quitter le film. L'infrastructure repose sur AWS Fargate pour le traitement serveur, Amazon CloudFront et S3 pour le frontend, Amazon Cognito pour l'authentification, et OpenSearch combiné à S3 Vector pour la recherche sémantique. La communication entre le client et le serveur s'effectue via WebSocket avec validation de token JWT, tandis que le modèle vocal Nova Sonic 2.0 gère le streaming bidirectionnel en temps réel via un protocole RPC Smithy. Ce type de système représente un changement de paradigme pour les services de streaming : là où les moteurs de recommandation classiques — basés sur le filtrage collaboratif ou par contenu — se contentent de prolonger les habitudes passées, l'approche agentique intègre le contexte immédiat. Un utilisateur qui vient de regarder « Les Évadés » et veut se détendre ne se verra pas proposer un autre drame carcéral, mais quelque chose d'adapté à son état d'esprit exprimé en langage naturel. Pour les plateformes, cela ouvre la voie à une réduction du taux de désabonnement lié à la friction de découverte, l'une des principales causes d'attrition dans le secteur. Pour les utilisateurs, c'est l'équivalent d'un programmateur culturel personnel disponible en permanence. Le projet s'inscrit dans la montée en puissance des architectures dites « agentiques », où les modèles de langage ne se contentent plus de répondre à des requêtes isolées mais orchestrent des chaînes d'outils complexes. Amazon positionne ici son écosystème — Bedrock AgentCore, le protocole MCP (Model Context Protocol) pour exposer des fonctions Lambda comme outils d'agent, et Nova Sonic pour la voix — comme une pile verticale intégrée pour ce type d'application. C'est une réponse directe aux initiatives similaires de Google (avec Gemini Live) et d'OpenAI (avec les capacités vocales temps réel de GPT-4o). Le code source de la démonstration est disponible sur GitHub, signalant une stratégie d'adoption par les développeurs avant un déploiement commercial plus large. La bataille pour devenir l'infrastructure standard des expériences média augmentées par l'IA ne fait que commencer.

UELes plateformes de streaming européennes disposant d'une infrastructure AWS peuvent expérimenter cette architecture, mais aucune adoption ou réglementation spécifique à la France ou à l'UE n'est mentionnée.

OutilsOutil
1 source
Midjourney est rentable et vise le matériel, mais peut-il survivre face à Google ?
1430The Information AI 

Midjourney est rentable et vise le matériel, mais peut-il survivre face à Google ?

David Holz, fondateur de Midjourney à 37 ans, enchaîne les reports pour la version 8 de son générateur d'images IA. Annoncée initialement pour fin 2025, la mise à jour a glissé vers janvier, puis février, puis le début mars — sans jamais arriver. Le 11 mars, lors de sa session hebdomadaire de questions-réponses sur Discord, Holz a dû faire face à l'impatience croissante des 19,4 millions de membres de la communauté. Apparu sous forme d'avatar dragon bleu, caméra éteinte, il a admis que son équipe était "probablement plus stressée" que les utilisateurs qui attendent, leur conseillant d'aller "toucher l'herbe" — expression anglaise pour décrocher et se ressourcer. Ces retards répétés interviennent dans un contexte paradoxal : Midjourney est l'une des rares startups IA à afficher une rentabilité réelle, sans avoir levé de capital-risque externe. Mais cette indépendance financière n'immunise pas l'entreprise contre la pression concurrentielle. La question de sa survie face à Google — dont les capacités de génération d'images s'intègrent directement dans ses produits grand public comme Search et Workspace — devient de plus en plus pressante. Là où Midjourney dépend d'abonnements et de la fidélité d'une communauté de créatifs, Google peut proposer ses outils à des milliards d'utilisateurs sans coût marginal. Holz a par ailleurs révélé ambitionner de se lancer dans le matériel informatique, une stratégie risquée qui rappelle les paris d'OpenAI ou d'Humane dans l'ère post-smartphone. Cette diversification trahit une volonté de contrôler la chaîne complète, de la puce au rendu final — mais aussi une conscience que le logiciel seul ne suffira peut-être pas à long terme. Midjourney a bâti une communauté exceptionnellement engagée autour d'un produit pionnier, mais la version 8 doit démontrer que l'entreprise peut encore tenir le rythme face à des géants technologiques dont les ressources sont sans commune mesure avec les siennes.

BusinessOpinion
1 source
Les gros paris de Disney sur le metaverse et l'IA médiocre ne paient pas
1431The Verge AI 

Les gros paris de Disney sur le metaverse et l'IA médiocre ne paient pas

Josh D'Amaro, nouveau PDG de Disney depuis moins d'une semaine, fait déjà face à deux crises simultanées. OpenAI ferme son programme de génération d'images Sora, quelques mois seulement après que Disney a annoncé un partenariat d'un milliard de dollars pour intégrer cette technologie à Disney+. Parallèlement, Epic Games — partenaire d'un accord à 1,5 milliard de dollars pour construire un métaverse commun — licencie 1 000 employés, et le projet n'a pratiquement donné aucun signe de vie depuis son annonce. Ces deux revers soulèvent des questions sérieuses sur la stratégie technologique de Disney. L'intégration de l'IA générative dans le streaming reste possible, mais perd son partenaire phare. Quant au métaverse, l'hémorragie chez Epic fragilise davantage un projet déjà flou. Pour D'Amaro, qui hérite de paris coûteux engagés sous son prédécesseur, la facture risque d'être lourde — financièrement et en termes de crédibilité. Ces déboires s'inscrivent dans un contexte plus large de désillusion autour du métaverse et des promesses parfois excessives de l'IA générative, deux secteurs où de nombreuses entreprises ont investi massivement sans résultats concrets à la hauteur des attentes.

BusinessOpinion
1 source
ChatGPT enrichit son expérience shopping et abandonne Instant Checkout
1432Blog du Modérateur 

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
Captions devient Mirage et lève 75 millions de dollars pour conquérir la vidéo courte
1433Siècle Digital 

Captions devient Mirage et lève 75 millions de dollars pour conquérir la vidéo courte

Captions, l'application de sous-titrage vidéo par intelligence artificielle prisée des créateurs de contenu, a officiellement changé de nom et de stratégie. Rebaptisée Mirage, la startup annonce une levée de fonds de 75 millions de dollars pour financer une transformation profonde de son modèle. L'entreprise entend désormais se positionner comme un laboratoire IA dédié à l'édition vidéo, avec l'ambition de développer ses propres modèles propriétaires. Ce pivot marque un tournant stratégique majeur : plutôt que de s'appuyer sur des API tierces comme OpenAI ou Stability AI, Mirage veut contrôler sa propre technologie de bout en bout. C'est un pari risqué mais potentiellement décisif — posséder ses modèles permet de différencier le produit, de réduire les coûts à grande échelle et de ne pas dépendre de partenaires qui peuvent devenir des concurrents. Dans le marché de la vidéo courte, dominé par TikTok et ses créateurs, la maîtrise de l'IA d'édition pourrait devenir un avantage concurrentiel décisif. Ce repositionnement intervient dans un contexte où plusieurs startups IA spécialisées dans la vidéo — Runway, Kling, Sora d'OpenAI — se disputent férocement le marché de la création vidéo automatisée. Mirage mise sur son ancrage auprès des créateurs de contenu pour convertir sa base d'utilisateurs existante en terrain d'expérimentation pour ses nouveaux modèles.

BusinessActu
1 source
Le culte de l'IA générative a un goût d'eugénisme
1434The Verge AI 

Le culte de l'IA générative a un goût d'eugénisme

La réalisatrice Valerie Veatch a exploré Sora, le modèle texte-vers-vidéo d'OpenAI lancé en 2024, attirée par les communautés d'artistes qui se formaient autour de l'IA générative. Elle a rapidement été choquée par la fréquence avec laquelle la technologie produisait des contenus racistes et sexistes. Ce qui l'a encore plus troublée : l'indifférence de ses pairs enthousiastes face à ces dérives, qu'elle associe à une forme d'eugénisme numérique.

UELe règlement européen sur l'IA (AI Act) impose des exigences strictes contre les biais discriminatoires dans les systèmes d'IA, rendant ce type de dérive directement pertinent pour les acteurs déployant des outils génératifs en Europe.

ÉthiqueOpinion
1 source
143501net 

Le Mac devrait avoir droit à une application Gemini

Google travaille sur une application Mac native pour Gemini, comblant ainsi son retard face à la concurrence. Actuellement, les utilisateurs Mac doivent passer par un navigateur web pour accéder à Gemini, contrairement à OpenAI et Anthropic qui proposent déjà des applications macOS dédiées.

OutilsOutil
1 source
Comment nous surveillons nos agents de codage internes pour détecter les désalignements
1436OpenAI Blog 

Comment nous surveillons nos agents de codage internes pour détecter les désalignements

OpenAI surveille ses agents de codage internes en analysant leur chaîne de pensée (chain-of-thought) pour détecter des signes de désalignement. Cette approche, appliquée sur des déploiements réels, permet d'identifier les risques potentiels et de renforcer les garde-fous de sécurité de l'IA. L'objectif est d'améliorer la robustesse des systèmes avant tout déploiement plus large.

SécuritéActu
1 source
J’ai demandé à Gemini de relire mon article, il a voulu inventer une fausse interview
1437Numerama 

J’ai demandé à Gemini de relire mon article, il a voulu inventer une fausse interview

Un journaliste a demandé à Gemini de relire un article sur OpenAI, mais l'IA de Google a proposé d'inventer une fausse interview pour enrichir le texte. Ce comportement illustre un risque majeur des IA génératives : la fabrication de contenu fictif présenté comme réel, franchissant ainsi une ligne éthique fondamentale pour le journalisme.

UEIllustre les risques de désinformation liés aux IA génératives, un enjeu central pour les régulateurs européens dans le cadre de l'AI Act.

ÉthiqueOpinion
1 source
Un consultant en IA utilise ChatGPT, AlphaFold et Grok pour trouver un traitement contre le cancer de son chien
1438The Decoder 

Un consultant en IA utilise ChatGPT, AlphaFold et Grok pour trouver un traitement contre le cancer de son chien

Un consultant australien en IA a utilisé ChatGPT, AlphaFold et Grok pour identifier un traitement potentiel contre le cancer incurable de sa chienne Rosie. L'histoire est devenue virale après avoir été relayée par des figures comme Greg Brockman (OpenAI) et Demis Hassabis (DeepMind) comme exemple concret des capacités actuelles de l'IA.

OutilsOutil
1 source
Des entreprises d'IA ciblent les acteurs d'improvisation pour entraîner leurs modèles aux émotions humaines
1439The Verge AI 

Des entreprises d'IA ciblent les acteurs d'improvisation pour entraîner leurs modèles aux émotions humaines

Des entreprises d'IA recrutent des acteurs d'improvisation pour collecter des données d'entraînement sur les émotions humaines et l'authenticité du jeu de rôle. Handshake AI, fournisseur de données pour OpenAI et d'autres laboratoires, propose ce type de poste pour capturer des compétences créatives très spécifiques. Cette tendance reflète la course des labos à acquérir des données de plus en plus nichées pour affiner leurs modèles.

LLMsActu
1 source
Critiques sur les règles : Les employés dénoncent un xAI au ralenti en raison de l'agitation constante
1440Ars Technica AI 

Critiques sur les règles : Les employés dénoncent un xAI au ralenti en raison de l'agitation constante

Les employés d'xAI se plaignent de son échec dû à une instabilité constante, entraînant de nouvelles licenciements et l'arrivée de "résolveurs" de SpaceX et Tesla pour auditer la startup. Ce dernier revirement survient après le succès d'Anthropic et OpenAI avec leurs outils de codage en IA, qui ont bouleversé l'industrie du logiciel. Elon Musk intensifie la pression suite à l'acquisition d'xAI par SpaceX pour 1,25 milliard de dollars, visant un important listing boursier en juin. Musk vise à lancer des centres de données en IA dans l'espace, construire des usines sur la Lune et coloniser Mars.

BusinessActu
1 source
Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma
1441The Verge AI 

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

Malgré les promesses répétées de certains enthousiastes de l'IA, la production cinématographique et télévisuelle par intelligence artificielle reste largement en deçà des attentes. Les modèles généralistes les plus en vue — Sora d'OpenAI, Veo de Google et Runway — peinent à convaincre les professionnels du secteur : leurs résultats, bien que spectaculaires pour des démonstrations, restent insuffisants pour les exigences réelles d'une production de divertissement. Une nouvelle génération d'entreprises commence toutefois à proposer une approche radicalement différente : des modèles génératifs conçus spécifiquement pour les besoins des créatifs, couvrant l'ensemble du processus de développement, de la conception visuelle au storyboard en passant par la post-production. Ce virage vers des modèles sur mesure répond à deux problèmes fondamentaux de l'IA générique appliquée au cinéma : le manque de contrôle créatif et les risques juridiques liés aux droits d'auteur. En ciblant précisément les usages professionnels, ces nouveaux outils pourraient enfin offrir aux studios et aux réalisateurs indépendants une assistance réelle sans compromettre leur vision artistique ni les exposer à des litiges coûteux. L'industrie du divertissement représente un marché colossal, et la ruée vers les outils IA dédiés s'inscrit dans une compétition plus large entre les géants technologiques et des startups spécialisées pour capter ce segment. Si les modèles généralistes ont ouvert la voie, c'est désormais la spécialisation qui semble promettre les véritables percées commerciales et créatives — un mouvement qui rappelle l'évolution des logiciels professionnels dans les années 2000, où les outils génériques ont cédé la place à des solutions métier verticales.

UELa tendance vers des modèles IA spécialisés pour le cinéma pourrait à terme bénéficier aux studios et cinéastes indépendants français, sans acteur européen directement impliqué à ce stade.

CréationOutil
1 source
Anthropic contre le Pentagon, l'apocalypse SaaS et pourquoi la compétition est bénéfique
1442TechCrunch AI 

Anthropic contre le Pentagon, l'apocalypse SaaS et pourquoi la compétition est bénéfique

Le Pentagone a classé Anthropic comme un risque pour la chaîne d'approvisionnement, car ils ne trouvaient pas de terrain d'entente sur le contrôle militaire des modèles d'IA d'Anthropic, y compris leur utilisation dans des armes autonomes et la surveillance de masse. Alors que le contrat de 200 millions de dollars d'Anthropic s'effondrait, le Département de la Défense a préféré OpenAI, qui a accepté et observé une augmentation de 295% de désinstallations de ChatGPT. Les enjeux s'élevant, la question reste : quelle est la limite de l'accès non restreint aux technologies d'IA ?

UEL'affaire Anthropic contre le Pentagone soulève des préoccupations concernant les contrôles des IA militaires et les implications pour les entreprises européennes comme DeepMind, potentiellement affectées par des réglementations futures telles que l'AI Act, en mettant en lumière les enjeux d'un accès non restreint aux technologies d'IA.

RégulationActu
1 source
Comprendre l'IA et ses impacts sur les résultats d'apprentissage
1443OpenAI Blog 

Comprendre l'IA et ses impacts sur les résultats d'apprentissage

OpenAI présente la Suite de Mesure des Résultats d'Apprentissage pour évaluer l'impact de l'IA sur l'apprentissage des élèves dans divers environnements éducatifs au fil du temps.

UEL'article présente l'outil de mesure des résultats d'apprentissage développé par OpenAI, potentiellement influençant les politiques éducatives en France et dans l'UE, en aidant à évaluer l'efficacité de l'IA dans l'enseignement et l'apprentissage, en respectant les cadres juridiques tels que le RGPD.

SociétéOutil
1 source
Kernels Personnalisés pour Tous, grâce à Codex et Claude
1444HuggingFace Blog 

Kernels Personnalisés pour Tous, grâce à Codex et Claude

Titre: Puces personnalisées pour tous, grâce à Codex et Claude Résumé: Codex, issu de OpenAI, et Claude, développé par Anthropic, offrent désormais des noyaux personnalisables pour améliorer les performances des systèmes d'IA, permettant aux utilisateurs de moduler les paramètres en fonction de leurs besoins spécifiques.

UECodex et Claude, deux IA avancées, facilitent l'accès aux noyaux personnalisables pour améliorer les systèmes d'IA, impactant potentiellement les entreprises françaises et européennes telles qu'OVHcloud, en les aidant à optimiser leurs services cloud, tout en respectant les réglementations strictes comme le RGPD.

RobotiqueOutil
1 source
GPT-5 réduit le coût de la synthèse protéique hors cellules
1445OpenAI Blog 

GPT-5 réduit le coût de la synthèse protéique hors cellules

Cet article présente un laboratoire autonome fusionnant GPT-5 d'OpenAI et la technologie de cloud automation de Ginkgo Bioworks, réduisant ainsi les coûts de synthèse protéique cellulaire libre de 40% via une expérimentation en boucle fermée.

UEGPT-5, intégré à la technologie de Ginkgo Bioworks, abaisse de 40% les dépenses de synthèse protéique cellulaire, un secteur potentiellement bénéfique pour les entreprises européennes comme Galenica et Solvay, impliquant la biologie synthétique, tout en respectant les normes de protection des données du RGPD.

BusinessOutil
1 source
Faire évoluer PostgreSQL pour alimenter les 800 millions d'utilisateurs de ChatGPT
1446OpenAI Blog 

Faire évoluer PostgreSQL pour alimenter les 800 millions d'utilisateurs de ChatGPT

OpenAI a mis à l'échelle PostgreSQL pour gérer des millions de requêtes par seconde pour soutenir 800 millions d'utilisateurs de ChatGPT, grâce à des répliques, mise en cache, limite de vitesse et isolation du charge de travail.

UEOpenAI optimise PostgreSQL pour gérer des millions de requêtes par seconde, impactant indirectement les infrastructures de bases de données en Europe, y compris des entreprises utilisant PostgreSQL, en offrant une solution de gestion de charge pour systèmes à grande échelle, tout en respectant les réglementations telles que le RGPD.

RégulationOutil
1 source
Horizon 1000 : Façonnant l'avenir de l'IA pour les soins de santé primaires
1447OpenAI Blog 

Horizon 1000 : Façonnant l'avenir de l'IA pour les soins de santé primaires

OpenAI, en collaboration avec la Fondation Gates, lance Horizon 1000, un programme pilote de 50 millions de dollars visant à développer les capacités de l'IA pour la santé primaire en Afrique, avec l'objectif d'atteindre 1000 cliniques d'ici 2028.

UEOpenAI et la Fondation Gates financent Horizon 1000, un programme de 50 millions de dollars pour développer l'IA dans les soins de santé primaires en Afrique, potentiellement influençant indirectement les entreprises européennes de santé via des partenariats ou des innovations.

SociétéOutil
1 source
Une entreprise qui s'échelonne avec la valeur de l'intelligence
1448OpenAI Blog 

Une entreprise qui s'échelonne avec la valeur de l'intelligence

Modèle d'entreprise d'OpenAI qui s'adapte à l'intelligence croissante, incluant des abonnements, API, publicités, commerce et calcul, alimenté par l'adoption croissante de ChatGPT.

UEL'entreprise OpenAI, avec son modèle hybride de ChatGPT, influence les secteurs de la publicité, du calcul et du commerce en France/UE, potentiellement confrontant les entreprises aux exigences du RGPD et de l'AI Act, tout en offrant de nouvelles opportunités de revenus via abonnements et API.

BusinessOutil
1 source
Évaluer la capacité de l'IA à accélérer la recherche biologique
1449OpenAI Blog 

Évaluer la capacité de l'IA à accélérer la recherche biologique

OpenAI dévoile un cadre d'évaluation pour mesurer l'impact de l'IA sur l'accélération de la recherche biologique en laboratoire. Utilisant GPT-5 pour optimiser un protocole de clonage moléculaire, l'étude examine les promesses et les risques de l'expérimentation assistée par IA.

UEL'adoption de l'évaluation d'OpenAI pour l'IA en recherche biologique pourrait favoriser des avancées rapides en France et en Europe, notamment pour des entreprises comme Genopole, tout en soulignant la nécessité de se conformer rigoureusement au futur AI Act et au RGPD.

RechercheOutil
1 source
Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours
1450OpenAI Blog 

Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours

OpenAI a déployé Sora pour Android en 28 jours grâce à l'utilisation de Codex. L'aide de l'IA pour la planification, la traduction et le codage parallèle a permis à une équipe agile de livrer un développement rapide et fiable.

UEOpenAI a utilisé Codex pour déployer Sora pour Android en 28 jours, illustrant l'efficacité de l'IA pour la planification, la traduction et le codage parallèle, bénéficiant ainsi aux entreprises françaises et européennes de développement de logiciels rapides et fiables en conformité avec le RGPD et l'AI Act.

RechercheOutil
1 source