Aller au contenu principal

Dossier Microsoft — page 12

1056 articles · page 12 sur 22

Microsoft et l'IA : Copilot, l'intégration d'OpenAI dans Azure et Office, les modèles maison et les annonces produits suivies au fil de l'actualité.

Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP
551AWS ML Blog OutilsTuto

Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP

Amazon vient de détailler comment sécuriser les échanges entre les assistants de développement basés sur l'IA et les serveurs d'outils d'entreprise, à travers une configuration OAuth reposant sur son service Amazon Bedrock AgentCore. Le composant central de cette architecture est l'AgentCore Gateway, un point d'entrée géré qui centralise le routage et la sécurisation des communications entre agents IA et serveurs MCP (Model Context Protocol). La démonstration s'appuie sur Kiro, l'environnement de développement intégré d'Amazon orienté IA, qui joue le rôle de client OAuth. Côté fournisseur d'identité, l'exemple utilise Amazon Cognito, mais le schéma s'applique à tout IdP compatible, Okta, Microsoft Entra ID, ou tout autre système émettant des jetons de sécurité standards. Le flux fonctionne en plusieurs étapes : Kiro tente de se connecter au point d'accès MCP de la Gateway, reçoit un challenge HTTP 401 accompagné d'un en-tête pointant vers les métadonnées OAuth de la ressource protégée, puis récupère auprès de l'IdP un jeton d'identité valide avant que la requête ne soit enfin autorisée et transmise au serveur MCP sous-jacent. L'enjeu est concret : dans les environnements professionnels, les équipes cherchent à exposer des outils internes (bases de données, API métier, services cloud) à leurs assistants IA, sans sacrifier le contrôle d'accès. Sans mécanisme d'authentification robuste, n'importe quel agent pourrait interroger ces serveurs MCP sans vérification d'identité. Avec ce schéma, chaque requête émise par un assistant IA est associée à l'identité réelle de l'utilisateur qui a lancé la session, ce qui permet d'appliquer des politiques d'accès fines et d'auditer précisément qui a accédé à quoi. Pour les équipes de sécurité, c'est un changement de paradigme : l'IA cesse d'être un trou dans le périmètre de sécurité et devient un canal traçable comme n'importe quel autre. Ce tutoriel s'inscrit dans un mouvement plus large autour du protocole MCP, standardisé par Anthropic fin 2024 et rapidement adopté par l'ensemble de l'industrie comme lingua franca entre les agents IA et leurs outils. Amazon Bedrock AgentCore, lancé récemment, positionne AWS comme infrastructure d'hébergement de référence pour les agents en production, en ajoutant gestion du cycle de vie, monitoring et sécurité d'entreprise par-dessus les serveurs MCP. L'introduction d'un proxy OAuth optionnel dans l'architecture illustre la fragmentation encore existante entre les clients IA, les IdPs et les serveurs MCP : les standards évoluent vite, mais les implémentations concrètes nécessitent encore des couches d'adaptation. La prochaine étape probable est une intégration native de ces flux d'authentification directement dans les spécifications MCP, réduisant le besoin de proxies intermédiaires.

1 source
Lowe's : les données sémantiques améliorent ses agents IA
552The Information AI 

Lowe's : les données sémantiques améliorent ses agents IA

Lowe's, le géant américain de la distribution de bricolage, a récemment intégré deux outils de gestion des données, une couche sémantique et un graphe de connaissances, pour améliorer les performances de ses agents d'intelligence artificielle. Chandhu Nair, vice-président senior de l'entreprise, a expliqué que ces technologies permettent désormais à l'IA de mieux assister les clients dans le suivi de leurs commandes et d'aider les responsables de magasins à coordonner le travail quotidien des employés. Lowe's exploite un assistant d'achat alimenté par l'IA pour ses clients ainsi qu'un coach commercial intelligent destiné à ses vendeurs, tous deux développés en partenariat avec OpenAI au cours des deux dernières années. La chaîne a également déployé un agent spécialisé pour ses équipes financières, chargé de vérifier l'exactitude du traitement des factures, une priorité compte tenu du volume considérable de transactions que génère son statut de cinquième plus grand importateur aux États-Unis. L'apport concret de la couche sémantique réside dans sa capacité à standardiser les définitions des indicateurs métiers, ce que l'entreprise entend précisément par "revenu" ou "client", afin que l'IA ne travaille pas sur des données ambiguës ou incohérentes. Couplée au graphe de connaissances, qui cartographie les relations entre les différents types de données de l'entreprise, cette approche rend les agents nettement plus fiables et efficaces dans leurs décisions. Pour une enseigne comme Lowe's, qui gère des milliers de références produits, des dizaines de milliers d'employés et des millions de transactions, la précision des données est directement liée à la qualité du service rendu. Cette démarche s'inscrit dans une bataille plus large que se livrent les grands acteurs du logiciel d'entreprise. Microsoft, Databricks et SAP se disputent actuellement le contrôle des couches sémantiques au sein des systèmes d'information des grandes entreprises, conscients que celui qui maîtrise la définition des données maîtrise aussi l'intelligence artificielle qui les exploite. Le cas Lowe's illustre comment les détaillants de grande taille transforment leurs infrastructures de données héritées en socle opérationnel pour une IA agentique déployée à grande échelle.

OutilsOpinion
1 source
RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA
553Le Big Data 

RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA

La Retrieval-Augmented Generation, ou RAG, est une architecture technique qui associe un modèle de langage à une base documentaire externe, permettant à l'intelligence artificielle de consulter des informations précises avant de formuler une réponse. Concrètement, le processus se déroule en trois temps : les documents de l'entreprise sont d'abord découpés en fragments, puis convertis en représentations mathématiques appelées embeddings, qui transforment le sens d'une phrase en coordonnées numériques. Lorsqu'un utilisateur pose une question, sa requête est elle aussi encodée de cette façon, puis comparée aux vecteurs stockés pour identifier les passages les plus pertinents. Ces extraits sont ensuite injectés dans le prompt envoyé au modèle, qui rédige sa réponse à partir d'un contexte documenté et vérifiable. Contrairement à une recherche par mots-clés classique, le système reconnaît deux phrases sémantiquement proches même si elles n'ont pas de termes en commun. L'intérêt pour les entreprises est considérable. Les modèles de langage traditionnels fonctionnent uniquement à partir de leur corpus d'entraînement : toute information absente ou modifiée depuis génère inévitablement des erreurs, ce que les praticiens appellent les "hallucinations". Le RAG court-circuite ce problème en dotant l'IA d'une mémoire externe dynamique, mise à jour en temps réel. Un service client peut ainsi déployer un assistant conversationnel capable de consulter les procédures internes à jour avant chaque réponse, sans que les données quittent le périmètre de l'organisation. Pour des secteurs manipulant des documents sensibles, comme le juridique, la conformité ou l'ingénierie, cette architecture représente la différence entre un outil expérimental et un outil déployable en production. Le RAG s'est imposé comme l'une des réponses les plus pragmatiques aux limites structurelles des LLM depuis que ces modèles ont commencé à être déployés en entreprise à grande échelle. Les géants du cloud, d'AWS à Microsoft Azure en passant par Google Cloud, proposent désormais des services RAG managés, tandis qu'une constellation de startups comme Pinecone, Weaviate ou Qdrant se sont spécialisées dans les bases vectorielles qui en constituent le socle technique. La question qui reste ouverte est celle de la mise à l'échelle : indexer des dizaines de milliers de documents internes, maintenir la cohérence des embeddings lors des mises à jour, et gérer la latence de récupération sont des défis d'ingénierie non triviaux. Les prochaines évolutions du RAG s'orientent vers des architectures hybrides combinant recherche vectorielle et recherche structurée, ainsi que vers des systèmes capables de raisonner sur plusieurs documents simultanément plutôt que de simplement les concaténer.

LLMsTuto
1 source
Data Formulator 0.7 : l'analyse de données d'entreprise par IA
554Microsoft Research 

Data Formulator 0.7 : l'analyse de données d'entreprise par IA

Microsoft Research a publié Data Formulator 0.7, une nouvelle version de son système open source d'analyse de données alimenté par l'intelligence artificielle, destiné aux équipes entreprise. Cette mise à jour introduit une fonctionnalité centrale appelée Data Connectors, qui permet d'établir des connexions persistantes et réutilisables avec une large gamme de sources de données : bases de données relationnelles, entrepôts de données, systèmes BI, stockages objets et fichiers locaux. Les connexions sont gérées de façon centralisée, avec authentification, prévisualisation et gestion des métadonnées intégrées, ce qui évite aux équipes plateforme de reconstruire manuellement les mêmes intégrations à chaque projet. Des agents IA contextuels prennent ensuite en charge la préparation des données, l'exploration analytique et la génération de visualisations, sans que les utilisateurs aient besoin de maîtriser SQL ou la programmation. L'enjeu est significatif pour les entreprises qui jonglent quotidiennement avec des données éparpillées entre dizaines d'outils hétérogènes. Jusqu'ici, avant même de commencer une analyse, les équipes devaient gérer manuellement les permissions, préparer les métadonnées et assembler des pipelines pour croiser des sources disparates. Data Formulator 0.7 réduit ce fardeau en proposant un espace de travail unifié où les agents IA ont accès à l'ensemble du contexte analytique : sources connectées, tableaux chargés, graphiques précédents et objectif de l'utilisateur. En une seule interaction, un agent peut inspecter des données, écrire et exécuter du code dans un environnement isolé, générer des spécifications de graphiques et expliquer ses résultats étape par étape. Lorsqu'une requête est ambiguë, il pose des questions de clarification avant d'agir. Cela rend l'analyse complexe accessible aux experts métier qui n'ont pas de profil technique, tout en produisant un code vérifiable et reproductible pour chaque résultat. Data Formulator est développé par Microsoft Research dans un contexte où la demande d'outils d'analyse assistée par IA explose dans les grandes organisations. Les interfaces conversationnelles classiques, comme les chatbots généralistes, montrent leurs limites face aux workflows analytiques longs et ramifiés : elles manquent de mémoire persistante, d'accès aux données d'entreprise et de continuité de contexte entre les sessions. Data Formulator 0.7 tente de combler ce fossé avec un espace de travail multimodal et itératif où les équipes peuvent affiner leurs analyses au fil du temps et les partager en interne. Le projet est open source, ce qui laisse la porte ouverte à des contributions de la communauté et à une adoption progressive dans des environnements techniques variés. La prochaine étape naturelle sera d'observer comment cette approche s'intègre avec les infrastructures de données existantes des grands groupes, notamment face à des concurrents comme Databricks, Snowflake ou les outils BI traditionnels qui développent eux aussi leurs propres couches IA.

OutilsOutil
1 source
L'Afrique du Sud dispose d'atouts en IA, mais son projet de politique ne les exploite pas
555IEEE Spectrum AI 

L'Afrique du Sud dispose d'atouts en IA, mais son projet de politique ne les exploite pas

L'Afrique du Sud détient environ 88 % des réserves mondiales de métaux du groupe du platine, des matériaux indispensables à la fabrication de semi-conducteurs et donc à l'infrastructure même de l'intelligence artificielle. Elle abrite le plus grand marché de centres de données du continent africain, évalué à 2,16 milliards de dollars en 2024. Pourtant, le projet de politique nationale sur l'IA, récemment retiré après avoir été rendu public, ne tire aucun parti de cette position stratégique exceptionnelle. Une nouvelle commission a été annoncée pour réviser ce texte, mais le mal est plus profond : aucun mécanisme de vérification n'a empêché la publication d'un document truffé de références erronées, révélant une défaillance systémique dans la façon dont les gouvernements adoptent l'IA. Le vide politique laissé par ce projet avorté se comble dans les faits par une compétition frontale entre les écosystèmes technologiques chinois et américain. Huawei propose désormais aux entreprises africaines un bundle combinant le modèle de langage DeepSeek à ses propres infrastructures cloud et stockage, à des prix inférieurs de plus de 90 % aux offres concurrentes. En face, Microsoft a annoncé un investissement de 5,4 milliards de rands (300 millions de dollars) en cloud et en IA en Afrique du Sud d'ici fin 2027, s'ajoutant à un précédent engagement de 20,4 milliards de rands. Google, AWS et Oracle disposent déjà de régions cloud dans le pays. Ces investissements ne sont pas neutres : l'infrastructure Huawei est documentée comme un vecteur d'objectifs stratégiques chinois, notamment via son réseau de surveillance Safe Cities, tandis que les hyperscalers américains imposent des modèles fermés, des tarifs fixés unilatéralement et des conditions d'accès que nul gouvernement africain n'a réellement négociées. L'ironie de la situation est saisissante : l'Afrique du Sud extrait les minerais qui rendent l'IA possible, mais se retrouve traitée dans sa propre politique comme simple consommatrice de systèmes qu'elle n'a pas façonnés. Sans politique précisant ce qu'elle exige en contrepartie de l'accès à son marché, son levier structurel reste inutilisé. C'est pourtant le seul pays en développement disposant d'un pouvoir de négociation suffisant pour obtenir des conditions réellement différentes de celles que dictent Pékin ou Silicon Valley. Si l'Afrique du Sud renonce à exercer ce rapport de force, elle offre un précédent révélateur : même une position géologique dominante ne suffit pas à imposer des termes équitables dans la gouvernance mondiale de l'IA.

UELe cas sud-africain illustre les risques de dépendance aux infrastructures IA étrangères, un enjeu que l'UE tente précisément d'adresser via l'AI Act et ses politiques de souveraineté numérique.

RégulationReglementation
1 source
Les créateurs de NanoClaw transforment leur environnement open source pour agents IA en second cerveau d'entreprise
556VentureBeat AI 

Les créateurs de NanoClaw transforment leur environnement open source pour agents IA en second cerveau d'entreprise

NanoCo AI, la startup fondée par Gavriel Cohen, ancien ingénieur chez Wix.com, et son frère Lazer Cohen, également fondateur de l'agence de relations presse Concrete Media, vient de boucler un tour de table d'amorçage de 12 millions de dollars, sursouscrit, mené par Valley Capital Partners. Parmi les investisseurs stratégiques figurent Docker, Vercel, monday.com, Factorial Capital, ainsi que Clem Delangue, PDG et cofondateur de Hugging Face. La levée doit financer le passage à l'échelle de NanoClaw, leur variante open source sous licence MIT du framework d'agents IA autonomes OpenClaw, en y ajoutant des services commerciaux managés destinés aux grandes entreprises. Le concept central de NanoCo AI est un assistant professionnel en tête-à-tête : chaque employé dispose d'un agent personnel qui apprend son rôle, ses projets et son style de travail au fil des échanges ordinaires. Au fur et à mesure que l'utilisateur lui transfère des emails, documents et comptes-rendus de réunions, l'agent construit un "wiki LLM" dynamique, concept proche de celui de "LLM Knowledge Base" théorisé par le chercheur influent Andrej Karpathy. Cette mémoire persistante permet à l'assistant de passer de la simple réponse aux questions à la rédaction autonome de premiers jets de contrats, de révisions de code ou de gestion de comptes, directement dans des outils comme Slack ou Microsoft Teams. Cohen estime que ce modèle peut rendre un employé deux à trois fois plus efficace, sans remplacer les effectifs. La sécurité constitue le différenciateur technique majeur de NanoClaw face à ses concurrents. Là où OpenClaw a grossi jusqu'à 400 000 lignes de code, NanoClaw a été délibérément réduit à environ 500 lignes de TypeScript, ce qui permet à une équipe sécurité humaine de l'auditer intégralement en huit minutes. Chaque agent tourne dans un environnement isolé via des sandboxes Docker basées sur des MicroVM, fruit d'un partenariat avec Docker annoncé en mars 2026. Les identifiants API ne transitent jamais directement jusqu'à l'agent : toutes les requêtes sortantes passent par une passerelle sécurisée écrite en Rust, OneCLI Gateway, qui applique les politiques définies par l'entreprise. Si un agent tente une action sensible en écriture, comme modifier un environnement cloud ou supprimer un email, la passerelle intercepte la requête et soumet une carte interactive à l'employé concerné sur Slack, Teams ou WhatsApp, qui doit valider explicitement avant que l'action soit exécutée.

UELa participation de Clem Delangue, PDG de la française Hugging Face, comme investisseur stratégique témoigne de l'intérêt de l'écosystème IA européen pour ces frameworks d'agents légers et auditables, sans impact opérationnel direct immédiat sur la France ou l'UE.

BusinessActu
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
557NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul
558FrenchWeb 

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Séoul accueille du 6 au 12 juillet 2026 la 43e édition de l'International Conference on Machine Learning (ICML), l'une des conférences scientifiques les plus influentes au monde dans le domaine de l'intelligence artificielle. Organisée dans la capitale sud-coréenne, cet événement rassemble chaque année des milliers de chercheurs, ingénieurs et représentants de l'industrie venus présenter et débattre des dernières avancées en apprentissage automatique. L'édition 2026 marque la première fois que la conférence se tient en Corée du Sud, témoignant de la montée en puissance de l'Asie dans l'écosystème mondial de la recherche en IA. ICML est un point de convergence incontournable pour la communauté scientifique : les papiers acceptés y définissent souvent les directions de recherche pour les années suivantes. Les grandes entreprises tech, Google DeepMind, Meta AI, Microsoft Research, Anthropic, y dévoilent des travaux qui alimentent directement leurs produits. Pour les chercheurs académiques, une publication à ICML constitue une validation de premier rang, et la conférence sert de baromètre pour identifier les tendances émergentes, des architectures de modèles aux questions d'alignement et d'efficacité computationnelle. Le choix de Séoul s'inscrit dans une dynamique plus large de reconnaissance des pôles asiatiques d'excellence en IA, la Corée du Sud investissant massivement dans ce secteur via des géants comme Samsung et LG, mais aussi via des startups et universités de rang mondial. ICML 2026 devrait notamment concentrer des débats autour des modèles multimodaux, de l'IA générative post-transformeurs et des approches d'apprentissage à faible coût énergétique, des enjeux devenus centraux dans un contexte de pression croissante sur les ressources de calcul.

UELes chercheurs et labos européens participant à ICML bénéficieront des échanges scientifiques, mais la conférence n'a pas d'impact institutionnel direct sur la France ou l'UE.

💬 Séoul pour ICML, c'est un signal que l'Asie est vraiment dans la course, pas juste comme marché. Ce qui m'intéresse surtout, c'est les débats annoncés sur les architectures post-transformeurs et l'efficacité énergétique, parce que le vrai goulot maintenant c'est le coût de calcul, pas les idées. Les papiers ICML dessinent ce qu'Anthropic et Google mettent en prod 18 mois après.

RecherchePaper
1 source
Au-delà des modèles : où les investisseurs cherchent la prochaine vague de l'IA
559The Information AI 

Au-delà des modèles : où les investisseurs cherchent la prochaine vague de l'IA

Face à la concentration massive des investissements dans les modèles frontières et les infrastructures des hyperscalers, les investisseurs cherchent de nouveaux territoires où l'IA offre encore de la valeur. Dans une table ronde organisée par The Information, Alexa von Tobel, fondatrice du fonds early-stage Inspired Capital, et Alex Baker, associé chez PwC en charge des opérations TMT aux États-Unis, ont identifié les poches où le potentiel reste intact. Parmi les signaux du marché : le mois dernier, la startup Cursor a accordé à SpaceX une option de rachat à 60 milliards de dollars, illustrant à la fois l'appétit pour l'IA applicative et la fragilité croissante des positions différenciantes dans le logiciel vertical. Pour les deux investisseurs, la vraie question n'est plus de savoir si l'IA va transformer les industries, mais où les avantages concurrentiels sont durables. Von Tobel avertit que dans un monde dominé par des géants comme Google ou Microsoft, chacun avec plus d'un milliard d'utilisateurs, il est risqué de construire quelque chose qu'ils pourraient répliquer à moindre effort. Baker, lui, définit la défendabilité par trois critères : l'intégration profonde dans les environnements enterprise, la difficulté à reproduire l'infrastructure technique sous-jacente, et la confiance des clients. Il estime que la différenciation des startups d'IA verticale qui entraînent leurs propres modèles sectoriels s'érode rapidement, et que le vrai rempart se situe désormais dans la couche d'orchestration, plus difficile à reproduire que le modèle lui-même. C'est dans l'IA physique que les deux investisseurs voient le potentiel le plus solide pour les quatre prochaines années. Von Tobel cite BrightAI, une société de son portefeuille qu'elle décrit comme "Cursor pour les travailleurs d'infrastructure" : l'entreprise déploie des capteurs sur des canalisations d'eau, des poteaux téléphoniques et d'autres actifs physiques, collectant des données que personne d'autre ne capte. L'avantage est concret : retirer des centaines de milliers de capteurs collés sur des équipements serait coûteux et laborieux. Baker souligne que cette irréversibilité physique crée des barrières à l'entrée bien plus solides que celles du logiciel. Il cite également la revitalisation de secteurs comme la sécurité physique, caméras, lecteurs de badges et serrures connectées, longtemps considérés comme matures et désormais réinventés par l'IA. Quant au logiciel traditionnel, Baker reste optimiste malgré la montée des outils de "vibe coding" : dans les workflows réglementés et critiques, les coûts de migration restent un rempart efficace, d'autant qu'un futur peuplé d'agents IA actifs 24h/24 pourrait en fait accroître la demande de logiciels, pas la réduire.

BusinessOpinion
1 source
Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker
560AWS ML Blog 

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Amazon Web Services propose deux solutions complémentaires pour sécuriser de la capacité GPU à court terme : les EC2 Capacity Blocks for ML et les SageMaker training plans. Les Capacity Blocks permettent de réserver un nombre précis d'instances GPU pour une fenêtre temporelle définie, jusqu'à huit semaines à l'avance, avec des durées allant de 1 à 14 jours (par paliers d'un jour) ou de 15 à 182 jours (par paliers de sept jours). Chaque bloc peut couvrir jusqu'à 64 instances d'un même type, et une organisation peut cumuler jusqu'à 256 instances sur une même date en combinant plusieurs blocs au sein d'AWS Organizations. Contrairement aux réservations de capacité à la demande classiques (ODCR), ces Capacity Blocks sont entièrement en libre-service et affichent une décote de 40 à 50 % par rapport aux tarifs à la demande, tout en offrant une bien meilleure disponibilité pour les instances de type P, particulièrement recherchées. Ces solutions répondent à un besoin concret et pressant : la demande mondiale de GPU pour l'entraînement, le fine-tuning et l'inférence de modèles d'intelligence artificielle dépasse largement l'offre disponible. Pour les équipes qui ont besoin de GPU de manière ponctuelle, que ce soit pour des tests de charge, la validation de modèles, des ateliers techniques ou la préparation d'une mise en production, les options existantes présentent des limites sérieuses. Les instances à la demande ne garantissent pas la disponibilité au moment du lancement, et relâcher une instance peut signifier ne plus pouvoir la récupérer. Les instances Spot, bien que jusqu'à 90 % moins chères, peuvent être interrompues à tout moment par AWS. Les Capacity Blocks éliminent cette incertitude : la capacité est garantie pendant toute la durée réservée, ce qui permet de planifier des workloads critiques en temps contraint sans risque de pénurie de ressources. Cette pénurie de GPU n'est pas nouvelle : depuis l'explosion des usages d'IA générative à partir de 2023, les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure font face à une concurrence intense pour l'acquisition et la mise à disposition de puces Nvidia H100 et autres accélérateurs. AWS avait introduit les Capacity Blocks dès 2023 pour les instances P5, mais l'offre s'est depuis progressivement élargie. L'intégration avec les SageMaker training plans vise à couvrir également les usages managés, où AWS gère l'infrastructure sous-jacente. À terme, ces mécanismes de réservation structurée devraient devenir la norme pour toute organisation menant des expérimentations ML d'envergure, car ils permettent de concilier agilité opérationnelle et maîtrise des coûts sans recourir à des contrats pluriannuels.

UELes équipes françaises et européennes utilisant AWS pour leurs workloads ML peuvent sécuriser de la capacité GPU à court terme avec une décote de 40-50%, réduisant l'incertitude opérationnelle liée à la pénurie mondiale de GPU.

InfrastructureActu
1 source
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
561MarkTechPost 

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement. Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides. La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

InfrastructureOpinion
1 source
AgentCore Optimization en préversion : la boucle de qualité des agents
562AWS ML Blog 

AgentCore Optimization en préversion : la boucle de qualité des agents

Amazon a annoncé le 5 mai 2026 la disponibilité en preview d'AgentCore Optimization, une nouvelle fonctionnalité de sa plateforme Amazon Bedrock AgentCore dédiée à l'amélioration continue des agents d'intelligence artificielle en production. Le système introduit une boucle automatisée en trois étapes : génération de recommandations à partir des traces de production, validation par évaluation en batch ou par test A/B, puis déploiement. Concrètement, l'API Recommendations analyse les logs stockés dans CloudWatch pour identifier les failles dans le prompt système ou les descriptions d'outils, en ciblant un signal de récompense défini par l'équipe, taux de succès des objectifs, précision dans la sélection d'outils, ou critères personnalisés via un LLM-as-judge. L'évaluation en batch compare ensuite la nouvelle version sur un jeu de tests préétabli, tandis que le test A/B, routé via AgentCore Gateway, divise le trafic réel selon un pourcentage configurable et produit des résultats avec intervalles de confiance et significativité statistique. NTT DATA, via Yoshiharu Okuda, son responsable de la stratégie IA générative, confirme déjà que des cycles de tuning de prompts qui prenaient auparavant plusieurs semaines sont devenus des itérations rapides et reproductibles grâce à ce système. L'enjeu est de taille pour les équipes produit qui déploient des agents à grande échelle. Jusqu'ici, lorsqu'un agent dégradait en qualité, parce qu'un modèle sous-jacent avait évolué, que les comportements utilisateurs avaient changé, ou qu'un prompt était réutilisé hors de son contexte d'origine, la correction reposait entièrement sur l'intuition d'un développeur : lire les traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, et recommencer. Ce cycle manuel était non seulement lent, mais souvent contre-productif, un correctif résolvant un problème pour un utilisateur tout en en créant un nouveau pour un autre. AgentCore Optimization remplace cette mécanique artisanale par une boucle systématique alimentée par des données réelles, ce qui permet aux équipes produit de détecter les dérives au fil du quotidien plutôt que d'attendre les benchmarks hebdomadaires ou mensuels des équipes scientifiques dédiées. Amazon Bedrock AgentCore est la plateforme sur laquelle des milliers de développeurs construisent déjà des agents capables de raisonner, planifier et agir dans des workflows complexes. La composante Observability du service capture chaque appel de modèle, invocation d'outil et étape de raisonnement sous forme de traces compatibles OpenTelemetry, fournissant ainsi la matière première nécessaire à la nouvelle boucle d'optimisation. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs cloud cherchent à industrialiser non plus seulement la création d'agents, mais leur maintenance opérationnelle dans la durée. Avec cette fonctionnalité encore en preview, Amazon positionne Bedrock comme une plateforme de bout en bout pour le cycle de vie complet des agents, dans un marché où Google Vertex AI et Microsoft Azure AI Foundry jouent la même carte d'intégration verticale.

UELes équipes produit françaises et européennes déployant des agents sur Amazon Bedrock pourront bénéficier de cycles d'optimisation automatisés, réduisant une dépendance aux processus manuels chronophages, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick
563AWS ML Blog 

Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick

Amazon a dévoilé une architecture d'analyse de données intégrant de l'intelligence artificielle agentique sur Amazon SageMaker, combinant Amazon Athena et Amazon QuickSight pour permettre aux utilisateurs métier d'interroger des lacs de données complexes en langage naturel. La solution repose sur une architecture lakehouse construite à partir des jeux de données de référence TPC-H (100 Go hébergés sur S3), et s'appuie sur plusieurs couches technologiques : Amazon S3 comme stockage principal, AWS Glue pour le catalogage des métadonnées, Athena pour les requêtes SQL serverless, et QuickSight avec son moteur SPICE (Super-fast, Parallel, In-memory Calculation Engine) pour la visualisation et l'interface conversationnelle. Les données sont stockées en trois formats distincts, CSV, Apache Iceberg-Parquet avec support ACID et time-travel, et Amazon S3 Tables avec support natif Iceberg, afin d'illustrer la polyvalence d'une architecture data lake moderne. Un agent IA conversationnel, alimenté par des bases de connaissances enrichies via un crawler web, permet ensuite d'interroger ces données structurées et non structurées depuis une interface en langage naturel. L'enjeu principal est la démocratisation de l'accès aux données au sein des grandes organisations. Aujourd'hui, interroger un lac de données pétaoctet exige des compétences pointues en SQL, en modélisation de données et en outils de business intelligence, autant de barrières qui ralentissent la prise de décision dans des secteurs comme la finance, la santé, le retail ou la logistique. En substituant ces interfaces techniques par un agent conversationnel, Amazon permet à des profils non-techniques d'obtenir des insights directement exploitables sans passer par des équipes data. Pour les entreprises, cela signifie moins de goulots d'étranglement, des cycles d'analyse raccourcis, et une gouvernance des données maintenue grâce aux contrôles de sécurité intégrés dans l'écosystème AWS. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud, AWS, Google et Microsoft, pour intégrer des agents IA directement dans leurs plateformes analytiques. Amazon capitalise ici sur son écosystème existant : QuickSight Q, lancé il y a plusieurs années comme interface NLP pour la BI, monte en puissance avec l'intégration de bases de connaissances et d'espaces collaboratifs (Quick Spaces). La combinaison d'Athena, qui facture à la requête sans serveur à maintenir, et d'agents capables de mélanger données structurées et documentation non structurée, positionne AWS comme un acteur sérieux dans l'analytics agentique d'entreprise. La prochaine étape logique sera l'automatisation complète du cycle analyse-décision-action, où l'agent ne se contente plus de répondre mais déclenche directement des workflows métier.

UELes entreprises européennes déployées sur AWS peuvent adopter cette architecture d'analytics agentique pour réduire leur dépendance aux équipes data, mais l'annonce ne cible pas spécifiquement le marché ou les régulations européennes.

OutilsOutil
1 source
ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?
564Le Big Data 

ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?

Depuis le 30 avril 2026, un prompt pour ChatGPT Images 2.0 circule à vitesse fulgurante sur les réseaux sociaux. Partagé par l'utilisateur @arrakis_ai sur X, il demande à l'IA de redessiner n'importe quelle photo de la manière la plus maladroite possible, comme si le résultat avait été tracé à la souris dans Microsoft Paint : traits brouillons, proportions bancales, rendu pixelisé à l'extrême. L'image doit rester vaguement reconnaissable tout en provoquant un effet comique immédiat. La chute du prompt joue aussi un rôle décisif : après toutes ces instructions précises, une phrase désinvolte coupe court à la logique et donne à l'IA une liberté totale, ce qui produit des visuels imprévisibles et souvent absurdes. En quelques heures, des milliers d'utilisateurs ont reproduit l'expérience et inondé leurs fils d'images volontairement ratées. Le paradoxe est frappant : ChatGPT Images 2.0, présenté comme un outil de génération d'images haute fidélité capable de produire des visuels quasi photoréalistes, cartonne précisément quand on lui demande de faire le contraire. Ce phénomène révèle une vraie fatigue face à la surproduction d'images lisses et calibrées qui envahissent les plateformes depuis l'essor des IA génératives. Les dessins maladroits accrochent là où les rendus parfaits glissent, parce qu'ils surprennent, font sourire et cassent les codes esthétiques dominants. Pour les créateurs de contenu et les marques, la leçon est contre-intuitive mais réelle : l'irrégularité et l'imperfection ont une valeur virale que la perfection technique ne garantit pas. Le rendu bancal devient un langage visuel à part entière, accessible à tous sans compétence artistique préalable. Cette tendance s'inscrit dans un contexte plus large de maturité du grand public face aux IA génératives. Après une première phase d'émerveillement devant le réalisme des images produites, les utilisateurs cherchent désormais à détourner ces outils plutôt qu'à les utiliser à leur plein potentiel technique. ChatGPT Images 2.0, lancé par OpenAI en 2025 avec des capacités de génération et d'édition nettement améliorées, se retrouve ainsi mobilisé pour des usages humoristiques et participatifs qui n'étaient pas au coeur de sa conception. Cette dynamique rappelle des précédents comme les filtres déformants de FaceApp ou les memes générés par DALL-E : les plateformes d'IA les plus puissantes trouvent souvent leur premier vrai moment culturel non pas dans leurs exploits techniques, mais dans leurs détournements les plus absurdes. La question reste ouverte de savoir si OpenAI capitalisera sur cette viralité ou si le phénomène restera une parenthèse éphémère dans le cycle des tendances internet.

CréationOutil
1 source
Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards
565Le Big Data 

Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards

SoftBank prépare le lancement d'une nouvelle entité baptisée Roze AI, dédiée à l'automatisation de la construction de centres de données, avec une introduction en bourse envisagée dès le second semestre 2026 aux États-Unis. Selon le Financial Times et le Wall Street Journal, le groupe japonais vise une valorisation de 100 milliards de dollars pour cette structure encore embryonnaire. L'idée centrale : déployer des robots autonomes pour accélérer, standardiser et réduire les coûts de construction des data centers, infrastructures devenues critiques pour alimenter la demande explosive en puissance de calcul liée à l'IA générative. L'enjeu est colossal. Construire un centre de données reste aujourd'hui un processus long, coûteux et très dépendant de la main-d'œuvre humaine. En automatisant cette chaîne, Roze AI pourrait réduire significativement les délais de mise en service au moment précis où hyperscalers, gouvernements et entreprises technologiques se disputent la capacité de calcul disponible. Si la formule fonctionne, SoftBank ne se contenterait plus d'être un investisseur dans l'écosystème IA : il deviendrait un acteur industriel direct, capturant une part de la chaîne de valeur physique de l'intelligence artificielle, au même titre qu'un grand fournisseur cloud comme AWS ou Microsoft Azure. SoftBank évolue depuis des années dans une logique de paris technologiques massifs, parfois triomphants comme avec Alibaba, parfois catastrophiques comme avec Zume, la startup de livraison de pizzas robotisées qui a tourné court. Cette fois, la stratégie change de nature : il ne s'agit plus de financer des startups prometteuses depuis l'extérieur, mais de créer de toutes pièces une entité industrielle intégrée. SoftBank n'est pas seul sur ce terrain : Jeff Bezos a cofondé Project Prometheus, initiative visant à racheter des entreprises industrielles pour les moderniser par l'IA, signalant une convergence plus large entre capital technologique et transformation des infrastructures physiques. En interne, le projet Roze AI suscite néanmoins des interrogations : selon le Financial Times, plusieurs employés du groupe doutent de la pertinence d'une valorisation à 100 milliards pour une entité qui n'a pas encore prouvé son modèle à grande échelle, et le calendrier d'IPO pour fin 2026 est jugé très ambitieux. La question reste entière : Roze AI deviendra-t-elle un standard de l'infrastructure IA mondiale, ou un nouveau pari à haut risque dans la longue histoire des investissements de SoftBank ?

RobotiqueOpinion
1 source
Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory
566AWS ML Blog 

Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory

Amazon a publié un guide technique détaillé sur la conception de namespaces dans AgentCore Memory, le système de mémoire à long terme intégré à Amazon Bedrock. La fonctionnalité, présentée dans un billet de blog officiel d'AWS, permet aux développeurs d'organiser les souvenirs de leurs agents IA sous forme de chemins hiérarchiques, similaires à des arborescences de fichiers. Concrètement, les préférences d'un utilisateur identifié comme customer-123 seront stockées sous /actor/customer-123/preferences/, tandis que les résumés de ses sessions individuelles seront rangés sous /actor/customer-123/session/session-789/summary/. Ces chemins sont générés automatiquement à partir de trois variables prédéfinies : {actorId} pour l'identifiant de l'utilisateur, {sessionId} pour la session en cours, et {memoryStrategyId} pour le type de stratégie mémoire utilisé. Le système prend en charge plusieurs stratégies superposées, notamment la mémoire sémantique pour les faits durables sur un utilisateur, et la mémoire de résumé pour les synthèses de sessions passées. L'enjeu est concret : sans organisation rigoureuse, les agents IA récupèrent du contexte non pertinent lors de leurs requêtes, ce qui dégrade la qualité des réponses et peut créer des failles de sécurité, notamment en exposant les souvenirs d'un utilisateur à un autre. Le système de namespaces résout ces deux problèmes à la fois. D'un côté, la structure hiérarchique permet une récupération à granularité variable : on peut interroger la mémoire d'une session précise, l'ensemble des préférences d'un utilisateur à travers toutes ses sessions, ou encore des données communes à tous les utilisateurs d'un même agent. De l'autre, AWS intègre des contrôles d'accès IAM natifs qui permettent de délimiter précisément qui peut lire ou écrire dans quelle portion de la mémoire, sans dupliquer le stockage physique. Les namespaces sont des partitions logiques au sein d'une même ressource mémoire, une approche que les équipes habituées aux clés de partition DynamoDB ou aux préfixes S3 reconnaîtront immédiatement. Ce guide s'inscrit dans une dynamique plus large : l'essor des agents IA en production crée une demande croissante pour des infrastructures mémoire robustes et sécurisées. Amazon Bedrock, qui concurrence directement les offres d'OpenAI, Google et Microsoft Azure dans l'espace des plateformes d'agents d'entreprise, cherche à se différencier par des primitives de bas niveau bien pensées. AgentCore Memory, présenté comme une brique fondamentale pour les agents à longue durée de vie, cible les équipes qui construisent des assistants client, des copilotes métier ou des agents autonomes nécessitant une continuité de contexte entre les sessions. La prochaine étape annoncée par AWS porte sur les patterns de récupération multi-niveaux et les stratégies d'isolation entre agents dans des architectures multi-tenants.

UEAmazon Bedrock étant déployé dans des régions AWS européennes, ces patterns de conception sont directement exploitables par les équipes françaises et européennes qui construisent des agents IA sur cette plateforme.

OutilsActu
1 source
Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal
567SCMP Tech 

Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal

Alibaba Group a dévoilé mardi un nouveau modèle d'intelligence artificielle baptisé Coca, développé par son laboratoire de recherche Damo Academy, capable de détecter les cancers colorectaux à un stade précoce à partir de scanners CT sans contraste. Testé sur plus de 27 000 examens, le modèle a permis d'identifier cinq cas de cancer colorectal qui avaient été manqués par des radiologistes humains, affichant ainsi une sensibilité supérieure à celle des spécialistes pour cette tâche précise. Cette avancée représente un enjeu médical considérable : le cancer colorectal est l'un des cancers les plus meurtriers au monde, et son pronostic s'améliore drastiquement lorsqu'il est détecté tôt. Un outil capable de réduire les faux négatifs dans l'analyse de scanners de routine pourrait alléger la charge cognitive des radiologistes, accélérer les diagnostics et potentiellement sauver des vies, notamment dans les systèmes de santé où le volume d'examens dépasse la capacité humaine disponible. Alibaba s'inscrit avec Coca dans une stratégie plus large de déploiement de l'IA médicale, un secteur où les géants technologiques chinois investissent massivement pour rivaliser avec des acteurs comme Google Health ou Microsoft. La Chine fait face à une pression démographique et sanitaire croissante, avec des taux de cancer colorectal en hausse, ce qui rend ces outils particulièrement stratégiques. Coca s'appuie sur les scanners CT non contrastés, des examens courants et moins coûteux que leurs homologues avec produit de contraste, ce qui élargit son potentiel de déploiement à grande échelle dans des contextes hospitaliers variés.

RecherchePaper
1 source
L'hypothèse de LoRA qui ne tient pas en production
568MarkTechPost 

L'hypothèse de LoRA qui ne tient pas en production

LoRA (Low-Rank Adaptation) est devenu la méthode de référence pour adapter les grands modèles de langage à moindre coût : plutôt que de modifier l'intégralité des paramètres d'un modèle, la technique n'entraîne que de petites matrices de rang réduit, ce qui diminue considérablement la mémoire et le temps de calcul nécessaires. Mais LoRA repose sur une hypothèse silencieuse : toutes les mises à jour d'un modèle se ressemblent structurellement. En réalité, ce n'est pas le cas. Quand on fine-tune un modèle pour modifier son style (ton, format, persona), les changements sont concentrés dans quelques dimensions seulement, et LoRA les gère parfaitement avec un rang faible comme rank-8. En revanche, quand on cherche à lui enseigner de nouvelles connaissances factuelles (données médicales, statistiques sportives, informations juridiques), l'information est distribuée sur de nombreuses dimensions simultanément, et un rang faible ne peut en capturer qu'une fraction : le modèle paraît sûr de lui mais produit des réponses incomplètes ou incorrectes. Augmenter le rang pour compenser déclenche un autre problème : la formule de mise à l'échelle standard de LoRA, qui divise par r, affaiblit le signal d'apprentissage à mesure que le rang grandit. RS-LoRA (Rank-Stabilized LoRA) corrige cela en remplaçant la division par r par une division par √r, un changement d'un seul caractère dans le code qui stabilise l'apprentissage même à des rangs élevés comme rank-32. Les conséquences pratiques sont significatives pour toutes les équipes qui déploient des LLMs dans des domaines à forte densité factuelle : médecine, droit, finance. Utiliser un LoRA standard pour injecter des connaissances spécialisées crée une illusion de performance, le modèle répond avec fluidité et apparente confiance, mais ses réponses peuvent être partiellement fausses. Le problème est d'autant plus dangereux qu'il reste invisible : sans tests rigoureux sur les faits précis que l'on cherchait à enseigner, le modèle passe tous les benchmarks généraux et échoue silencieusement sur les cas critiques en production. Cette limitation de LoRA n'est pas nouvelle dans la littérature académique, mais elle reste sous-estimée dans les pratiques industrielles. LoRA a été introduit en 2021 par des chercheurs de Microsoft comme alternative efficace au fine-tuning complet, et il s'est imposé comme méthode dominante grâce à sa facilité d'implémentation dans des bibliothèques comme Hugging Face PEFT. RS-LoRA représente l'une des améliorations formalisées de cette approche, aux côtés d'autres variantes comme DoRA ou AdaLoRA, qui cherchent toutes à mieux adapter la technique selon les régimes d'apprentissage. À mesure que les LLMs s'imposent dans des secteurs critiques, savoir quelle technique choisir selon le type de connaissance à injecter devient une compétence essentielle pour les équipes ML, bien au-delà du sujet de recherche théorique.

LLMsPaper
1 source
Jailbreak et Prompt Injection : comment les hackers piratent les IA
569Le Big Data 

Jailbreak et Prompt Injection : comment les hackers piratent les IA

Les intelligences artificielles génératives sont désormais exposées à deux catégories d'attaques bien documentées : le jailbreak et la prompt injection. Le jailbreak consiste à contourner les règles de sécurité intégrées dans un modèle de langage, ces filtres conçus pour empêcher la génération de contenus illégaux, haineux ou dangereux. La prompt injection, elle, introduit des instructions malveillantes directement dans l'entrée du modèle, en exploitant le fait que les LLM ne distinguent pas naturellement une donnée d'une commande. Microsoft et OpenAI ont tous deux documenté de nombreux cas réels où des séquences de messages soigneusement construites, parfois sous forme de jeux de rôle ou de formulations persuasives, ont suffi à faire contourner ses garde-fous à un modèle. La prompt injection prend deux formes : directe, via le champ de saisie de l'utilisateur, ou indirecte, dissimulée dans un document externe lu par l'IA, comme un e-mail ou une page web. Ces vulnérabilités cessent d'être des curiosités techniques dès lors que les IA pilotent des systèmes critiques en entreprise. Un modèle compromis peut exfiltrer des données confidentielles, exécuter des commandes non autorisées ou propager des contenus nuisibles à grande échelle. La dangerosité tient en grande partie à l'asymétrie de l'attaque : ces techniques sont faciles à lancer, ne nécessitent aucune modification du code source, mais restent difficiles à détecter en temps réel. Les applications d'entreprise qui connectent des LLM à des bases de données, des messageries ou des outils internes représentent une surface d'attaque particulièrement exposée, car une injection indirecte peut s'activer sans intervention directe de l'attaquant sur l'interface. La combinaison des deux méthodes amplifie encore le risque : le jailbreak peut être le résultat d'une série de prompts injectés progressivement, poussant le modèle à ignorer ses instructions de base par accumulation. Ce phénomène s'inscrit dans un contexte plus large où la sécurité des systèmes IA accuse un retard structurel sur leur déploiement. Contrairement à la sécurité applicative classique, il n'existe pas encore de standard universel pour auditer ou certifier la robustesse d'un modèle face à ces attaques. Les chercheurs en sécurité, les équipes red team d'OpenAI, Google et Anthropic, ainsi que des cabinets indépendants, travaillent à établir des benchmarks fiables, mais la course entre attaque et défense reste ouverte. La vigilance humaine dans la supervision des sorties des modèles demeure, à ce stade, la mesure de protection la plus concrète disponible.

SécuritéOpinion
1 source
OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?
570Le Big Data 

OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?

OpenAI travaille en secret sur une fonctionnalité majeure pour ChatGPT, baptisée en interne "Hermes". Les premières informations proviennent de captures d'écran issues de tests internes, diffusées le 21 avril 2026 par Tibor Blaho, un leaker reconnu pour la fiabilité de ses révélations sur OpenAI. D'après ces images, Hermes serait une plateforme complète dédiée aux agents IA, intégrant un outil de création appelé "Studio", des modèles de workflows prêts à l'emploi, ainsi qu'un système de planification. Les agents pourraient fonctionner 24h/24 et 7j/7, être déployés dans des services tiers comme Slack, et se voir attribuer des compétences, fichiers, instructions et mémoire persistante. Un utilisateur pourrait, par exemple, confier à un agent la gestion des messages Slack entrants pendant la nuit ou la génération automatique d'un rapport hebdomadaire chaque lundi matin. L'enjeu est considérable pour le marché du travail et l'industrie technologique. Si Hermes tient ses promesses, combiné à Codex, l'outil de génération de code d'OpenAI, il pourrait automatiser une part significative des tâches administratives et répétitives au sein des entreprises. Les postes concernés ne disparaîtraient pas nécessairement du jour au lendemain, mais pourraient se réduire progressivement à des fonctions de supervision, selon les observateurs du secteur. Pour les entreprises, cela représenterait un levier de productivité important. Pour les travailleurs du tertiaire, c'est une pression supplémentaire sur des métiers déjà fragilisés par l'automatisation croissante des processus. Hermes s'inscrit dans une stratégie plus large d'OpenAI visant à transformer ChatGPT en une véritable plateforme d'agents, en capitalisant sur les GPT personnalisés et le générateur de workflows déjà présents. Aucun calendrier officiel ni détail technique n'ont été communiqués par l'entreprise, qui reste délibérément discrète. Selon certains observateurs, ce silence serait lié à des contraintes d'infrastructure : OpenAI voudrait s'assurer de disposer d'une capacité de calcul suffisante avant d'annoncer un lancement et de déclencher une explosion de la demande. En parallèle, d'autres fonctionnalités seraient en développement, dont une personnalisation des images à partir d'une photo de référence dans ImageGen, un "Concours Images 2.0" et un mode "Résumé audio" offrant plusieurs formats allant du podcast radio au briefing exécutif. OpenAI se retrouve en compétition directe avec Google, Microsoft et des acteurs émergents comme Cohere sur le segment des agents d'entreprise, un marché que tous considèrent comme le prochain terrain décisif de l'IA générative.

UESi Hermes est lancé, les travailleurs européens du tertiaire seraient exposés à une automatisation accrue de leurs tâches administratives et répétitives via ChatGPT.

OutilsOutil
1 source
571AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
ChatGPT et Claude en panne : que s’est-il réellement passé ?
572Le Big Data 

ChatGPT et Claude en panne : que s’est-il réellement passé ?

Le 20 avril 2026, en début d'après-midi, les deux assistants IA les plus utilisés au monde ont connu des perturbations simultanées. ChatGPT d'OpenAI et Claude d'Anthropic ont affiché des temps de réponse anormalement longs, voire des pannes complètes pour certains utilisateurs. Les premières alertes ont émergé autour de 16h, heure française, avec une hausse nette des signalements sur DownDetector. Les requêtes s'accumulaient sans réponse, les délais s'allongeaient, et les utilisateurs constataient rapidement que le problème ne se limitait pas à un seul service. Copilot de Microsoft et Gemini de Google ont également montré des signes de ralentissement au même moment, avec une latence inhabituelle bien que leurs services soient restés partiellement opérationnels. La panne a touché simultanément plusieurs acteurs majeurs, ce qui a immédiatement orienté les soupçons vers une cause commune en amont des applications elles-mêmes. Le principal suspect est Cloudflare, l'un des fournisseurs d'infrastructure réseau les plus critiques d'Internet. Ce service joue un rôle de relais et de filtre entre les utilisateurs et les serveurs des plateformes : il accélère le trafic, absorbe les attaques DDoS et gère la distribution des requêtes à l'échelle mondiale. Quand Cloudflare rencontre des difficultés, l'effet peut se propager en cascade sur des dizaines de services dépendants. La page de statut officielle de Cloudflare a effectivement signalé ce jour-là des dégradations sur plusieurs composants clés, notamment Analytics, Rules, Workers et Zero Trust. Ces modules sont au coeur du fonctionnement de nombreuses applications web modernes. Aucun lien officiel n'a toutefois été confirmé entre cet incident Cloudflare et les pannes de ChatGPT et Claude, mais la coïncidence temporelle et la nature simultanée des perturbations sur plusieurs plateformes indépendantes renforcent fortement cette hypothèse. Cet incident illustre une vulnérabilité structurelle de l'écosystème IA actuel : la concentration de l'infrastructure critique entre les mains d'un petit nombre de fournisseurs. OpenAI, Anthropic, Microsoft et Google ont beau opérer des produits concurrents, ils partagent souvent les mêmes couches d'infrastructure réseau, de CDN et de sécurité. Une défaillance à ce niveau peut donc paralyser simultanément des services qui semblent pourtant indépendants. À mesure que les outils d'IA s'intègrent dans les workflows professionnels quotidiens, rédaction, développement, analyse, leur indisponibilité, même temporaire, génère un impact économique et opérationnel réel. Cet épisode devrait relancer les discussions sur la résilience des infrastructures IA et la nécessité, pour les grands acteurs, de diversifier leurs dépendances techniques pour éviter qu'un seul point de défaillance ne mette à genoux l'ensemble du secteur.

UELes professionnels français utilisant ChatGPT ou Claude dans leurs workflows quotidiens ont subi une interruption de service, révélant la dépendance structurelle de l'écosystème IA européen envers quelques fournisseurs d'infrastructure réseau américains.

573AWS ML Blog 

Amazon Bedrock propose désormais une attribution détaillée des coûts

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité d'attribution granulaire des coûts pour Amazon Bedrock, son service d'inférence d'IA en cloud. Désormais, Bedrock attribue automatiquement chaque dépense d'inférence à l'identité IAM (Identity and Access Management) qui a effectué l'appel, qu'il s'agisse d'un utilisateur IAM classique, d'un rôle assumé par une application Lambda, ou d'une identité fédérée via un fournisseur comme Okta ou Microsoft Entra ID. Ces données apparaissent directement dans AWS Cost and Usage Reports (CUR 2.0) sans aucune ressource supplémentaire à gérer ni modification des workflows existants. Concrètement, un rapport peut montrer qu'Alice a dépensé 0,069 dollar en tokens d'entrée et 0,214 dollar en tokens de sortie avec Claude Sonnet 4.6, pendant que Bob a consommé 1,188 dollar au total avec Claude Opus 4.6, avec une précision à l'identité près. Il est également possible d'ajouter des tags de coût sur les identités IAM pour regrouper les dépenses par équipe, projet ou centre de coût dans AWS Cost Explorer. Cette visibilité fine répond à un besoin croissant des entreprises qui voient l'inférence IA représenter une part de plus en plus significative de leur facture cloud. Sans attribution précise, il est impossible de refacturer correctement les équipes internes, d'identifier les usages inefficaces ou de planifier les budgets. Grâce à cette fonctionnalité, un DSI peut désormais savoir exactement quelle équipe produit, quel service applicatif ou quel développeur génère quels coûts LLM, sans déployer d'infrastructure de monitoring supplémentaire. Pour les organisations qui font transiter leurs appels via une passerelle LLM centralisée, AWS recommande d'utiliser AssumeRole avec des tags de session dynamiques afin de préserver la granularité par utilisateur final, même derrière un proxy unique. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à rendre l'IA générative compatible avec les pratiques de gouvernance financière des entreprises. Amazon Bedrock, qui donne accès à des modèles de plusieurs éditeurs dont Anthropic, Mistral et Meta, doit convaincre les directions financières que la dépense IA est traçable et contrôlable. La concurrence avec Azure AI et Google Vertex AI pousse AWS à muscler ses outils de FinOps autour de l'IA. À mesure que les modèles comme Claude Opus deviennent plus coûteux à l'usage, la capacité à attribuer précisément chaque dollar dépensé devient un argument de vente central pour les déploiements en entreprise, où la responsabilisation budgétaire par équipe est souvent non négociable.

UELes entreprises européennes utilisant Amazon Bedrock peuvent désormais attribuer précisément leurs dépenses d'inférence IA par équipe ou projet, facilitant la gouvernance financière et la refacturation interne sans infrastructure supplémentaire.

InfrastructureActu
1 source
19 outils de red teaming pour l'IA (2026) : sécurisez vos modèles ML
574MarkTechPost 

19 outils de red teaming pour l'IA (2026) : sécurisez vos modèles ML

La sécurité des systèmes d'intelligence artificielle est devenue un enjeu majeur en 2026, poussant un nombre croissant d'équipes techniques à adopter des pratiques dites de "red teaming IA", une discipline qui consiste à tester les modèles d'apprentissage automatique en simulant des attaques adversariales réelles. Contrairement aux tests de pénétration classiques qui ciblent des failles logicielles connues, le red teaming IA explore des vulnérabilités spécifiques aux modèles génératifs : injection de prompt, empoisonnement de données, contournement des garde-fous (jailbreaking), fuite de données d'entraînement ou exploitation de biais. Un panorama publié en 2026 recense les 19 outils les plus fiables dans ce domaine, couvrant aussi bien des solutions open-source que des plateformes commerciales. Parmi eux figurent Garak, un toolkit open-source dédié aux LLM, PyRIT de Microsoft, l'outil AIF360 d'IBM centré sur les biais algorithmiques, Foolbox pour les attaques adversariales sur les modèles de vision, ou encore Mindgard et Dreadnode Crucible pour les évaluations automatisées de vulnérabilités. Des outils comme Guardrails ou Snyk s'adressent plus spécifiquement aux développeurs cherchant à intégrer la défense contre les injections de prompt directement dans leur pipeline de développement. L'importance de ces outils dépasse largement le cadre purement technique. Les organisations qui déploient des systèmes d'IA à fort impact, dans la santé, la finance, la justice ou les ressources humaines, sont désormais soumises à des cadres réglementaires qui exigent explicitement des évaluations adversariales. L'AI Act européen, le NIST Risk Management Framework américain et plusieurs décrets exécutifs aux États-Unis imposent ou recommandent fortement le red teaming pour les déploiements à haut risque. Au-delà de la conformité, ces pratiques permettent de détecter des comportements émergents imprévus, des failles qui n'apparaissent pas lors des tests standard en pré-production mais se manifestent en conditions réelles, avec des utilisateurs malveillants ou des données inattendues. Cette montée en puissance du red teaming IA s'inscrit dans un contexte de généralisation rapide des modèles génératifs en production, exposant des surfaces d'attaque inédites que les approches de sécurité traditionnelles ne couvrent pas. Microsoft, IBM et des startups spécialisées comme Mindgard ou Dreadnode ont investi massivement dans des plateformes capables d'automatiser ces tests et de les intégrer aux pipelines CI/CD, permettant une évaluation continue plutôt que ponctuelle. La tendance est à la combinaison d'expertise humaine et d'automatisation : les équipes de sécurité internes ou les prestataires spécialisés utilisent ces outils pour simuler des comportements d'attaquants sophistiqués, identifier les angles morts des modèles et renforcer leur résilience avant qu'une vulnérabilité ne soit exploitée en production.

UEL'AI Act européen imposant des évaluations adversariales pour les systèmes à haut risque, ces outils de red teaming deviennent indispensables pour les organisations françaises et européennes cherchant à se conformer aux exigences réglementaires.

SécuritéActu
1 source
575AWS ML Blog 

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil
1 source
576VentureBeat AI 

NanoClaw et Vercel simplifient les règles et validations pour agents IA dans 15 applications de messagerie

NanoCo, la startup privée issue du projet open source NanoClaw, a annoncé le 17 avril 2026 un partenariat stratégique avec Vercel et OneCLI pour lancer NanoClaw 2.0, un système de contrôle humain intégré directement dans l'infrastructure des agents IA autonomes. Concrètement, ce système intercepte toute action sensible d'un agent, modification d'infrastructure cloud, envoi d'email, virement bancaire, et envoie une demande d'approbation interactive à l'utilisateur sur l'une des 15 applications de messagerie supportées : Slack, WhatsApp, Telegram, Microsoft Teams, Discord, Google Chat, iMessage, Messenger, Instagram, X, GitHub, Linear, Matrix, Email et Webex. L'utilisateur reçoit une carte native dans son application habituelle et approuve ou refuse en un seul tap. Ce mécanisme repose sur la combinaison du Chat SDK de Vercel, qui unifie le déploiement sur toutes ces plateformes depuis une seule base de code TypeScript, et du Rust Gateway d'OneCLI, qui intercepte les requêtes sortantes avant qu'elles n'atteignent le service cible. L'enjeu central de cette annonce est la résolution d'un problème de sécurité fondamental qui bloquait l'adoption enterprise des agents IA : jusqu'ici, utiliser un agent vraiment utile obligeait à lui confier des clés API réelles et des permissions larges, exposant les systèmes à des erreurs catastrophiques par hallucination ou compromission. NanoClaw 2.0 bascule d'une sécurité "au niveau applicatif", où c'est l'agent lui-même qui demande la permission, et pourrait donc manipuler l'interface, à une sécurité "au niveau infrastructure", totalement indépendante du modèle. Gavriel Cohen, cofondateur de NanoCo et ancien ingénieur chez Wix.com, résume le risque précédent ainsi : un agent malveillant ou compromis pourrait inverser les boutons "Approuver" et "Refuser" dans sa propre interface de validation. Avec le nouveau système, l'agent ne voit jamais les vraies clés API ; il manipule uniquement des clés fictives ("placeholder"), et le gateway Rust injecte les credentials réels chiffrés uniquement après approbation humaine explicite. NanoClaw avait été lancé le 31 janvier 2026 comme réponse minimaliste aux frameworks d'agents jugés trop complexes et intrinsèquement non sécurisés, notamment par leur absence de sandboxing. Les agents tournent dans des conteneurs Docker ou Apple Container strictement isolés, ce qui constitue le socle technique de toute la chaîne de contrôle. Ce partenariat avec Vercel et OneCLI représente la première tentative d'établir un standard d'infrastructure partagé pour la gouvernance des agents autonomes en entreprise, un marché encore largement non normalisé. Les cas d'usage prioritaires visés sont les équipes DevOps, qui pourraient valider des changements d'infrastructure via Slack, et les équipes finance, qui pourraient approuver des paiements batch via WhatsApp. La prochaine étape logique sera de savoir si d'autres frameworks d'agents, LangChain, AutoGen, CrewAI, adopteront des mécanismes similaires, ou si NanoClaw parviendra à s'imposer comme référence de facto pour la supervision humaine dans les pipelines agentiques d'entreprise.

SécuritéActu
1 source
577VentureBeat AI 

L'IA tient-elle ses promesses ? Transformer l'élan vers l'IA en valeur mesurable

Les grandes entreprises traversent aujourd'hui ce que Brian Gracely, directeur de la stratégie de portefeuille chez Red Hat, appelle le moment "Day 2" de l'intelligence artificielle : la phase où les pilotes cèdent la place à la production, et où les questions de coût, de gouvernance et de rentabilité deviennent plus complexes que la construction des systèmes eux-mêmes. Lors d'une session de l'AI Impact Tour de VentureBeat, Gracely a illustré cette réalité avec un exemple frappant : des clients qui détiennent 50 000 licences de Microsoft Copilot sans savoir précisément ce que leurs employés en tirent, tout en payant pour ce qu'il décrit comme "le calcul informatique le plus cher du monde, parce que ce sont des GPU". Après deux ou trois cycles budgétaires consacrés à l'IA générative, les directions d'entreprise ne demandent plus "peut-on construire quelque chose ?" mais "obtenons-nous ce pour quoi nous payons ?" Le problème central n'est pas seulement le coût brut de l'infrastructure GPU : c'est l'absence d'instrumentation permettant de relier les dépenses aux résultats concrets, rendant quasi impossible la justification des renouvellements de contrats à grande échelle. Cette prise de conscience provoque un changement stratégique profond dans la manière dont les entreprises envisagent leur rapport à l'IA. Le modèle dominant des deux dernières années, payer un fournisseur au token, au siège ou à l'appel API en lui déléguant toute l'infrastructure, est de plus en plus remis en question. Gracely résume cette évolution : plutôt que d'être purement "consommateur de tokens", certaines organisations cherchent à devenir "productrices de tokens", en évaluant quels usages justifient de posséder ou louer directement des GPU, et si les cas d'usage nécessitent vraiment les modèles les plus avancés ou si des modèles ouverts plus légers suffisent. Cette décision n'est pas binaire : elle dépend de la tolérance au risque, de la nature des charges de travail et de la maturité de chaque organisation. Le paradoxe auquel font face les responsables financiers est bien réel. Le PDG d'Anthropic, Dario Amodei, a estimé que les coûts d'inférence chutent d'environ 60 % par an, et l'émergence de modèles open source comme DeepSeek a considérablement élargi les alternatives stratégiques disponibles. Pourtant, la baisse du coût unitaire ne se traduit pas par une réduction des factures totales : l'usage s'accélère à un rythme qui compense largement les gains d'efficacité. C'est une manifestation du paradoxe de Jevons, principe économique selon lequel l'amélioration de l'efficacité d'une ressource tend à augmenter sa consommation globale plutôt qu'à la réduire. Une entreprise qui triple son utilisation de l'IA pendant que les coûts diminuent de moitié dépense encore davantage qu'avant. Pour les décideurs, cela signifie que la maturité de l'IA en entreprise passe désormais par une discipline opérationnelle rigoureuse, et non plus par l'enthousiasme des premières expérimentations.

BusinessOpinion
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
578AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

579Ars Technica AI 

Les Américains consultent l'IA pour leur santé : les hôpitaux misent sur encore plus de chatbots

De plus en plus d'Américains se tournent vers les grands modèles de langage comme ChatGPT pour obtenir des conseils médicaux, et les systèmes de santé du pays commencent à réagir en déployant leurs propres chatbots estampillés à leur marque. Des établissements hospitaliers à travers les États-Unis expérimentent ou lancent déjà ces outils, dans le but de capter une demande existante et de rediriger les patients vers leurs propres services. Allon Bloch, PDG de la société d'IA clinique K Health, résume la situation ainsi : "Nous sommes à un point d'inflexion dans les soins de santé. La demande s'accélère, et les patients utilisent déjà l'IA pour naviguer dans leur vie." Pour les dirigeants de ces établissements, les chatbots maison représentent à la fois un service de commodité et une réponse à l'équité numérique, en rejoignant les patients là où ils se trouvent déjà. Ils avancent également que leurs outils seront plus sûrs que les versions commerciales grand public auxquelles les patients ont spontanément recours. L'enjeu est considérable : si les gens consultent de toute façon une IA avant d'appeler leur médecin, autant que ce soit une IA encadrée par des professionnels de santé plutôt qu'un outil généraliste sans garde-fous médicaux. Cette tendance émerge dans un contexte où le système de santé américain est déjà sous pression, jugé coûteux et sous-performant par de nombreux observateurs. L'arrivée des chatbots hospitaliers soulève des questions immédiates sur la responsabilité médicale, la confidentialité des données de santé et le risque de mauvais diagnostics. Le mouvement s'inscrit dans une vague plus large d'adoption de l'IA dans le secteur médical, qui voit des acteurs comme Google, Microsoft et des startups spécialisées se positionner sur ce marché stratégique. La capacité des hôpitaux à proposer des alternatives crédibles aux outils grand public dépendra largement de la qualité des données cliniques sur lesquelles ces systèmes seront formés et des protocoles de supervision médicale mis en place.

UECette tendance américaine pourrait se propager aux systèmes de santé européens, soulevant des enjeux réglementaires autour du RGPD et de la responsabilité médicale des chatbots déployés par des établissements de soins.

SociétéOutil
1 source
580MarkTechPost 

Tutoriel Google ADK : pipeline multi-agents pour chargement de données, tests statistiques, visualisation et rapports en Python

Google a publié son Agent Development Kit (ADK), un framework Python open source permettant de construire des systèmes multi-agents capables de réaliser des analyses de données complexes de bout en bout. Un tutoriel détaillé illustre comment assembler un pipeline complet en Python, en utilisant Google ADK aux côtés de bibliothèques établies comme pandas, numpy, scipy, matplotlib et seaborn, ainsi que le modèle GPT-4o-mini d'OpenAI via l'interface LiteLLM. Le système s'articule autour d'un agent analyste central qui orchestre plusieurs agents spécialisés, chacun responsable d'une tâche précise : chargement des données, exploration statistique, tests d'hypothèses, transformations de tableaux, génération de visualisations et production de rapports. L'installation ne nécessite que quelques commandes pip, et l'accès à l'API est sécurisé dès le départ via des variables d'environnement ou les secrets Colab. Ce type d'architecture multi-agents représente un changement concret dans la façon dont les data scientists et les équipes analytiques peuvent automatiser leurs flux de travail. Plutôt que d'enchaîner manuellement des scripts disparates, un agent coordinateur distribue les tâches à des spécialistes, ce qui rend le pipeline modulaire, testable et extensible sans réécriture complète. L'utilisation d'un DataStore centralisé sous forme de singleton garantit que tous les agents partagent le même état et que les résultats intermédiaires restent accessibles tout au long du processus. Pour les entreprises qui manipulent régulièrement de grands volumes de données, ce modèle réduit la friction opérationnelle et ouvre la voie à des analyses reproductibles pilotées par des LLMs, sans dépendre d'une infrastructure lourde. L'annonce s'inscrit dans une tendance plus large : depuis début 2025, plusieurs acteurs majeurs ont lancé leurs propres frameworks d'agents IA, notamment Microsoft avec AutoGen, Anthropic avec son Model Context Protocol, et OpenAI avec ses Assistants API. Google ADK se distingue par son intégration native avec l'écosystème Google Cloud et sa compatibilité avec des modèles tiers via LiteLLM, ce qui le rend agnostique au fournisseur. Le tutoriel cible explicitement un usage en production, avec gestion des erreurs, sérialisation JSON robuste et sessions en mémoire via InMemorySessionService. La prochaine étape logique serait l'intégration avec des sources de données réelles, des bases de données SQL ou des API métier, transformant ce pipeline pédagogique en socle d'une véritable plateforme d'analyse autonome.

OutilsOutil
1 source
581Les Numériques IA 

Actualité : “Un sociopathe prêt à tout” : les proches de Sam Altman brisent le silence dans une enquête accablante contre le patron de ChatGPT

Une enquête journalistique accablante vient d'éclairer sous un jour nouveau la personnalité de Sam Altman, PDG d'OpenAI, l'entreprise derrière ChatGPT. Selon des proches et anciens collaborateurs qui ont brisé le silence, Altman aurait construit sa position dominante dans l'industrie de l'IA en instrumentalisant une rhétorique apocalyptique : convaincre chercheurs, investisseurs et gouvernements que l'intelligence artificielle pourrait anéantir l'humanité, et qu'il était l'homme indispensable pour en prendre les rênes. Certains de ses proches le décrivent comme "un sociopathe prêt à tout" pour maintenir son emprise sur une organisation qu'il a transformée en l'une des plus influentes au monde. Ces révélations interviennent à un moment où OpenAI est valorisée autour de 300 milliards de dollars et négocie en permanence avec des gouvernements sur la régulation de l'IA. Si le portrait dressé par l'enquête est exact, cela soulève des questions fondamentales sur la crédibilité d'Altman comme figure de proue du mouvement dit "d'IA sûre", un positionnement qui lui a permis d'attirer les meilleurs scientifiques du monde et des milliards de dollars de financements, notamment de Microsoft. OpenAI a été fondée en 2015 comme association à but non lucratif dédiée au développement sécurisé de l'IA, avant qu'Altman ne la transforme progressivement en entreprise commerciale de premier plan. En novembre 2023, le conseil d'administration l'avait brièvement licencié, déclenchant une crise interne majeure, avant que la pression des employés et des investisseurs ne le rétablisse dans ses fonctions. Cette enquête relance le débat sur la gouvernance d'OpenAI et la concentration du pouvoir entre les mains d'un seul homme à la tête d'une technologie aux enjeux civilisationnels.

UELes négociations d'OpenAI avec les gouvernements européens sur la régulation de l'IA pourraient être fragilisées si la crédibilité d'Altman comme garant de l'IA responsable est publiquement remise en question.

ÉthiqueActu
1 source
Préparez votre portefeuille : OpenAI lance un nouveau niveau ChatGPT Pro à 100 $
582Le Big Data 

Préparez votre portefeuille : OpenAI lance un nouveau niveau ChatGPT Pro à 100 $

OpenAI a annoncé le 9 avril 2026 un nouveau niveau d'abonnement ChatGPT Pro à 100 dollars par mois, venant s'ajouter au niveau Plus existant. Ce plan premium offre entre 5 et 20 fois plus d'utilisation de Codex, l'outil de génération et de complétion de code intégré à ChatGPT. Les abonnés Pro accèdent également au raisonnement avancé via GPT-5.4 Pro, à un nombre maximal de tâches Codex simultanées, au chargement illimité de fichiers avec GPT-5.3, à la génération d'images sans restriction, ainsi qu'à un accès étendu à la recherche approfondie, au mode agent, aux projets, aux tâches planifiées et aux GPT personnalisés. OpenAI a précisé dans la foulée que l'accès promotionnel à Codex accordé aux abonnés Plus prenait fin le jour même de l'annonce. Ce nouveau palier cible principalement les développeurs intensifs et les professionnels qui s'appuient quotidiennement sur des capacités de raisonnement avancées. Pour eux, la possibilité de conduire des sessions Codex longues et complexes représente un gain concret : prototypes plus ambitieux, itérations plus rapides, réduction du temps de développement logiciel. Les entreprises technologiques peuvent également y voir un levier pour accélérer leurs cycles de production sans multiplier les abonnements individuels. L'accès anticipé aux nouvelles fonctionnalités constitue un avantage supplémentaire pour ceux qui cherchent à rester à la pointe des capacités disponibles. À 100 dollars mensuels, le tarif reste élevé pour un usage individuel, mais se positionne en dessous des coûts d'API pour des volumes d'utilisation équivalents. Cette annonce s'inscrit dans une stratégie de montée en gamme progressive qu'OpenAI déploie depuis le lancement de ChatGPT Plus à 20 dollars en 2023. La société fait face à des coûts d'infrastructure considérables liés à l'entraînement et à l'inférence de modèles toujours plus puissants, et la segmentation tarifaire lui permet de financer ces investissements tout en conservant une offre accessible au grand public. La guerre des assistants IA s'intensifie avec Google, Anthropic et Microsoft qui proposent leurs propres niveaux premium, poussant chaque acteur à différencier son offre par la performance brute et les outils spécialisés. Codex, repositionné comme outil central du plan Pro, illustre le pari d'OpenAI sur le marché des développeurs, segment jugé stratégique pour ancrer l'usage professionnel de ChatGPT dans les workflows d'entreprise. Les prochains mois diront si ce prix trouve preneur au-delà des early adopters.

UELes développeurs et entreprises françaises peuvent souscrire à ce nouveau palier, mais sans avantage tarifaire spécifique pour l'Europe et avec un coût élevé pour un usage individuel.

OutilsOpinion
1 source
Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi
583MIT Technology Review 

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Mustafa Suleyman, PDG de Microsoft AI et cofondateur de DeepMind, affirme que le développement de l'intelligence artificielle n'est pas près de plafonner. Depuis ses débuts dans le domaine en 2010, la puissance de calcul consacrée à l'entraînement des grands modèles a été multipliée par mille milliards : on est passé d'environ 10¹⁴ opérations en virgule flottante pour les premiers systèmes à plus de 10²⁶ aujourd'hui. Les puces Nvidia ont vu leurs performances brutes multipliées par huit en six ans, passant de 312 téraflops en 2020 à 2 500 téraflops aujourd'hui. La mémoire à haute bande passante HBM3 triple le débit de données par rapport à sa génération précédente. Des interconnexions comme NVLink et InfiniBand permettent désormais de relier des centaines de milliers de GPU en supercalculateurs de la taille d'un entrepôt. Ce qui prenait 167 minutes sur huit GPU en 2020 prend aujourd'hui moins de quatre minutes sur du matériel moderne, soit une amélioration de 50x là où la loi de Moore n'en prédisait que 5x. Les dépenses des grands laboratoires en infrastructure de calcul croissent à un rythme d'environ 4x par an, et le parc mondial de calcul dédié à l'IA devrait atteindre l'équivalent de 100 millions de puces H100 d'ici 2027. Ces chiffres ont des implications concrètes pour l'industrie : Suleyman estime qu'on pourrait voir encore 1 000x de puissance de calcul effective d'ici fin 2028. Parallèlement, les coûts d'inférence, c'est-à-dire d'utilisation des modèles, se sont effondrés d'un facteur allant jusqu'à 900 sur une base annualisée. L'IA devient donc radicalement moins chère à déployer, ce qui ouvre l'accès à des entreprises et des usages jusqu'ici inaccessibles économiquement. Selon les recherches d'Epoch AI, la quantité de calcul nécessaire pour atteindre un niveau de performance donné est divisée par deux environ tous les huit mois, un rythme bien supérieur aux 18 à 24 mois du cycle classique de Moore. Les sceptiques prédisent régulièrement un essoufflement de la progression, invoquant le ralentissement de la loi de Moore, la raréfaction des données d'entraînement ou les contraintes énergétiques. Suleyman balaie ces arguments en montrant que la dynamique repose sur trois leviers simultanés et indépendants : des puces plus rapides, une mémoire plus efficace, et une mise en réseau massive des GPU. Son propre laboratoire chez Microsoft a lancé en janvier 2026 la puce Maia 200, qui offre selon lui 30 % de meilleures performances par dollar que tout autre matériel de leur flotte. Le tableau qu'il dresse est celui d'une révolution encore en pleine accélération, où les avancées matérielles et logicielles se renforcent mutuellement, une perspective qui tranche avec le pessimisme ambiant sur les limites supposées de l'IA générative.

InfrastructureOpinion
1 source
Musk met à jour sa plainte contre OpenAI pour rediriger jusqu'à 150 milliards de dollars vers la fondation à but non lucratif
584The Decoder 

Musk met à jour sa plainte contre OpenAI pour rediriger jusqu'à 150 milliards de dollars vers la fondation à but non lucratif

Elon Musk a modifié sa plainte contre OpenAI afin de rediriger les éventuels dommages et intérêts, estimés à 150 milliards de dollars, vers la fondation caritative originelle de l'entreprise, plutôt que vers lui-même. Dans cette mise à jour de son recours judiciaire, le milliardaire affirme explicitement ne vouloir aucun bénéfice personnel issu du litige. OpenAI a répondu en qualifiant cette démarche de "campagne de harcèlement", rejetant toute bonne foi derrière ce geste. Ce repositionnement procédural est notable : en orientant les dommages potentiels vers la structure à but non lucratif, Musk tente de se présenter comme défenseur de la mission originelle d'OpenAI plutôt que comme adversaire cherchant un gain financier. Cela renforce son argument central selon lequel OpenAI a trahi sa vocation initiale en se transformant en entreprise commerciale au service de ses actionnaires, au détriment de l'intérêt public. La manœuvre complique aussi la stratégie de communication d'OpenAI, qui ne peut plus aussi facilement dépeindre Musk comme motivé par l'appât du gain. Musk est l'un des cofondateurs d'OpenAI, qu'il a quitté en 2018, avant de lancer sa propre société d'IA, xAI, concurrente directe. Il a déposé une première plainte contre OpenAI en 2024, reprochant à Sam Altman et à l'organisation d'avoir abandonné leur mission à but non lucratif au profit d'intérêts commerciaux, notamment après l'entrée de Microsoft au capital. Cette affaire s'inscrit dans un contexte plus large de bataille pour le contrôle narratif et juridique de l'avenir de l'IA générale.

BusinessOpinion
1 source
L’alliance inattendue : quand les batteries géantes débloquent la surpuissance de l’intelligence artificielle
585Frandroid 

L’alliance inattendue : quand les batteries géantes débloquent la surpuissance de l’intelligence artificielle

Les grandes installations de stockage par batteries, jusqu'ici connues pour acheter de l'électricité lors des creux tarifaires et la revendre aux heures de pointe, s'ouvrent à une nouvelle activité : alimenter directement les centres de données consacrés à l'intelligence artificielle. Ce modèle, encore émergent, consiste à brancher des batteries industrielles en amont des datacenters pour lisser leur consommation électrique, réduire les pics de demande sur le réseau et garantir une alimentation stable même lorsque l'approvisionnement classique vacille. L'enjeu est considérable pour l'industrie de l'IA, dont les besoins énergétiques explosent. Les grands modèles d'entraînement et d'inférence mobilisent des milliers de GPU en continu, générant des appels de puissance brutaux difficiles à absorber pour les gestionnaires de réseau. En s'intercalant entre le réseau électrique et les serveurs, les batteries permettent aux opérateurs de datacenters de sécuriser leur alimentation, d'éviter des pénalités de dépassement de puissance souscrite et, surtout, de s'implanter dans des zones où la capacité réseau est insuffisante pour ouvrir un datacenter classique. Cette convergence survient alors que les géants du cloud et les startups d'IA se livrent une course mondiale aux infrastructures de calcul, tandis que les réseaux électriques peinent à suivre le rythme. Des développeurs de projets de stockage, notamment aux États-Unis et au Royaume-Uni, explorent déjà des contrats directs avec des opérateurs comme Microsoft, Google ou des acteurs spécialisés en IA. La question reste celle de la rentabilité : combiner arbitrage tarifaire et fourniture de puissance garantie à un datacenter pourrait transformer le modèle économique du stockage stationnaire, longtemps dépendant des seules subventions et des marchés de capacité.

UEL'Europe, confrontée aux mêmes tensions sur ses réseaux électriques face à l'explosion des besoins en datacenters IA, pourrait adopter ce modèle hybride batteries-datacenter pour contourner ses propres contraintes de capacité réseau.

InfrastructureOpinion
1 source
MassMutual et Mass General Brigham ont transforme leurs projets pilotes IA en resultats concrets
586VentureBeat AI 

MassMutual et Mass General Brigham ont transforme leurs projets pilotes IA en resultats concrets

MassMutual et Mass General Brigham (MGB) ont partagé lors d'un événement VentureBeat les leçons tirées de leurs déploiements d'intelligence artificielle en production. Chez MassMutual, assureur vieux de 175 ans, les résultats sont mesurables : gain de productivité de 30% pour les développeurs, temps de résolution au help desk IT réduit de 11 minutes à une seule, et durée des appels clients divisée par 10, passant de 15 minutes à une ou deux. Sears Merritt, directeur de la technologie d'entreprise, explique que son équipe applique une discipline rigoureuse avant tout déploiement : définir précisément le problème, fixer des métriques de succès claires, et refuser d'avancer sans que les parties prenantes métier valident que la solution fonctionne. L'entreprise pratique également un scoring de confiance pour réduire les hallucinations, établit des seuils d'évaluation, et surveille les dérives de modèles. MGB, système de santé à but non lucratif comptant 15 000 chercheurs, a pour sa part commencé par une approche dispersée avant de faire volte-face : le CTO Nallan Sriraman a choisi l'an dernier de fermer l'ensemble des pilotes IA non gouvernés, préférant repartir sur des bases structurées. Ce changement de cap illustre un problème systémique dans les grandes organisations : les programmes IA échouent rarement par manque de bonnes idées, mais parce qu'ils restent bloqués dans un état de pilote permanent, sans jamais atteindre la production. La discipline imposée par MassMutual, qui refuse tout engagement sur un modèle unique et a construit des couches de services communs, des microservices et des API entre la couche IA et les systèmes existants, lui permet de changer de modèle sans tout reconstruire. Cette flexibilité architecturale est un avantage compétitif direct : comme le formule Merritt, "le meilleur du marché aujourd'hui peut devenir le pire demain." Pour MGB, arrêter les pilotes non gouvernés a permis de recentrer les investissements sur ce qui produit vraiment de la valeur clinique et opérationnelle. MassMutual opère dans un environnement technologique délibérément hétérogène, combinant des modèles de pointe avec des mainframes sous COBOL, reflet de décennies de couches techniques accumulées. MGB, de son côté, a engagé des conversations stratégiques avec ses fournisseurs de plateformes principaux, Epic, Workday, ServiceNow et Microsoft, pour comprendre leurs feuilles de route IA, une étape décrite comme un moment charnière dans la refonte de sa gouvernance. Ces deux trajectoires convergent vers le même constat : la maturité IA en entreprise ne se mesure pas au nombre de pilotes lancés, mais à la capacité à passer de l'expérimentation au déploiement avec des indicateurs définis, une gouvernance claire, et une architecture pensée pour évoluer.

OutilsOpinion
1 source
Anthropic intensifie ses activités politiques avec un nouveau PAC
587TechCrunch AI 

Anthropic intensifie ses activités politiques avec un nouveau PAC

Anthropic, le laboratoire d'intelligence artificielle fondé par Dario et Daniela Amodei, a officiellement lancé un comité d'action politique (PAC) en vue des élections de mi-mandat aux États-Unis. Cette structure lui permet de financer directement des candidats politiques dont les positions s'alignent avec les priorités réglementaires de l'entreprise en matière d'IA. Cette décision marque une escalade significative dans l'implication politique du secteur de l'IA. En soutenant des candidats favorables à son agenda, Anthropic cherche à peser sur les futures lois encadrant le développement et le déploiement des modèles d'intelligence artificielle, un enjeu majeur alors que le Congrès américain débat activement de plusieurs propositions législatives sur le sujet. Ce mouvement s'inscrit dans une tendance plus large : OpenAI, Google et Microsoft ont tous intensifié leurs activités de lobbying ces dernières années, dépensant des dizaines de millions de dollars pour influencer la politique technologique américaine. Anthropic, qui a levé plusieurs milliards de dollars auprès d'Amazon et de Google, cherche désormais à s'imposer non seulement comme un acteur technique de premier plan, mais aussi comme une force politique capable de façonner le cadre réglementaire dans lequel évoluera l'IA générative.

RégulationReglementation
1 source
Fini le chaos dans Gmail ? Google lance AI Inbox pour prioriser vos mails mais il faudra payer 250 dollars par mois
588Siècle Digital 

Fini le chaos dans Gmail ? Google lance AI Inbox pour prioriser vos mails mais il faudra payer 250 dollars par mois

Google a annoncé le lancement d'AI Inbox, une nouvelle fonctionnalité pour Gmail qui utilise l'intelligence artificielle pour trier et prioriser les emails des utilisateurs. Proposée à 250 dollars par mois, cette solution s'adresse avant tout aux professionnels et aux entreprises débordées par le volume croissant de messages. Concrètement, l'outil abandonne la liste chronologique traditionnelle au profit de deux catégories principales, séparant les messages urgents ou importants du reste du flux. L'enjeu est considérable : la boîte de réception est devenue un espace chaotique où cohabitent newsletters, confirmations d'achat, alertes automatiques et messages véritablement prioritaires. Pour des millions de professionnels, des communications critiques passent régulièrement inaperçues, noyées dans ce flot incessant. Une IA capable de distinguer l'urgent de l'accessoire pourrait représenter un gain de productivité réel, mais le tarif de 250 dollars mensuels positionne clairement cette offre hors de portée du grand public, la réservant aux utilisateurs disposant déjà d'abonnements Google Workspace premium. Ce lancement s'inscrit dans la stratégie plus large de Google visant à monétiser l'IA générative au sein de sa suite professionnelle, face à une concurrence accrue de Microsoft et de son assistant Copilot intégré à Outlook. Le problème de la surcharge des boîtes mail n'est pas nouveau, et de nombreuses startups ont tenté d'y répondre sans jamais s'imposer à grande échelle. Google dispose ici d'un avantage structurel : des milliards de données d'usage et une intégration native dans un outil déjà omniprésent. Reste à savoir si le prix élevé ne freinera pas l'adoption, même chez les utilisateurs les plus convaincus.

UELes organisations européennes sous Google Workspace devront arbitrer entre ce surcoût de 250 $/mois et les offres concurrentes déjà disponibles dans leur suite bureautique.

OutilsOutil
1 source
Malgré les suppressions massives, le clone de l'outil de code IA d'Anthropic a été dupliqué plus de 8 000 fois sur GitHub
589The Decoder 

Malgré les suppressions massives, le clone de l'outil de code IA d'Anthropic a été dupliqué plus de 8 000 fois sur GitHub

Le code source de Claude Code, l'outil de programmation assistée par IA d'Anthropic, a été accidentellement rendu public par l'entreprise elle-même. Malgré des tentatives massives de suppression sur GitHub, le dépôt a été forké plus de 8 000 fois avant que les takedowns ne prennent effet, rendant la fuite pratiquement impossible à contenir. L'ampleur de cette fuite est potentiellement considérable pour Anthropic. Le code source d'un outil commercial propriétaire expose l'architecture interne, les choix d'implémentation et possiblement des détails sur les intégrations avec les modèles Claude — des informations que la concurrence (OpenAI, Google, Microsoft) peut analyser en détail. Pour les utilisateurs, la fuite ne présente pas de risque direct, mais elle affaiblit la position concurrentielle d'Anthropic sur le marché des assistants de développement, segment en forte croissance. Claude Code est l'un des outils phares d'Anthropic pour capter les développeurs professionnels, face à GitHub Copilot et Cursor. La startup, valorisée à plus de 60 milliards de dollars après ses dernières levées de fonds, mise sur ces outils pour monétiser ses modèles au-delà des API. Une fuite de ce type illustre les risques opérationnels croissants des entreprises d'IA qui gèrent simultanément des modèles, des produits grand public et des dépôts de code sensibles — et soulève des questions sur les processus internes de gestion des accès chez Anthropic.

BusinessOpinion
1 source
L’impressionnante reconversion de Dell : du secteur des PC à celui des serveurs IA
590Presse-citron 

L’impressionnante reconversion de Dell : du secteur des PC à celui des serveurs IA

Dell Technologies a enregistré une croissance de 103 % de son activité liée à l'intelligence artificielle au cours de son exercice fiscal en cours, une progression qui illustre la transformation profonde d'un groupe longtemps associé aux ordinateurs personnels grand public. L'entreprise s'est repositionnée sur la fourniture de solutions complètes pour l'IA : serveurs haute densité compatibles GPU, infrastructures de stockage et services d'intégration destinés aux entreprises qui déploient des modèles d'IA à grande échelle. Ce virage stratégique place Dell en compétition directe avec HPE, Supermicro et les hyperscalers sur le marché de l'infrastructure IA, qui représente l'un des segments les plus dynamiques de l'industrie technologique mondiale. La demande explose côté entreprises — banques, assureurs, industriels — qui cherchent à internaliser leurs capacités IA plutôt que de dépendre exclusivement du cloud public, créant ainsi un débouché massif pour les intégrateurs capables de livrer des stacks clés en main. Dell bénéficie ici d'un avantage structurel : ses relations commerciales historiques avec des centaines de milliers d'entreprises lui permettent de vendre de l'infrastructure IA à des clients qu'il fournit déjà en matériel depuis des décennies. Cette reconversion rappelle celle d'IBM vers les services ou de Microsoft vers le cloud — une entreprise dite « mature » qui trouve un second souffle en surfant sur un cycle technologique majeur. La trajectoire de croissance à trois chiffres suggère que ce repositionnement n'en est qu'à ses débuts.

UELes entreprises françaises et européennes (banques, assureurs, industriels) qui cherchent à internaliser leur infrastructure IA disposent d'un fournisseur supplémentaire capable de livrer des stacks clés en main, réduisant leur dépendance au cloud public.

InfrastructureOpinion
1 source
Llama.cpp intègre Google TurboQuant : quels gains pour votre PC ou Mac ?
591Frandroid 

Llama.cpp intègre Google TurboQuant : quels gains pour votre PC ou Mac ?

L'article source fourni est quasi vide — c'est un teaser d'une ligne sans contenu réel. Je vais rédiger sur la base de ce que je sais du sujet, mais préviens que les détails spécifiques (chiffres de gains, date d'intégration exacte) nécessiteraient la lecture de l'article complet. --- Le projet open-source llama.cpp a intégré TurboQuant, une technique de quantification développée par Google Research, permettant de compresser le cache KV (Key-Value) des modèles de langage lors de l'inférence. Concrètement, cette couche mémoire — qui stocke les états d'attention pour générer du texte sur de longues séquences — constitue le principal goulot d'étranglement pour faire tourner des modèles avec de grandes fenêtres de contexte sur du matériel grand public. TurboQuant réduit la précision de ce cache de FP16 à des formats plus compacts (INT4 ou INT8), diminuant drastiquement l'empreinte mémoire sans dégradation sensible de la qualité. Pour les utilisateurs de Mac Apple Silicon ou de PC équipés de GPU mid-range comme une RTX 3060 ou 4060, cette intégration change concrètement ce qui est faisable localement : des contextes de 32 000 à 128 000 tokens deviennent accessibles sur des machines qui auraient auparavant saturé leur VRAM bien avant. Les développeurs, chercheurs ou professionnels qui utilisent des modèles locaux pour analyser de longs documents — contrats, bases de code, articles — en bénéficient directement. La quantification du cache KV est un chantier actif depuis 2024, avec des contributions parallèles de Meta, Microsoft et de la communauté llama.cpp. Google TurboQuant s'inscrit dans cette course à l'efficacité mémoire qui conditionne l'adoption grand public de l'IA locale. L'intégration dans llama.cpp — le moteur d'inférence le plus utilisé sur PC et Mac — lui donne une portée immédiate sur des millions d'installations, sans dépendance au cloud. --- Note : l'article source ne contenait qu'un titre et une phrase. Si tu as accès au corps complet, je peux affiner avec les chiffres précis.

OutilsOutil
1 source
Qualified Health lève 125 M$ pour déployer l’IA générative dans la santé
592Le Big Data 

Qualified Health lève 125 M$ pour déployer l’IA générative dans la santé

Qualified Health a levé 125 millions de dollars lors d'un tour de série B, portant son total de financement à 155 millions depuis sa fondation en 2023. Le tour a été mené par New Enterprise Associates, avec la participation d'Anthropic, Transformation Capital, GreatPoint Ventures, Cathay Innovation et le fonds Anthology de Menlo Ventures, aux côtés des investisseurs historiques SignalFire, Flare Capital Partners et Intermountain Ventures. La start-up, dont la valorisation est estimée entre 500 millions et un milliard de dollars par ses dirigeants, annonce vouloir utiliser ces fonds pour étendre sa présence sur le marché hospitalier américain et accélérer le développement produit. Une introduction en bourse est également envisagée à moyen terme. Ce financement intervient à un moment où les grands systèmes de santé américains cherchent à dépasser le stade des projets pilotes pour déployer l'IA à grande échelle. Qualified Health propose une plateforme d'infrastructure complète — intégration des données, formation des équipes, supervision des workflows, évaluation continue des agents d'IA — assortie de mécanismes de gouvernance stricts : supervision clinique, auditabilité, traçabilité des décisions et surveillance post-déploiement. Cette approche répond directement aux exigences réglementaires et de responsabilité qui freinent encore l'adoption de l'IA dans le secteur médical. À l'UTMB (University of Texas Medical Branch), la plateforme a généré un impact économique de plus de 15 millions de dollars en six mois. La start-up revendique désormais 400 000 utilisateurs actifs, représentant environ 5 % du chiffre d'affaires hospitalier américain. Le secteur de la santé constitue l'un des marchés les plus convoités — et les plus difficiles — pour l'IA générative, en raison de la sensibilité des données, de la complexité réglementaire et des enjeux de responsabilité clinique. Qualified Health travaille déjà avec des institutions de premier plan : Emory Healthcare, University of Rochester Medicine, Jefferson Health, MD Anderson Cancer Center et UT Southwestern Medical Center. La présence d'Anthropic au capital est notable : le créateur de Claude, positionné sur la sécurité des systèmes d'IA, valide implicitement l'approche de gouvernance de la start-up. Dans un contexte où des acteurs comme Microsoft (Nuance), Google et Amazon investissent massivement dans la santé numérique, Qualified Health mise sur une intégration profonde dans les opérations hospitalières plutôt que sur des outils ponctuels — un pari sur la durée qui, s'il se concrétise, pourrait en faire une infrastructure critique pour des dizaines d'hôpitaux américains.

BusinessActu
1 source
Le Codex d'OpenAI s'intègre à Slack, Notion, Figma et d'autres outils via une place de marché de plugins
593The Decoder 

Le Codex d'OpenAI s'intègre à Slack, Notion, Figma et d'autres outils via une place de marché de plugins

OpenAI enrichit son assistant de codage Codex avec une place de marché de plugins permettant de l'intégrer directement aux outils de travail les plus répandus : Slack, Figma, Notion, Gmail et Google Drive sont parmi les premières intégrations annoncées. Cette extension transforme Codex, jusqu'ici centré sur la génération et la révision de code, en un hub connecté à l'environnement de travail quotidien des équipes techniques. L'enjeu est de supprimer les frictions entre l'assistant IA et les workflows existants. Un développeur pourra, par exemple, demander à Codex de lire un ticket Notion, générer le code correspondant et poster un résumé dans un canal Slack, sans quitter l'interface. Pour les équipes produit et design, la connexion à Figma ouvre la possibilité de transformer des maquettes directement en code, réduisant les allers-retours entre designers et ingénieurs. Cette annonce s'inscrit dans la course que se livrent OpenAI, GitHub Copilot (Microsoft) et Google avec Gemini Code Assist pour dominer le marché des outils de développement assistés par IA. En misant sur l'intégration aux outils de collaboration plutôt que sur la seule performance du modèle, OpenAI adopte une stratégie d'écosystème similaire à celle qui a fait le succès de Slack ou Notion eux-mêmes — et qui pourrait rendre Codex difficile à déloger une fois ancré dans les habitudes des équipes.

OutilsOutil
1 source
« La Silicon Valley a compris avant tout le monde que la guerre du futur serait une guerre logicielle »
594Le Monde Pixels 

« La Silicon Valley a compris avant tout le monde que la guerre du futur serait une guerre logicielle »

Georges Nahon, ancien directeur général d'Orange Labs, publie dans Le Monde une tribune dans laquelle il interroge la nécessité d'une nationalisation partielle, voire totale, des grandes entreprises d'intelligence artificielle générative. Face à la montée en puissance de l'IA dans les stratégies militaires mondiales, il soulève une question que peu d'acteurs institutionnels osent encore poser publiquement : peut-on laisser des technologies aussi décisives entre des mains entièrement privées ? L'enjeu est considérable. Si la guerre du futur est avant tout une guerre logicielle — comme le titre de la tribune l'affirme —, alors les entreprises qui maîtrisent les modèles de langage les plus avancés détiennent un avantage stratégique comparable à celui que représentaient autrefois l'armement nucléaire ou le contrôle des ressources énergétiques. Laisser cette puissance aux seules mains d'acteurs privés, non élus et peu régulés, pose des questions démocratiques et sécuritaires fondamentales. La Silicon Valley a, selon Nahon, anticipé bien avant les États cette convergence entre IA civile et militaire. Des contrats comme ceux de Palantir, Microsoft ou Google avec l'armée américaine illustrent ce mouvement. En Europe, la question de la souveraineté numérique resurgit avec une acuité nouvelle, alors que ni la France ni l'Union européenne ne disposent de champions comparables capables de peser dans cette nouvelle course aux armements algorithmiques.

UELa tribune soulève directement la question de la souveraineté numérique française et européenne, pointant l'absence de champions IA capables de peser dans la nouvelle course aux armements algorithmiques face aux acteurs américains.

RégulationReglementation
1 source
OpenAI et Anthropic avant leur entrée en bourse : des bilans difficilement comparables
595The Decoder 

OpenAI et Anthropic avant leur entrée en bourse : des bilans difficilement comparables

OpenAI et Anthropic affichent toutes deux une croissance rapide, mais leurs chiffres de revenus s'avèrent difficiles à comparer directement en raison de différences comptables liées à leurs partenariats cloud respectifs. Chaque entreprise enregistre ces revenus selon des méthodes distinctes, ce qui complique toute lecture croisée de leurs bilans financiers à l'approche d'éventuelles introductions en bourse. Ces divergences comptables ont des implications concrètes pour les investisseurs et analystes qui cherchent à évaluer la santé financière réelle des deux acteurs. Une différence de méthode dans la reconnaissance des revenus issus de partenariats cloud — comme ceux d'OpenAI avec Microsoft ou d'Anthropic avec Amazon et Google — peut faire paraître l'une ou l'autre plus ou moins performante sans que cela reflète fidèlement la réalité opérationnelle. OpenAI et Anthropic sont les deux poids lourds du marché des grands modèles de langage commerciaux, toutes deux adossées à des géants du cloud qui leur ont injecté des milliards de dollars en échange de parts et d'accès exclusifs à leurs technologies. La perspective d'une IPO pour l'une ou l'autre — OpenAI ayant évoqué une introduction potentielle — place ces questions comptables au cœur des préoccupations des marchés financiers, qui exigeront une transparence accrue sur la nature réelle de ces revenus partagés.

BusinessOpinion
1 source
Créer une IA adaptée à l'âge et au contexte avec Amazon Bedrock Guardrails
596AWS ML Blog 

Créer une IA adaptée à l'âge et au contexte avec Amazon Bedrock Guardrails

Amazon Web Services a dévoilé une architecture serverless permettant d'adapter automatiquement les réponses d'une IA générative selon le profil de l'utilisateur — son âge, son rôle professionnel et son niveau d'expertise. La solution repose sur Amazon Bedrock Guardrails, un système de filtrage centralisé qui sélectionne dynamiquement l'un des cinq profils de protection disponibles au moment de l'inférence : enfants (conforme COPPA), adolescents en contexte éducatif, professionnels de santé, patients, et adultes grand public. L'authentification passe par Amazon Cognito, les profils utilisateurs sont stockés dans Amazon DynamoDB, et l'ensemble est exposé via Amazon API Gateway et AWS Lambda, sans serveur à gérer. Concrètement, un même prompt reçoit une réponse différente selon que l'appelant est un pédiatre ou un enfant de dix ans. Cette approche répond à un problème réel dans les déploiements IA à grande échelle : les garde-fous basés uniquement sur le prompt sont contournables par des techniques de manipulation — les modèles peuvent être amenés à ignorer leurs instructions de sécurité. En centralisant les politiques dans une couche d'application indépendante du code métier, AWS rend les règles de modération non débordables par l'application elle-même. Pour les secteurs sensibles comme la santé ou l'éducation, où une réponse inappropriée peut avoir des conséquences réelles sur des utilisateurs vulnérables, ce niveau de contrôle devient un prérequis de conformité. Le résultat est aussi une réduction de la complexité opérationnelle : au lieu de maintenir des logiques de personnalisation dans chaque application, une seule configuration centralisée s'applique à l'ensemble du parc. La montée en puissance des applications IA dans des environnements réglementés — santé, éducation, services publics — a mis en lumière les limites du prompt engineering comme seule ligne de défense. Les grandes organisations déploient désormais des couches de gouvernance distinctes du modèle lui-même, une tendance que Google, Microsoft et AWS adressent chacun avec leurs propres systèmes de guardrails. La spécificité de cette implémentation Bedrock est d'associer l'identité authentifiée de l'utilisateur à une politique d'inférence en temps réel, plutôt que de laisser l'application décider. Les suites probables incluent une adoption dans les plateformes e-learning et les portails patients, où le respect du COPPA et du HIPAA est légalement contraignant, et où la traçabilité des décisions de modération devient un enjeu d'audit.

UEL'architecture proposée peut aider les entreprises européennes à se conformer à l'AI Act et au RGPD en déployant des garde-fous contextuels pour les secteurs réglementés comme la santé et l'éducation.

OutilsOutil
1 source
J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts
597ZDNET AI 

J'ai laissé Claude AI prendre le contrôle de mon Mac, et ça a fonctionné sans problème — avec seulement deux petits défauts

Claude, l'assistant IA d'Anthropic, est désormais capable de prendre le contrôle d'un ordinateur Mac pour y exécuter des tâches concrètes : rechercher des fichiers, rédiger et envoyer des e-mails, naviguer dans des applications, et accomplir des actions complexes sans intervention manuelle. Un test pratique réalisé récemment a démontré que cette fonctionnalité, baptisée « computer use », fonctionne de manière quasi irréprochable, malgré deux accrocs mineurs signalés lors de l'expérience. L'enjeu est considérable : il ne s'agit plus d'un simple chatbot répondant à des questions, mais d'un agent capable d'agir directement dans l'environnement de l'utilisateur. Pour les professionnels, cela ouvre la voie à une automatisation réelle des tâches répétitives — gestion de fichiers, traitement d'e-mails, navigation web — sans nécessiter de compétences techniques particulières. Cette évolution redéfinit ce qu'on entend par « assistant IA ». Anthropic a introduit cette capacité d'utilisation de l'ordinateur fin 2024, dans le cadre de la course aux agents autonomes qui mobilise aussi OpenAI, Google et Microsoft. L'objectif à terme est de créer des IA capables de mener des workflows entiers de façon indépendante. Les deux limitations observées lors du test rappellent toutefois que la technologie, prometteuse, reste en phase de maturation.

UELes professionnels français peuvent adopter cette fonctionnalité pour automatiser des tâches bureautiques répétitives, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
Google s'associe à Agile Robots dans sa nouvelle offensive en robotique IA
598AI Business 

Google s'associe à Agile Robots dans sa nouvelle offensive en robotique IA

Google s'est associé à Agile Robots dans le cadre d'un nouveau partenariat stratégique qui verra les modèles d'IA Gemini intégrés directement dans le matériel robotique du fabricant allemand. Cette collaboration marque une nouvelle étape dans la volonté de Google de déployer ses technologies d'intelligence artificielle dans des environnements physiques réels, au-delà des applications logicielles. En embarquant Gemini dans des robots capables d'agir dans le monde réel, Google franchit un cap important vers une IA incarnée et opérationnelle. La course à la robotique dopée à l'IA s'intensifie, avec des acteurs comme OpenAI, Microsoft et Amazon qui multiplient eux aussi leurs investissements dans ce secteur en pleine effervescence.

UEAgile Robots, fabricant allemand, se retrouve au cœur de la course mondiale à la robotique IA grâce à ce partenariat, renforçant potentiellement la compétitivité d'un acteur européen face aux géants américains et asiatiques.

RobotiqueActu
1 source
Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell
599NVIDIA AI Blog 

Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell

NVIDIA lance OpenShell, un runtime open source intégré à l'NVIDIA Agent Toolkit, conçu pour exécuter des agents autonomes dans des sandboxes isolées avec des politiques de sécurité appliquées au niveau système — hors de portée des agents eux-mêmes. Cette architecture empêche les agents de contourner les contraintes, de fuiter des identifiants ou des données sensibles, même en cas de compromission. NVIDIA collabore avec Cisco, CrowdStrike, Google Cloud, Microsoft Security et TrendAI pour aligner la gestion des politiques runtime à l'échelle des entreprises, tandis que NemoClaw fournit une stack de référence open source combinant OpenShell et les modèles Nemotron pour déployer des assistants IA personnels auto-évolutifs.

OutilsActu
1 source
Pendant que certains licencient, OpenAI prévoit d’embaucher massivement
600Siècle Digital 

Pendant que certains licencient, OpenAI prévoit d’embaucher massivement

OpenAI prévoit de presque doubler ses effectifs d'ici fin 2026, selon le Financial Times, à rebours des vagues de licenciements observées chez des concurrents comme Microsoft. Cette stratégie de recrutement massif, portée par Sam Altman, reflète l'intensification de la compétition dans le secteur de l'IA.

BusinessActu
1 source