Aller au contenu principal

Dossier Open weight & Open source — page 9

537 articles · page 9 sur 11

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification
401MarkTechPost OutilsOutil

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification

Des chercheurs ont publié un tutoriel complet autour de SkillNet, un framework open source conçu pour augmenter les agents d'intelligence artificielle avec des compétences modulaires et réutilisables. Le système repose sur la bibliothèque Python skillnet-ai, accessible via PyPI, et s'appuie sur une API centralisée hébergée à api.openkg.cn. La démonstration utilise GPT-4o comme modèle par défaut, mais le framework reste compatible avec d'autres LLM. Le workflow présenté couvre l'ensemble du cycle de vie d'une compétence : recherche, installation depuis GitHub, inspection des métadonnées, évaluation qualitative, visualisation sous forme de graphe, et enfin intégration dans un pipeline d'exécution piloté par un agent planificateur. Ce type d'architecture répond à un problème concret qui freine le déploiement des agents IA en production : la difficulté à composer des capacités spécialisées de façon fiable et maintenable. Plutôt que d'entraîner un modèle monolithique pour chaque nouveau besoin, SkillNet permet à un agent de découvrir dynamiquement des compétences existantes, de les filtrer selon des critères de qualité mesurables, et de les assembler en pipeline selon les sous-tâches d'un objectif complexe. L'approche est particulièrement utile pour les équipes qui développent des agents multi-domaines, en réduisant la duplication d'efforts et en rendant les briques fonctionnelles auditables et interchangeables. La recherche sémantique intégrée, avec un seuil de similarité paramétrable, va au-delà de la simple correspondance par mots-clés et permet de trouver des compétences pertinentes même quand le vocabulaire ne correspond pas exactement. SkillNet s'inscrit dans un mouvement plus large visant à standardiser l'écosystème des agents IA, à l'image de ce que npm ou PyPI ont fait pour les bibliothèques logicielles. Le projet est adossé à OpenKG, une initiative académique chinoise spécialisée dans les graphes de connaissances ouvertes, ce qui explique l'orientation vers la représentation des relations entre compétences sous forme de graphe. La dépendance à GitHub comme dépôt de référence pour les skills instalables ancre le framework dans les pratiques existantes des développeurs. L'intégration d'une porte qualité automatisée, évaluant chaque compétence sur plusieurs dimensions avant de l'inclure dans un pipeline, anticipe les besoins des environnements de production où la fiabilité est non négociable. Les suites probables incluent l'émergence d'un registre communautaire de compétences validées et l'intégration avec des orchestrateurs d'agents comme LangGraph ou AutoGen.

1 source
Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore
402AWS ML Blog 

Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore

AWS a publié un guide technique détaillant comment construire des systèmes d'agents d'IA générative haute performance en combinant trois technologies complémentaires : Strands Agents, le framework multi-agents d'AWS ; NVIDIA NIM, une plateforme d'inférence accélérée par GPU disponible via build.nvidia.com ; et Amazon Bedrock AgentCore, l'environnement d'exécution managé d'Amazon. L'architecture proposée repose sur un système de trois agents spécialisés fonctionnant en parallèle : un agent d'analyse des personas qui évalue le contenu marketing selon différentes audiences et produit des scores de résonance, un agent de validation qui vérifie la conformité légale et de marque, et un agent agrégateur qui consolide les recommandations. Le tout s'articule autour d'un frontend React qui interroge les résultats de manière asynchrone au fur et à mesure que les agents rendent leurs verdicts. Cette combinaison répond à trois problèmes concrets qui freinent le passage des prototypes IA vers la production : la latence d'inférence sous forte charge, la perte de contexte entre les interactions dans les environnements sans état, et le manque de visibilité sur l'exécution des agents. NVIDIA NIM apporte l'accélération GPU via des technologies comme CUDA et TensorRT-LLM, en exposant des API compatibles OpenAI sans adaptation spécifique au modèle. Bedrock AgentCore prend en charge la persistance de la mémoire partagée entre agents, les mécanismes de checkpoint et de récupération sur erreur, ainsi que l'observabilité intégrée. Strands gère l'orchestration parallèle, le contrôle de flux et l'agrégation des résultats. L'ensemble se déploie sous forme de conteneur Docker dans AgentCore Runtime, éliminant la gestion d'infrastructure à mesure que la charge augmente. Le cas d'usage présenté, la revue automatisée de campagnes marketing, n'est qu'un point d'entrée : la même architecture s'applique aux assistants virtuels, aux pipelines RAG et à l'automatisation de processus de validation complexes. Ce guide s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour capter les workloads IA en production. AWS positionne Bedrock AgentCore comme la couche managée qui simplifie le déploiement d'agents à grande échelle, tandis que NVIDIA consolide sa présence dans la chaîne de valeur logicielle via NIM, bien au-delà de la simple vente de GPU. Strands Agents, framework open source lancé par AWS début 2025, cherche à s'imposer face à LangGraph ou AutoGen comme standard d'orchestration multi-agents. La multiplication de ces briques interopérables signale que les architectures agentiques entrent dans une phase d'industrialisation, où la fiabilité et l'observabilité comptent désormais autant que les capacités du modèle lui-même.

OutilsOutil
1 source
Comment les agentic databases redéfinissent l’IA en entreprise ?
403Le Big Data 

Comment les agentic databases redéfinissent l’IA en entreprise ?

Un nouveau concept s'impose dans les stratégies technologiques des grandes entreprises : les agentic databases. Selon une étude récente citée dans l'article, 95 % des dirigeants souhaitent transformer leur organisation en véritable plateforme d'IA et de données d'ici trois ans. Ces bases de données de nouvelle génération ne se contentent plus de stocker des informations : elles deviennent des couches actives capables d'alimenter des agents IA autonomes, de conserver leur mémoire opérationnelle et d'optimiser leurs performances en continu. Concrètement, elles doivent gérer simultanément des données relationnelles classiques, des contenus non structurés, des historiques conversationnels, de la mémoire d'agents et des données vectorielles pour la recherche sémantique. Des technologies comme PostgreSQL regagnent du terrain grâce à leur flexibilité, leur écosystème open source et leur capacité à gérer ces charges de travail hybrides. L'enjeu est considérable pour les entreprises. Aujourd'hui, la plupart fonctionnent encore avec des architectures fragmentées : données dispersées entre plusieurs outils, agents IA opérant dans des environnements cloisonnés, équipes techniques qui passent plus de temps à connecter des systèmes qu'à développer de nouveaux usages métier. Les organisations qui ont su centraliser leurs données, leurs flux et leurs agents dans une infrastructure cohérente obtiennent un retour sur investissement nettement supérieur et déploient davantage d'applications couvrant plusieurs fonctions, de la finance aux ventes en passant par le juridique. La différence de performance entre ces leaders et le reste du marché ne tient pas à la qualité des modèles LLM utilisés, mais à leur capacité à construire une couche de données unifiée fournissant un contexte fiable et une mémoire persistante aux agents. Chaque nouvel agent enrichit alors progressivement la base de connaissances commune, générant un cercle vertueux d'automatisation où les performances s'améliorent avec l'usage. Cette évolution répond aussi à une contrainte technique fondamentale : les infrastructures de données traditionnelles n'ont tout simplement pas été conçues pour des systèmes qui agissent, raisonnent et exécutent des tâches de manière autonome. La latence devient critique à mesure que les agents s'intègrent dans les opérations métier en temps réel, poussant les entreprises à adopter des systèmes de stockage multiniveaux capables de prioriser les données chaudes. Les agents doivent désormais non seulement répondre à des requêtes, mais comprendre des intentions et exécuter des actions complexes en chaîne, ce qui exige des mécanismes d'indexation hybrides avancés. L'agentic database n'est donc pas un produit unique mais une architecture complète, et les acteurs qui la maîtriseront en premier disposeront d'un avantage compétitif structurel difficile à rattraper.

InfrastructureOpinion
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
404MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source
Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals
405AWS ML Blog 

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions. La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran. L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

OutilsOutil
1 source
Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory
406AWS ML Blog 

Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory

Amazon Web Services a présenté une solution pour doter Kiro CLI d'une mémoire conversationnelle persistante entre les sessions, en s'appuyant sur Amazon Bedrock AgentCore Memory. Kiro CLI est l'interface en ligne de commande qui permet aux développeurs d'interagir directement depuis leur terminal avec les agents IA de Kiro, l'IDE agentique d'AWS. Le problème résolu est concret : chaque nouvelle session repart de zéro, forçant le développeur à réexpliquer le contexte de son projet, ses préférences et ses conventions à chaque démarrage. La solution repose sur un serveur MCP (Model Context Protocol) personnalisé, open source et disponible sur GitHub, qui fait le pont entre Kiro CLI et le service managé Bedrock AgentCore Memory. Ce serveur expose trois catégories d'outils : des outils conversationnels pour stocker et retrouver l'historique par sujet ou période, des outils de supervision pour consulter les statistiques d'utilisation mémoire, et des outils d'administration pour supprimer des sessions ou des données ciblées. La récupération du contexte repose sur une stratégie à deux niveaux : une recherche sémantique via l'API retrievememoryrecords d'AgentCore Memory, avec repli automatique sur une correspondance directe dans les contenus bruts si le premier niveau n'a pas encore terminé son indexation. L'impact pour les équipes de développement travaillant sur des bases de code volumineuses est direct. Un développeur qui revient sur un projet après plusieurs jours n'a plus besoin de réexpliquer l'architecture, les contraintes métier ou ses préférences de style à l'agent IA : celui-ci retrouve automatiquement les sessions précédentes, identifiables par des formulations naturelles comme "hier soir" ou "la semaine dernière". Cette continuité de contexte réduit la friction cognitive et le temps perdu en répétition, deux freins majeurs à l'adoption productive des outils IA dans les workflows de développement au quotidien. Amazon Bedrock AgentCore Memory est un service entièrement managé lancé par AWS pour répondre à un besoin croissant dans l'écosystème des agents IA : la persistance de la mémoire à long terme. Jusqu'ici, les agents IA des IDEs et des outils de développement souffraient d'une amnésie structurelle entre les sessions, limitant leur utilité réelle sur des projets complexes et de longue durée. Le Model Context Protocol, standardisé par Anthropic, est devenu le mécanisme central d'extensibilité pour les agents IA, permettant à des services tiers d'exposer des capacités via une interface unifiée. AWS positionne ainsi AgentCore Memory comme une brique d'infrastructure réutilisable pour tout éditeur souhaitant ajouter de la mémoire à ses propres agents MCP-compatibles. La mise à disposition du code source en exemple sur GitHub signale une volonté d'adoption large, au-delà de Kiro, vers l'ensemble des clients AWS qui construisent des outils agentiques sur Bedrock.

OutilsOutil
1 source
« Ingérable » : le fondateur de Linux sévère quant aux identifications de bugs par IA
407Frandroid 

« Ingérable » : le fondateur de Linux sévère quant aux identifications de bugs par IA

Linus Torvalds, créateur et mainteneur principal du noyau Linux, a vivement critiqué la prolifération des rapports de bugs générés par intelligence artificielle lors du déploiement de Linux 7.1 RC4. Dans un message adressé à la liste de diffusion des développeurs du noyau, il a qualifié cette situation d'« ingérable », dénonçant le flot de signalements automatisés envoyés par des utilisateurs utilisant des outils d'IA pour analyser le code source et identifier de supposées vulnérabilités ou erreurs. Le problème, selon Torvalds, ne tient pas à l'intention des contributeurs, mais à la qualité désastreuse des rapports produits. Les outils d'IA génèrent des faux positifs en masse, signalant des « bugs » qui n'en sont pas, ou identifiant des problèmes sans comprendre le contexte architectural du noyau. Les mainteneurs du projet, déjà surchargés, doivent trier manuellement ces centaines de signalements inutiles, ce qui ralentit le vrai travail de développement et épuise les équipes bénévoles qui font tourner l'un des projets open source les plus critiques au monde. Cette prise de position s'inscrit dans un débat plus large sur la place de l'IA dans le développement logiciel. Si les grands éditeurs comme Microsoft ou Google intègrent activement des assistants IA dans leurs workflows de développement, les projets open source communautaires font face à un afflux non régulé de contributions semi-automatisées. Linux n'est pas le premier projet à subir ce phénomène : plusieurs dépôts majeurs sur GitHub ont déjà dû mettre en place des règles strictes pour filtrer les pull requests et issues d'origine artificielle.

SociétéOpinion
1 source
Créer un agent autonome à mémoire hybride avec architecture modulaire et appel d'outils via OpenAI
408MarkTechPost 

Créer un agent autonome à mémoire hybride avec architecture modulaire et appel d'outils via OpenAI

Un tutoriel technique récemment publié décrit la construction pas à pas d'un agent autonome à mémoire hybride, en s'appuyant sur l'API OpenAI et quelques bibliothèques Python open source. Le système combine deux mécanismes de recherche en mémoire : la recherche sémantique par vecteurs, via le modèle d'embedding text-embedding-3-small d'OpenAI, et la recherche par mots-clés via l'algorithme BM25, implémenté par la bibliothèque rank_bm25. Pour le raisonnement et la génération de texte, l'agent s'appuie sur gpt-4o-mini. L'architecture repose sur des interfaces abstraites Python (MemoryBackend, LLMProvider, Tool) qui séparent strictement chaque couche du système. Les résultats des deux moteurs de recherche sont ensuite fusionnés via la méthode Reciprocal Rank Fusion (RRF), une technique qui combine les classements plutôt que les scores bruts afin de produire des résultats plus robustes et équilibrés. Ce type d'architecture représente un gain concret pour les développeurs qui souhaitent doter leurs agents d'une mémoire à long terme sans recourir à des bases de données vectorielles externes comme Pinecone ou Weaviate. En stockant les souvenirs sous forme de blocs de texte avec leurs embeddings directement en mémoire vive, et en reconstruisant l'index BM25 à chaque ajout, l'agent peut retrouver des informations pertinentes même lorsqu'une requête utilise des termes exacts absents du vocabulaire sémantique, un angle mort fréquent des systèmes purement vectoriels. Pour les équipes qui développent des assistants IA, des agents de recherche ou des chatbots d'entreprise, cette approche hybride offre un compromis entre précision sémantique et rappel lexical, deux qualités rarement réunies dans un seul système léger. La mémoire persistante des agents autonomes reste l'un des grands défis non résolus du développement IA. Les grands modèles comme GPT-4o souffrent d'une fenêtre de contexte limitée et oublient ce qui dépasse quelques dizaines de milliers de tokens. Les architectures RAG (Retrieval-Augmented Generation) ont émergé pour compenser cette limite, mais la plupart des implémentations courantes misent soit sur la recherche vectorielle, soit sur les mots-clés, rarement les deux. Ce tutoriel s'inscrit dans une tendance portée par des frameworks comme LangChain, LlamaIndex ou MemGPT, qui poussent vers des agents dotés d'une mémoire modulaire et interrogeable. La prochaine étape naturelle est l'intégration d'une base de données persistante (SQLite, PostgreSQL) pour survivre aux redémarrages, et d'un mécanisme de compression sélective pour gérer la croissance de la mémoire dans le temps.

OutilsTuto
1 source
Construire un assistant de recherche à base d'agents avec Groq, LangGraph, sous-agents et mémoire
409MarkTechPost 

Construire un assistant de recherche à base d'agents avec Groq, LangGraph, sous-agents et mémoire

Un tutoriel publié récemment détaille la construction d'un assistant de recherche agentique fonctionnant sur l'infrastructure d'inférence de Groq, en combinant LangGraph, LangChain et le modèle open source Llama 3.3 70B Versatile de Meta. L'architecture repose sur l'endpoint compatible OpenAI de Groq, disponible gratuitement via console.groq.com, ce qui permet d'utiliser l'interface ChatOpenAI de LangChain sans modifier le code en profondeur, simplement en redirigeant la clé API et l'URL de base. L'agent ainsi construit dispose d'un ensemble d'outils concrets: recherche web via DuckDuckGo, récupération de pages, lecture et écriture de fichiers, exécution de code Python, délégation à des sous-agents spécialisés, et une mémoire persistante entre les sessions. Le tout s'appuie sur des bibliothèques comme BeautifulSoup4 pour le parsing HTML et Pydantic pour la validation des données. Ce qui rend cette approche notable, c'est la combinaison d'une infrastructure gratuite et d'une architecture capable de raisonnement multi-étapes. L'agent ne se contente pas de répondre à une question: il décompose un sujet de recherche en sous-questions, interroge plusieurs sources, croise les informations pour identifier les consensus et les divergences, puis génère des rapports structurés sauvegardés dans un répertoire de sortie. La mémoire à long terme lui permet de réutiliser des connaissances acquises lors d'exécutions précédentes, évitant de recommencer from scratch à chaque session. Pour les développeurs et chercheurs qui cherchent à automatiser des workflows de veille ou d'analyse documentaire, cette architecture offre un point de départ fonctionnel sans coût d'inférence immédiat. Ce tutoriel s'inscrit dans une tendance de fond qui voit LangGraph s'imposer comme framework de référence pour les systèmes agentiques en Python, face à des alternatives comme AutoGen ou CrewAI. Groq, de son côté, mise sur la vitesse d'inférence permise par ses puces LPU propriétaires pour attirer les développeurs avec un tier gratuit généreux, dans l'espoir de les convertir en clients payants à l'échelle. L'utilisation de Llama 3.3 70B, modèle open source de Meta, illustre également la montée en puissance des modèles non propriétaires capables d'exécuter du tool calling fiable, compétence longtemps réservée aux modèles fermés comme GPT-4. La prochaine étape naturelle pour ce type de système serait l'intégration de sources structurées, une mémoire vectorielle plus sophistiquée, ou le déploiement dans des environnements de production avec contrôle des coûts.

OutilsTuto
1 source
MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative
410AWS ML Blog 

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil
1 source
GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure
411Le Big Data 

GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure

Quelques jours à peine après le lancement de GPT-5.5, le PDG d'OpenAI Sam Altman a publié le 28 avril 2026 sur X une capture d'écran évoquant l'entraînement de GPT-6, avec la mention humoristique « encore plus de gobelins ». Ce teasing inattendu est né d'un bug désormais célèbre dans la communauté tech : depuis GPT-5.1, les modèles d'OpenAI glissaient régulièrement des gobelins, gremlins, trolls et autres créatures fantastiques dans leurs réponses, un comportement qui s'est amplifié de façon notable entre les versions GPT-5.2 et GPT-5.4. Face aux moqueries croissantes sur les réseaux sociaux, OpenAI a fini par intégrer des instructions explicites dans GPT-5.5 pour lui interdire de mentionner ces créatures. C'est cette révélation, découverte par des utilisateurs fouillant les paramètres du modèle, qui a mis le feu aux poudres sur X et poussé Altman à y répondre avec sa propre blague. Au-delà du trait d'humour, la sortie d'Altman a suffi à relancer les spéculations sur le calendrier de sortie de GPT-6. Le PDG n'a fourni aucune date, aucune fonctionnalité précise, aucun engagement formel. Pourtant, dans un secteur où chaque communication du dirigeant d'OpenAI est analysée au millimètre, la simple mention du nom GPT-6 dans un contexte public suffit à signaler que la prochaine génération est au moins en cours de développement actif. Pour les entreprises et développeurs qui intègrent les API d'OpenAI dans leurs produits, cela signifie que la fenêtre entre deux générations majeures continue de se réduire, comprimant les cycles d'adaptation. OpenAI traverse une période d'accélération intense sur son calendrier de sorties : GPT-4o, GPT-4.5, GPT-5, puis GPT-5.1 à 5.5 en l'espace de quelques mois, une cadence sans précédent dans l'histoire du laboratoire. Cette multiplication de versions intermédiaires traduit à la fois la pression concurrentielle exercée par Anthropic, Google DeepMind et les acteurs open source comme Meta, et la volonté d'OpenAI d'itérer rapidement en production plutôt qu'en laboratoire fermé. Les indices accumulés ces derniers mois sur GPT-6 suggèrent une architecture plus stable, une mémoire longue terme améliorée et une intégration plus profonde avec les fichiers et applications tierces. Quant aux gobelins, leur disparition officielle de GPT-5.5 illustre un problème récurrent dans l'entraînement des grands modèles de langage : des comportements émergents inattendus, difficiles à anticiper et à corriger sans instructions explicites.

UELes développeurs et entreprises européens intégrant les API d'OpenAI devront adapter leurs cycles de maintenance à une cadence de sorties qui continue de s'accélérer.

LLMsOpinion
1 source
Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins
412Ars Technica AI 

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

Le system prompt du CLI Codex d'OpenAI contient une directive inhabituelle : GPT-5.5 reçoit l'instruction explicite de "ne jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l'utilisateur." Cette consigne, rendue publique la semaine dernière via le dépôt GitHub open source de Codex CLI, apparaît deux fois dans un ensemble d'instructions de base de plus de 3 500 mots destinées au modèle récemment lancé. Elle côtoie d'autres rappels plus classiques, comme l'interdiction d'utiliser des emojis ou des tirets cadratins sans instruction explicite, ou encore la mise en garde contre les commandes destructives telles que git reset --hard. Ce qui rend cette directive significative, c'est son absence dans les instructions système des modèles antérieurs figurant dans le même fichier JSON. Cela suggère qu'OpenAI fait face à un problème apparu spécifiquement avec GPT-5.5 : le modèle aurait tendance à introduire spontanément des références à des gobelins ou autres créatures dans des conversations sans rapport. Des témoignages récents sur les réseaux sociaux confirment ce comportement, plusieurs utilisateurs signalant des réponses inopinément peuplées de créatures fantastiques lors d'échanges techniques ou professionnels. Ce type d'incident met en lumière un défi persistant du développement des grands modèles de langage : les comportements émergents imprévisibles qui surgissent lors du passage à l'échelle. Lorsqu'un modèle développe des biais ou des obsessions thématiques non intentionnelles, la solution la plus rapide reste souvent d'intervenir directement dans le system prompt plutôt que de relancer un cycle d'entraînement complet. Cette approche, parfois surnommée "patch de comportement", révèle les limites du contrôle fin sur des systèmes aussi complexes que GPT-5.5, dont le déploiement s'accompagne inévitablement d'ajustements post-lancement que même l'équipe d'OpenAI ne peut anticiper entièrement.

LLMsOpinion
1 source
Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time
413SCMP Tech 

Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time

Le magazine Time a publié pour la première fois un classement dédié à l'intelligence artificielle, intitulé "10 Most Influential AI Companies of 2026", dans le cadre de son palmarès annuel Time100 Most Influential Companies. Trois entreprises chinoises y figurent : Alibaba Group Holding, ByteDance et Zhipu AI. Les sept autres places sont occupées par six sociétés américaines et par Mistral AI, seule représentante européenne du classement. La présence de trois acteurs chinois dans ce top 10 mondial illustre la montée en puissance de l'écosystème IA de Pékin face à la Silicon Valley. ByteDance, connu pour TikTok, s'est imposé dans la course aux grands modèles de langage avec son modèle Doubao. Alibaba pousse son modèle Qwen, disponible en open source, tandis que Zhipu AI, startup soutenue par des fonds d'État, développe la série GLM. Leur inclusion dans un classement américain aussi emblématique que le Time100 signale que la domination américaine sur l'IA n'est plus une évidence pour les observateurs occidentaux eux-mêmes. Ce classement intervient dans un contexte de compétition technologique intense entre les États-Unis et la Chine, aggravée par les restrictions américaines sur les exportations de puces Nvidia vers Pékin. Malgré ces obstacles, les laboratoires chinois ont continué à publier des modèles compétitifs, notamment après le choc DeepSeek début 2025. L'entrée de Mistral AI dans ce palmarès confirme également que l'Europe cherche à s'imposer comme troisième pôle de l'IA mondiale, même si son poids reste modeste face aux deux géants.

UEMistral AI est la seule entreprise européenne dans le classement Time100 IA 2026, signal de reconnaissance internationale pour l'écosystème français mais aussi de la faiblesse relative de l'Europe face aux géants américains et chinois.

BusinessActu
1 source
Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench
414MarkTechPost 

Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench

LlamaIndex a publié ParseBench, un jeu de données de référence conçu pour évaluer de manière rigoureuse les systèmes d'analyse de documents. Hébergé sur Hugging Face sous l'identifiant llamaindex/ParseBench, ce benchmark est structuré autour de plusieurs dimensions d'évaluation distinctes : extraction de texte brut, reconnaissance de tableaux, interprétation de graphiques et respect de la mise en page. La procédure d'utilisation s'appuie sur un pipeline Python standardisé mobilisant des bibliothèques open source comme datasets, pandas, PyMuPDF (alias fitz), rapidfuzz et rich. Les données sont distribuées au format JSONL, avec des fichiers PDF associés accessibles directement depuis le dépôt Hugging Face via hfhubdownload. Le pipeline de référence décrit dans le tutoriel officiel construit un extracteur de texte léger basé sur PyMuPDF, compare les sorties aux annotations de référence grâce à des métriques de similarité floue (fuzz), et produit des visualisations de la distribution des exemples par dimension. L'importance de ParseBench réside dans le manque criant de standards objectifs pour comparer les moteurs d'analyse documentaire, qu'il s'agisse de solutions OCR classiques, de modèles de vision-langage ou de parseurs hybrides. Jusqu'ici, les équipes évaluaient leurs systèmes sur des jeux de données internes non reproductibles, rendant toute comparaison inter-organisations impossible. Avec ce benchmark unifié, les développeurs peuvent mesurer la qualité de l'extraction sur chaque dimension séparément, texte, tableaux, graphiques, layout, et identifier précisément où leurs pipelines échouent. Pour les entreprises qui traitent des volumes importants de documents (contrats, rapports financiers, publications scientifiques), disposer d'un tel outil de mesure change concrètement la façon dont on sélectionne et valide un moteur de parsing avant de le passer en production. ParseBench s'inscrit dans une tendance plus large portée par LlamaIndex, qui cherche à standardiser l'outillage autour des pipelines RAG (retrieval-augmented generation). La qualité de l'extraction documentaire est en effet le maillon critique souvent négligé de ces architectures : un PDF mal parsé produit des embeddings bruités, ce qui dégrade directement les réponses des assistants IA en aval. Plusieurs acteurs du secteur, comme Unstructured, LlamaParse ou encore Docling d'IBM, se livrent une concurrence directe sur ce segment. L'arrivée d'un benchmark public et reproductible oblige désormais ces acteurs à rendre des comptes sur des métriques communes. Les prochaines étapes probables incluent l'intégration de modèles de vision-langage comme GPT-4o ou Qwen-VL comme baselines supplémentaires, et l'extension du benchmark à des formats au-delà du PDF.

OutilsOutil
1 source
Créer des workflows LLM traçables et évalués avec Promptflow, Prompty et OpenAI
415MarkTechPost 

Créer des workflows LLM traçables et évalués avec Promptflow, Prompty et OpenAI

Un tutoriel publié récemment détaille la construction d'un pipeline LLM complet et prêt pour la production, en s'appuyant sur trois outils clés : Promptflow, le format Prompty, et l'API OpenAI, le tout déployé dans un environnement Google Colab. Le workflow s'articule autour de plusieurs briques : une connexion sécurisée à OpenAI via un backend keyring alternatif, un fichier Prompty structuré servant de composant LLM central (ici GPT-4o-mini, avec une température de 0,2 et un maximum de 350 tokens), puis un flux de type "flex flow" basé sur une classe Python qui combine un prétraitement déterministe avec le raisonnement du modèle. Le système permet d'injecter des hints calculés dans les réponses du modèle, d'activer une traçabilité pas-à-pas de chaque exécution, de lancer des requêtes unitaires ou en batch, et de générer des sorties dans un format structuré. La chaîne se conclut par un pipeline d'évaluation automatisé dans lequel un LLM joue le rôle de juge pour noter les réponses produites face à des réponses attendues. L'intérêt de cette approche est double : elle apporte de la traçabilité à chaque étape d'un pipeline LLM, un manque criant dans beaucoup de déploiements actuels, et elle industrialise l'évaluation en remplaçant la validation manuelle par un juge automatisé. Pour les équipes qui cherchent à passer du prototype au système en production, ce type d'architecture garantit qu'on peut auditer, déboguer et améliorer le comportement du modèle de façon systématique. La combinaison d'un outil déterministe (le calcul sécurisé) et d'un raisonnement LLM dans un même flow illustre aussi comment orchestrer des agents hybrides, sujet central du moment dans le développement d'applications IA. Promptflow est un framework open source lancé par Microsoft en 2023, initialement pensé pour Azure AI Studio mais disponible en local. Il répond à un besoin croissant dans l'industrie : les équipes ne manquent plus de modèles, mais d'outils pour structurer, tester et maintenir des workflows LLM dans la durée. Le format Prompty, introduit plus récemment, standardise la définition des appels au modèle en séparant la configuration (modèle, paramètres, connexion) du template de prompt, ce qui facilite la réutilisation et la gouvernance. Avec l'essor du concept de LLM-as-a-judge, popularisé notamment par des travaux de Lmsys et repris par OpenAI et Anthropic dans leurs propres systèmes d'évaluation, le tutoriel s'inscrit dans une tendance de fond : automatiser non seulement la génération, mais aussi le contrôle qualité des sorties, condition nécessaire pour une adoption enterprise sérieuse de l'IA générative.

OutilsTuto
1 source
Navigation sûre en environnements inconnus et encombrés par génération de zones libres convexes orientées
416arXiv cs.RO 

Navigation sûre en environnements inconnus et encombrés par génération de zones libres convexes orientées

Des chercheurs ont publié sur arXiv un article présentant FRGraph, un nouveau cadre de navigation autonome pour robots évoluant dans des environnements encombrés et inconnus. L'approche repose sur la génération de régions libres convexes, des zones de l'espace certifiées sans collision, en intégrant simultanément la géométrie du robot et les directions de déplacement envisagées. Les expériences ont été conduites en simulation 2D dense, puis validées sur un robot quadrupède et un drone (UAV) en conditions réelles. Le code source est disponible publiquement sur GitHub sous le nom FRGraph. Le problème résolu est double. D'une part, les méthodes existantes construisent ces régions libres en se basant uniquement sur la géométrie des obstacles environnants, sans tenir compte de la direction où le robot doit aller : dans un couloir étroit ou un espace très encombré, les régions générées ne permettent pas toujours au robot de passer physiquement. D'autre part, vérifier la sécurité d'une trajectoire uniquement en points discrets ne garantit pas l'absence de collision entre ces points lorsque la forme réelle du robot est prise en compte. FRGraph résout les deux en couplant la génération des régions à la direction de déplacement, et en utilisant une certification continue basée sur la constante de Lipschitz pour garantir qu'aucune collision n'est possible le long de la trajectoire entière, pas seulement aux échantillons testés. Les régions et les mouvements candidats sont stockés dans un graphe mis à jour de façon incrémentale pour permettre une planification en temps réel. Ce travail s'inscrit dans un champ de recherche en robotique très actif : rendre les robots capables de naviguer de façon fiable dans des espaces non structurés, comme des entrepôts, des zones sinistrées ou des environnements urbains denses. Les approches classiques de planification de trajectoire peinent encore dans les passages étroits, un goulot d'étranglement critique pour les applications industrielles et de sauvetage. En démontrant la méthode à la fois sur un robot à pattes et un drone, les auteurs signalent une ambition de généralisation au-delà d'une plateforme unique. La mise en open source ouvre la voie à des intégrations dans des piles robotiques existantes comme ROS.

RobotiqueOpinion
1 source
Les dernières avancées en IA physique au Robotics Summit
417Robotics Business Review 

Les dernières avancées en IA physique au Robotics Summit

Le Robotics Summit & Expo 2026 se tiendra les 27 et 28 mai à Boston, et la conférence consacre pour la première fois une piste thématique entière à l'intelligence artificielle physique, soit l'intégration de l'IA dans des machines capables d'agir de manière autonome dans le monde réel. Parmi les intervenants confirmés figurent des dirigeants de Brain Corp, Agtonomy, Semaphor Surgical, Roboto AI, RealSense, AWS, MathWorks, NXP Semiconductors, Intrinsic, Universal Robots, PickNik Robotics et Path Robotics. Russ Tedrake, chercheur de référence en robotique, donnera une keynote sur sa vision des "Large Behavior Models", l'équivalent robotique des grands modèles de langage, appliqués à des robots industriels plus adaptatifs. Une démonstration en direct d'un robot IA incarné sera réalisée sur scène par Chris Matthieu de RealSense, tandis que MassRobotics présentera les lauréats de son Physical AI Fellowship et annoncera le gagnant de son troisième Form and Function Challenge. Ce programme illustre une transformation profonde de l'industrie robotique : l'IA ne sert plus seulement à optimiser des tâches répétitives, elle permet désormais aux machines de percevoir leur environnement, d'interpréter des instructions en langage naturel et d'adapter leur comportement en continu. Rachita Chandra d'AWS montrera comment des commandes formulées en langage courant sont converties en séquences d'actions concrètes pour des robots, une avancée qui rapproche la robotique du grand public et des entreprises sans compétences techniques spécialisées. Pour les industriels, les enjeux sont considérables : la logistique, la chirurgie, l'agriculture et la fabrication sont toutes concernées par des systèmes capables d'apprendre sur le terrain plutôt que d'être reprogrammés à chaque nouveau contexte. Cette édition du Robotics Summit s'inscrit dans une accélération mondiale des investissements en IA physique, portée notamment par les progrès des modèles vision-langage-action (VLA) et du reinforcement learning appliqué à la robotique. Des acteurs comme Universal Robots, leader mondial du robot collaboratif, et des startups comme Roboto AI ou Path Robotics cherchent à industrialiser ces approches encore largement expérimentales. La question des données reste centrale : Roch Nakajima de Noitom Robotics plaidera pour que les entreprises commencent à constituer leurs corpus de données dès maintenant, avant même de déployer des robots, en traitant ces données comme un actif stratégique. L'open source est également au coeur des débats, avec Brian Gerkey d'Intrinsic qui dressera un état des lieux des écosystèmes ouverts en IA et robotique, dans un secteur où la standardisation des outils de développement devient un enjeu de compétitivité autant que de collaboration.

UEUniversal Robots (danois) et NXP Semiconductors (néerlandais), acteurs européens majeurs présents au sommet, sont directement impliqués dans l'industrialisation de l'IA physique, un domaine où la compétitivité européenne se joue dès maintenant.

RobotiqueActu
1 source
AI image generator free : top des meilleurs outils gratuits - avril 2026
418Le Big Data 

AI image generator free : top des meilleurs outils gratuits - avril 2026

En avril 2026, plusieurs plateformes de génération d'images par intelligence artificielle se distinguent dans le segment gratuit, bousculant la domination de solutions payantes comme Midjourney. Artspace, Getimg et Neuroflash composent le podium de cette sélection, chacun avec une proposition technique distincte. Artspace mise sur la sobriété d'interface et la qualité de rendu lumineux, avec un système de retouche in-painting et d'agrandissement haute définition accessible via un système de crédits offerts. Getimg se positionne comme un studio complet donnant accès à plus de 20 modèles d'IA, dont les dernières variantes de Stable Diffusion, avec notamment la création de modèles personnalisés via DreamBooth et une recharge mensuelle de crédits. Neuroflash, outil européen initialement connu pour la génération de texte, propose un module visuel orienté marketing, avec support natif du français et intégration directe avec son éditeur de contenu. L'accessibilité gratuite de ces outils représente une rupture concrète pour les créateurs indépendants, les marketeurs et les équipes éditoriales qui produisaient jusqu'ici leurs visuels avec des logiciels complexes ou des abonnements coûteux. Neuroflash vise explicitement les professionnels du contenu numérique, permettant de générer en une requête des visuels adaptés aux réseaux sociaux sans passer par la traduction de prompts. Getimg, avec ses extensions d'image et sa gomme magique, répond à des besoins de retouche avancée que seuls des outils premium proposaient auparavant. La démocratisation technique se double d'une localisation linguistique, l'outil européen Neuroflash étant optimisé pour comprendre les nuances du français. La montée en puissance de ces générateurs gratuits s'inscrit dans un mouvement plus large de diffusion des modèles open source, notamment autour de l'écosystème Stable Diffusion, que des acteurs comme Getimg exploitent directement via DreamBooth pour permettre la personnalisation de modèles. En 2025 et début 2026, la compétition entre plateformes s'est intensifiée sur l'axe de la rétention utilisateur par le biais de crédits gratuits renouvelables, cherchant à convertir une base d'utilisateurs gratuits vers des offres premium. Neuroflash, ancré dans le marché européen, joue également sur la carte de la conformité et du ciblage linguistique pour se différencier des géants américains. Les suites probables de cette dynamique incluent une compression vers le bas des tarifs des offres payantes et une course aux fonctionnalités avancées, l'in-painting et l'extension de contexte visuel devenant progressivement des standards attendus même dans les tiers gratuits.

UENeuroflash, plateforme européenne avec support natif du français et positionnement sur la conformité réglementaire, offre une alternative locale aux outils américains pour les créateurs de contenu en France et en Europe.

CréationOutil
1 source
Comment créer une base de connaissances IA entièrement interrogeable avec OpenKB, OpenRouter et Llama
419MarkTechPost 

Comment créer une base de connaissances IA entièrement interrogeable avec OpenKB, OpenRouter et Llama

Un tutoriel publié récemment détaille comment construire une base de connaissances locale entièrement interrogeable en combinant trois outils : OpenKB, la plateforme OpenRouter et le modèle Llama 3.3 70B de Meta, accessible gratuitement sans carte bancaire. Le guide couvre l'ensemble du pipeline, de l'installation d'OpenKB via pip jusqu'à l'interrogation structurée de documents Markdown, en passant par la génération automatique de résumés et de pages conceptuelles au format wiki. La clé API OpenRouter est récupérée de façon sécurisée via la bibliothèque Python getpass, sans jamais être inscrite en dur dans le code. Le résultat est un système de connaissance navigable, avec gestion des liens croisés entre pages, capable de répondre à des requêtes en langage naturel et d'être mis à jour de manière incrémentale. Ce type d'architecture présente un intérêt concret pour les développeurs, chercheurs et équipes qui souhaitent organiser et interroger des corpus de documents internes sans envoyer leurs données vers des services cloud payants. En s'appuyant sur un modèle de 70 milliards de paramètres disponible gratuitement via OpenRouter, l'approche élimine le coût d'inférence tout en offrant des capacités de synthèse comparables à des solutions propriétaires. La possibilité d'analyser programmatiquement les relations entre pages et les liens croisés ouvre également des usages avancés : cartographie de concepts, détection de lacunes documentaires, ou navigation thématique automatisée dans de larges volumes de texte. L'émergence de ce genre de tutoriel s'inscrit dans une tendance plus large de démocratisation des outils RAG (retrieval-augmented generation), qui permettent d'ancrer les réponses d'un LLM dans une base documentaire locale plutôt que dans ses seuls paramètres d'entraînement. OpenRouter joue ici un rôle d'intermédiaire unifié, donnant accès à des dizaines de modèles open source via une API commune, ce qui réduit la friction technique pour expérimenter. OpenKB, de son côté, se positionne comme une couche d'abstraction au-dessus de ces modèles, spécialisée dans la structuration wiki et la navigation sémantique. Alors que des acteurs comme Notion AI ou Confluence intègrent des fonctions similaires dans des produits fermés, des solutions comme celle-ci permettent de garder le contrôle total sur les données et l'infrastructure, un enjeu croissant pour les entreprises soumises à des contraintes de confidentialité ou de souveraineté.

UECette architecture locale répond directement aux enjeux de souveraineté des données pour les entreprises et administrations européennes soumises au RGPD et aux contraintes de confidentialité.

OutilsTuto
1 source
Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM
420MarkTechPost 

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper
1 source
kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles
421MarkTechPost 

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence. L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens. Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

UELes équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

InfrastructureTuto
1 source
Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
422MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)
423Latent Space 

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Enregistré quelques jours après la conférence AIE Europe 2026, un épisode spécial du podcast Unsupervised Learning a réuni Jacob Effron et Shawn Wang, plus connu sous le pseudonyme "swyx", figure centrale de la communauté AI engineering, pour faire le point un an après leur premier épisode croisé avec Latent Space. Les deux animateurs ont passé en revue l'ensemble du paysage IA : infrastructure agentique, guerres du code, formation de modèles spécialisés, valorisations débridées, et ce que signifie vendre à des agents plutôt qu'à des humains. Parmi les points saillants : le playbook des "agent labs", qui consiste à démarrer avec des modèles frontier, à se spécialiser sur un domaine, puis à entraîner ses propres modèles une fois que les données, les volumes d'usage et les économies de latence le justifient. Des entreprises comme Cursor et Cognition sont citées comme exemples concrets de cette trajectoire. Ce que l'épisode documente, c'est la maturation accélérée d'un marché encore en phase d'exploration intensive. L'infrastructure IA a contraint ses acteurs à se réinventer chaque année, tandis que les entreprises applicatives ont mieux résisté à la volatilité des modèles en s'ancrant dans des workflows métier précis. La spécialisation de domaine, la distillation et l'amélioration du contexte ("context engineering") émergent comme leviers de différenciation réels, pas de simples arguments marketing. Le marché du coding IA, l'une des catégories à la croissance la plus rapide, illustre cette dynamique : Anthropic, OpenAI, Cursor et Cognition y ont tous prospéré, mais seule une poignée de noms s'impose comme gagnants réels, un mystère que l'épisode laisse en partie ouvert. La mémoire et la personnalisation sont identifiées comme le prochain grand vecteur de différenciation produit, dans un monde où les modèles récompensent encore trop la fréquence de mention plutôt que la pertinence contextuelle. L'épisode s'inscrit dans un moment charnière : les grands labos frontier tentent d'envahir les verticaux comme la finance et la santé, mais laissent encore de l'espace aux entreprises focalisées qui contrôlent le workflow et le "dernier kilomètre" utilisateur. Swyx se dit plus optimiste qu'avant sur l'open source et sur l'émergence de hardware non-Nvidia, soulignant que chaque accélération de 10x en inférence peut débloquer des expériences produit inédites. L'épisode a été enregistré avant l'annonce de l'accord Cursor-xAI, ce qui lui donne rétrospectivement une valeur de document pré-rupture, un instantané du marché juste avant que la consolidation ne s'accélère davantage. Le marché du coding est présenté comme le modèle préfigurant la trajectoire de toutes les autres verticales IA.

UELa conférence AIE Europe 2026 fournit le cadre géographique, mais l'analyse porte essentiellement sur des acteurs américains ; les startups et développeurs européens peuvent s'inspirer du playbook des 'agent labs' pour calibrer leur propre trajectoire de spécialisation.

BusinessOpinion
1 source
Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5
424Pandaily 

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Xiaomi a lancé la bêta publique de sa nouvelle série de modèles de langage MiMo-V2.5, avec une mise à disposition en open source de MiMo-V2.5 et MiMo-V2.5-Pro annoncée pour très prochainement. La famille MiMo-V2.5 comprend quatre modèles distincts : MiMo-V2.5, V2.5-Pro, V2.5-TTS et V2.5-ASR, chacun conçu pour améliorer le raisonnement, la gestion de contextes longs, le suivi d'instructions complexes ou ambiguës, et la compréhension multimodale. Xiaomi a également annoncé des ajustements tarifaires sur son offre Token Plan. Le fleuron de la gamme, MiMo-V2.5-Pro, est présenté comme le modèle le plus puissant jamais développé par l'entreprise. Les performances revendiquées sont ambitieuses : en tests internes, MiMo-V2.5-Pro se montre compétitif face à Claude Opus 4.6 et GPT-5.4 sur des tâches d'agent général, d'ingénierie logicielle complexe et d'exécution de tâches longues. Associé au bon environnement d'exécution, le modèle peut enchaîner de manière fiable des séquences impliquant près de 1 000 appels d'outils au cours d'une même session. Sa capacité à suivre des instructions implicites tout en maintenant une cohérence logique sur de longues interactions représente une avancée notable par rapport à la génération précédente, et le positionne comme un outil crédible pour des charges de travail professionnelles exigeantes. Cette annonce s'inscrit dans une stratégie d'accélération claire de Xiaomi dans la course mondiale aux grands modèles de langage. Longtemps perçu avant tout comme fabricant de smartphones et d'électronique grand public, le groupe chinois investit massivement dans l'IA depuis plusieurs trimestres, cherchant à s'imposer face à des acteurs comme Alibaba, Baidu ou DeepSeek sur le marché domestique, tout en visant une reconnaissance internationale grâce à l'open source. La publication prochaine des poids du modèle devrait permettre à la communauté de valider les performances annoncées et d'évaluer la place réelle de Xiaomi dans l'écosystème mondial de l'IA.

UELa mise en open source prochaine des poids du modèle pourrait intéresser les développeurs et entreprises européennes cherchant des alternatives open source compétitives, sans impact réglementaire direct sur la France ou l'UE.

LLMsActu
1 source
Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique
425MarkTechPost 

Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique

Un tutoriel publié récemment détaille comment concevoir un système multi-agents de niveau production à l'aide du framework CAMEL, une bibliothèque Python open source dédiée à l'orchestration d'agents LLM. Le pipeline décrit met en scène cinq agents spécialisés aux rôles clairement délimités : un planificateur, un chercheur, un rédacteur, un critique et un rééditeur. L'ensemble repose sur GPT-4o d'OpenAI (via l'API), la validation de schémas avec Pydantic 2.7, et l'affichage structuré via Rich 13.7. Concrètement, le système génère des synthèses techniques documentées de façon autonome, en combinant recherche web en temps réel, échantillonnage par auto-cohérence et raffinement itératif piloté par critique interne. Ce type d'architecture multi-agents représente une évolution significative par rapport aux approches LLM classiques en pipeline simple. En distribuant les responsabilités entre agents distincts, chacun doté de contraintes de sortie précises (schémas JSON validés par Pydantic), le système réduit les hallucinations et améliore la cohérence des résultats. L'ajout d'un agent critique qui évalue la production de l'agent rédacteur, puis déclenche un agent rééditeur si le score est insuffisant, introduit une boucle de contrôle qualité autonome : le système s'auto-corrige sans intervention humaine. Pour les équipes produit ou data qui cherchent à industrialiser des workflows de génération de contenu ou d'analyse, cette approche offre un cadre reproductible, modulaire et extensible. CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) est un framework open source initié en 2023, qui a gagné en maturité avec des versions stables permettant l'intégration native d'outils web, de modèles multi-plateformes et de mécanismes de validation structurée. Le tutoriel s'inscrit dans un mouvement plus large d'industrialisation des agents LLM, où des acteurs comme LangChain, AutoGen de Microsoft ou CrewAI cherchent à standardiser la façon dont on compose des agents spécialisés. L'enjeu central est de passer du prototype expérimental au système fiable en production, ce qui exige précisément les mécanismes décrits ici : contrôle de schéma, gestion des erreurs, logique de retry et traçabilité des sorties. Les prochaines évolutions de ces frameworks devraient intégrer davantage de mémoire persistante entre agents et des mécanismes de délégation dynamique des tâches, rapprochant ces systèmes des premières formes d'automatisation cognitive véritablement autonome.

OutilsTuto
1 source
Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative
426AWS ML Blog 

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

InfrastructureActu
1 source
JiuwenClaw ouvre la voie à l'ingénierie de coordination, nouvelle étape dans la maîtrise du génie logiciel
427MarkTechPost 

JiuwenClaw ouvre la voie à l'ingénierie de coordination, nouvelle étape dans la maîtrise du génie logiciel

La communauté open source openJiuwen a publié une nouvelle version de JiuwenClaw intégrant une fonctionnalité appelée AgentTeam, qui introduit un concept inédit baptisé "Coordination Engineering". L'idée : faire travailler plusieurs agents d'intelligence artificielle ensemble comme une équipe humaine soudée, capable de se répartir les tâches, de communiquer entre eux et de livrer un résultat complexe sans aucune intervention humaine. La démonstration la plus frappante de cette capacité a été réalisée lors de tests internes : le système a produit une présentation technique de 200 diapositives, structurée et logiquement cohérente, en moins de 20 minutes. Pour ce faire, un agent "Leader" a décomposé le sujet en dix axes d'analyse, confié chaque axe à un agent dédié chargé de générer 20 slides, puis fusionné l'ensemble sous une thématique unifiée. Ce type de collaboration multi-agents représente un franchissement de cap significatif dans la conception des systèmes d'IA autonomes. Jusqu'ici, la plupart des architectures d'agents reposaient sur un pilotage humain constant ou sur des pipelines rigides et préprogrammés. Avec AgentTeam, la coordination devient dynamique : le Leader construit l'équipe selon les besoins du projet, peut ajouter ou retirer des membres en cours d'exécution, et chaque agent revendique ses tâches de manière proactive sur un tableau de bord partagé. Les dépendances entre tâches sont gérées automatiquement, et un mécanisme de récupération sur incident prend en charge les pannes sans intervention extérieure. Pour les entreprises cherchant à automatiser des processus de production de contenu, d'analyse ou de développement logiciel, ce niveau d'autonomie organisationnelle pourrait réduire considérablement le besoin de supervision humaine. Ce développement s'inscrit dans une tendance plus large de l'industrie de l'IA vers les systèmes multi-agents, où des acteurs comme OpenAI, Anthropic ou des projets open source concurrents explorent des architectures permettant à plusieurs LLMs de collaborer. JiuwenClaw se distingue en formalisant trois mécanismes techniques précis : une hiérarchie Leader/Teammates avec planification dynamique, un espace de fichiers partagé accessible à tous les agents de l'équipe, et un système de validation à deux niveaux où le Leader doit approuver les plans d'exécution sensibles avant leur mise en oeuvre. Le projet est disponible en open source sur GitHub. La prochaine étape pour l'écosystème sera de déterminer si cette approche tient à plus grande échelle, avec des équipes d'agents plus nombreuses, des tâches plus longues, et des environnements moins contrôlés que les démonstrations actuelles.

OutilsOutil
1 source
Le rôle de l'IA dans le développement des bots de trading forex
428AI News 

Le rôle de l'IA dans le développement des bots de trading forex

L'intelligence artificielle transforme en profondeur le développement des robots de trading sur le marché des changes (forex), un secteur qui brasse quotidiennement plus de 7 500 milliards de dollars d'échanges à travers le monde. Là où les premiers robots forex reposaient sur des règles statiques, entrer en position lorsqu'une moyenne mobile franchit un seuil précis, sortir lorsqu'un prix cible est atteint, les systèmes modernes intègrent désormais des techniques d'apprentissage automatique, de traitement du langage naturel (NLP), d'apprentissage profond et de renforcement par essais-erreurs. Ces architectures permettent aux algorithmes de s'entraîner sur des historiques de données, d'identifier des corrélations complexes entre indicateurs techniques et variables macroéconomiques, puis d'ajuster leurs stratégies en continu à mesure que de nouvelles données arrivent. Le NLP joue un rôle particulier : il permet aux systèmes de scanner en temps réel les annonces des banques centrales, les rapports économiques et les flux d'actualités financières pour détecter des changements de sentiment susceptibles de faire bouger les paires de devises. L'impact le plus concret de cette évolution concerne la gestion du risque. Les marchés des changes sont réputés pour leur volatilité et leur fonctionnement 24 heures sur 24, cinq jours par semaine, ce qui rend la surveillance manuelle exhaustive pratiquement impossible même pour les traders les plus expérimentés. Les systèmes pilotés par IA peuvent surveiller simultanément des dizaines de signaux, mouvements de prix, niveaux de volatilité, évolutions de liquidité, corrélations entre paires de devises, et identifier des signaux d'alerte bien plus tôt que les méthodes traditionnelles. Cette capacité à traiter des volumes massifs d'informations hétérogènes en temps réel représente un avantage décisif : elle réduit l'exposition aux pertes soudaines tout en permettant de saisir des opportunités fugaces que l'analyse humaine ne pourrait pas détecter à cette vitesse. Cette mutation s'inscrit dans une transformation plus large de la finance algorithmique. Pendant des décennies, les robots de trading ont été l'apanage des grandes institutions, banques d'investissement, fonds spéculatifs, qui disposaient des ressources pour développer et maintenir des systèmes sophistiqués. La démocratisation des frameworks d'apprentissage automatique open source et la réduction des coûts de calcul cloud ont progressivement ouvert ce terrain aux traders indépendants et aux petites sociétés de gestion. Les modèles peuvent désormais être réentraînés régulièrement pour intégrer les nouvelles dynamiques de marché, ce qui réduit l'obsolescence rapide qui frappait les anciens robots à règles fixes. La question qui se pose pour les acteurs du secteur n'est plus de savoir si l'IA doit intégrer leurs systèmes de trading, mais à quelle vitesse et avec quels garde-fous humains maintenir dans la boucle de décision.

UELes gérants de fonds et traders indépendants européens sont concernés par la démocratisation de ces outils algorithmiques, mais l'article n'aborde aucune spécificité réglementaire ou institutionnelle propre à l'UE.

OutilsOutil
1 source
429AWS ML Blog 

L'IA générative d'AWS au service du commerce de détail

Amazon Web Services propose une solution complète de commerce en ligne basée sur l'intelligence artificielle générative, permettant aux enseignes de déployer un système d'essayage virtuel et de recommandation de produits. Construite autour d'Amazon Nova Canvas, Amazon Rekognition et Amazon OpenSearch Serverless, l'architecture repose entièrement sur des services sans serveur (serverless) et se déploie via une seule commande grâce au modèle AWS SAM. Cinq fonctions Lambda spécialisées orchestrent les différentes capacités : interface chatbot, traitement de l'essayage virtuel, génération de recommandations, ingestion de données et recherche intelligente. Le stockage s'appuie sur des buckets S3, la recherche vectorielle sur OpenSearch Serverless, et le suivi analytique en temps réel sur DynamoDB. La solution est disponible en open source sur GitHub et peut être déployée directement dans un compte AWS, de préférence en région us-east-1. Cette technologie s'attaque à un problème économique majeur du e-commerce : l'incertitude des acheteurs face à la taille et au rendu visuel des produits, qui génère des taux de retour élevés, des coûts opérationnels importants et une frustration client. En permettant aux consommateurs de visualiser de façon réaliste un vêtement ou un accessoire porté sur eux, le système améliore directement la confiance à l'achat et réduit les retours, avec un impact mesurable sur la rentabilité. Au-delà de l'essayage, la solution intègre une recherche en langage naturel comprenant l'intention client, des recommandations visuellement pertinentes basées sur Amazon Titan Multimodal Embeddings, et un tableau de bord analytique qui aide les retailers à optimiser leur inventaire et leurs décisions merchandising. Le commerce en ligne est sous pression croissante pour reproduire l'expérience sensorielle du magasin physique, un défi que les technologies de réalité augmentée et d'IA générative commencent seulement à résoudre à grande échelle. AWS positionne cette solution autant pour ses partenaires intégrateurs que pour les retailers qui souhaitent accélérer leur transformation numérique sans développer d'infrastructure propriétaire. La conception modulaire permet d'adopter une ou plusieurs fonctionnalités de façon indépendante, abaissant ainsi la barrière à l'entrée pour les enseignes de taille intermédiaire. À mesure que les modèles de fondation d'Amazon Bedrock gagnent en disponibilité régionale et en performance, ce type de solution hybride, combinant vision par ordinateur, embeddings multimodaux et génération d'images, devrait s'imposer comme standard dans les plateformes e-commerce de nouvelle génération.

UELes retailers français et européens peuvent déployer cette solution pour réduire leurs taux de retour e-commerce, mais au prix d'une dépendance totale à l'infrastructure cloud américaine d'AWS.

OutilsOutil
1 source
430MarkTechPost 

Créer une couche de mémoire à long terme universelle pour les agents IA avec Mem0 et OpenAI

Des chercheurs et développeurs s'appuient désormais sur Mem0, une bibliothèque open source compatible avec les modèles OpenAI et la base de données vectorielle ChromaDB, pour construire une couche de mémoire persistante destinée aux agents d'intelligence artificielle. Le principe repose sur une architecture en plusieurs modules : extraction automatique de souvenirs structurés à partir de conversations naturelles, stockage sémantique dans ChromaDB via les embeddings text-embedding-3-small, récupération contextuelle par recherche vectorielle, et intégration directe dans les réponses générées par GPT-4.1-nano. Concrètement, le système segmente les échanges conversationnels en faits durables associés à un identifiant utilisateur, comme les préférences techniques, les projets en cours ou les informations personnelles, puis les rend disponibles lors des interactions futures via une API CRUD complète permettant d'ajouter, modifier, supprimer ou interroger ces souvenirs. Cette approche résout un problème fondamental des agents IA actuels : leur amnésie entre les sessions. Sans mémoire persistante, chaque conversation repart de zéro, obligeant l'utilisateur à reformuler son contexte à chaque échange. Avec ce type d'architecture, un agent peut se souvenir qu'un utilisateur est ingénieur logiciel, qu'il travaille sur un pipeline RAG pour une fintech, et qu'il préfère VS Code en mode sombre, sans que ces informations aient été répétées. Pour les entreprises qui déploient des assistants IA internes, des copilotes de code ou des outils de support client, cela représente un gain de personnalisation et d'efficacité considérable. L'isolation multi-utilisateurs intégrée dans Mem0 garantit par ailleurs que les souvenirs d'un profil ne contaminent pas ceux d'un autre. La mémoire à long terme est l'un des chantiers prioritaires de l'IA générative en 2025-2026, aux côtés du raisonnement et de l'utilisation d'outils. Des acteurs comme OpenAI avec la mémoire de ChatGPT, ou des startups spécialisées telles que Mem0 (anciennement EmbedChain), se positionnent sur ce marché en pleine expansion. L'approche présentée ici est dite "production-ready" : elle exploite ChromaDB en local pour réduire les coûts et la latence, mais reste compatible avec des backends cloud. La tendance de fond est de faire évoluer les agents d'un mode sans état vers une continuité contextuelle, condition nécessaire pour des assistants véritablement utiles sur la durée. Les prochaines étapes probables incluent la gestion de la decay mémorielle (oublier les informations obsolètes) et l'intégration dans des frameworks multi-agents comme LangGraph ou AutoGen.

💬 Le problème de l'amnésie entre sessions, c'est le truc qui rend les agents inutilisables en vrai. Mem0 propose une architecture propre pour ça, avec ChromaDB en local et une isolation multi-utilisateurs qui tient la route, ce qui évite les bricolages maison qu'on voit partout. Bon, "production-ready" ça se vérifie, mais l'approche est solide.

OutilsOutil
1 source
431AWS ML Blog 

Bonnes pratiques pour l'inférence sur Amazon SageMaker HyperPod

Amazon a enrichi sa plateforme SageMaker HyperPod d'un ensemble de fonctionnalités dédiées à l'inférence de modèles d'IA générative, avec pour promesse affichée une réduction du coût total de possession allant jusqu'à 40%. La solution s'appuie sur Amazon Elastic Kubernetes Service (EKS) comme orchestrateur et permet de créer un cluster en quelques clics depuis la console SageMaker AI. Deux modes de configuration sont proposés : une installation rapide avec des ressources par défaut, et une installation personnalisée permettant d'intégrer des infrastructures existantes. Une fois le cluster actif, l'opérateur d'inférence intégré permet de déployer des modèles directement depuis des buckets S3, des systèmes de fichiers FSx for Lustre, ou depuis le catalogue SageMaker JumpStart, sans écrire une seule ligne de code. Des notebooks d'exemple couvrent les cas d'usage courants : modèles préconstruits, modèles fine-tunés, configurations personnalisées. L'enjeu central de cette mise à jour est la gestion dynamique des ressources GPU, historiquement coûteuse et complexe à piloter. HyperPod introduit une architecture de scalabilité à deux niveaux : KEDA (Kubernetes Event-Driven Autoscaling), un projet open source de la Cloud Native Computing Foundation, gère l'autoscaling des pods en fonction de métriques temps réel comme la longueur de la file de requêtes, la latence, ou des métriques CloudWatch et Prometheus personnalisées. KEDA peut réduire le nombre de pods à zéro en l'absence de trafic, supprimant ainsi les coûts à l'arrêt. En parallèle, Karpenter opère au niveau des nœuds de calcul : il provisionne ou retire des instances selon les besoins des pods en attente, et tourne dans le plan de contrôle EKS, ce qui évite tout surcoût lié à l'autoscaler lui-même. Cette combinaison permet de passer de zéro à une charge de production en réponse à la demande réelle. Ce lancement intervient dans un contexte où le déploiement de modèles de fondation à grande échelle est devenu un point de friction majeur pour les équipes IA en entreprise : infrastructure difficile à calibrer, pics de trafic imprévisibles, surinvestissement GPU, et délais de mise en production allongés. AWS positionne HyperPod comme une réponse complète à ce trilemme coût-performance-simplicité, en absorbant la complexité opérationnelle dans une couche managée. La plateforme concurrence directement les offres de Google (Vertex AI) et Microsoft Azure (ML endpoints managés), qui proposent des approches similaires. Les suites probables incluent une intégration plus poussée avec les outils d'observabilité AWS et une extension du support à d'autres architectures de modèles, alors que la course aux infrastructures d'inférence efficaces s'intensifie dans tout le secteur cloud.

InfrastructureActu
1 source
432AWS ML Blog 

Le Spring AI SDK pour Amazon Bedrock AgentCore est désormais en disponibilité générale

Amazon a rendu disponible en accès général le Spring AI SDK pour Amazon Bedrock AgentCore, une bibliothèque open source qui permet aux développeurs Java de construire et déployer des agents IA autonomes en production sur l'infrastructure d'AWS. Ce SDK s'intègre nativement dans l'écosystème Spring Boot 3.5 et Java 17 minimum, en exploitant les patterns familiers du framework : annotations, auto-configuration et advisors composables. Concrètement, un développeur ajoute une dépendance au projet, annote une méthode, et le SDK prend en charge tout le reste, de la gestion des endpoints jusqu'au streaming des réponses en temps réel. Jusqu'à présent, intégrer Amazon Bedrock AgentCore dans une application Spring représentait plusieurs semaines de travail d'infrastructure avant même d'écrire la moindre logique métier : il fallait implémenter manuellement les endpoints /invocations et /ping, gérer le streaming Server-Sent Events avec son protocole précis, configurer les health checks, le rate limiting, et connecter les advisors et les outils. Le SDK automatise entièrement ce contrat technique imposé par l'AgentCore Runtime. En particulier, il détecte automatiquement les tâches asynchrones longues et signale un statut "HealthyBusy" au runtime pour éviter qu'il ne retire des ressources pendant un traitement actif, un détail critique dans un modèle de facturation à l'usage où les temps d'inactivité ne sont pas facturés. Les équipes peuvent ainsi se concentrer sur la logique des agents plutôt que sur la plomberie infrastructure, et déployer des fonctionnalités comme la mémoire conversationnelle, l'automatisation de navigateur et l'exécution de code en sandbox. L'émergence de ce SDK s'inscrit dans une tendance de fond : les entreprises cherchent à passer des preuves de concept en IA générative à des systèmes agentiques véritablement opérationnels à grande échelle, capables de planifier et d'exécuter des tâches complexes en plusieurs étapes de manière autonome. AWS positionne Bedrock AgentCore comme une plateforme universelle, compatible avec n'importe quel framework et n'importe quel modèle. En ciblant spécifiquement la communauté Java et Spring, l'une des plus larges dans l'entreprise, Amazon ouvre un couloir direct vers la production pour des millions de développeurs backend qui auraient autrement dû franchir une barrière technique considérable. La concurrence dans ce segment est vive : Microsoft avec Azure AI, Google avec Vertex AI et des acteurs comme LangChain ou CrewAI proposent leurs propres abstractions pour les agents IA. La disponibilité générale du Spring AI AgentCore SDK marque une étape dans la maturité de l'outillage autour des agents IA en entreprise, où la gouvernance, la sécurité et la scalabilité deviennent des critères aussi importants que les capacités du modèle lui-même.

UELes développeurs Java et Spring Boot en Europe peuvent intégrer directement Amazon Bedrock AgentCore dans leurs projets sans semaines de travail d'infrastructure, accélérant la mise en production d'agents IA sur AWS.

OutilsOutil
1 source
MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche
433MarkTechPost 

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche

MiniMax, la startup chinoise d'intelligence artificielle connue pour ses modèles multimodaux, a lancé MMX-CLI, une interface en ligne de commande open source qui donne aux développeurs et aux agents IA un accès direct à l'ensemble de la plateforme MiniMax : génération de texte, d'images, de vidéos, de voix, de musique, d'analyse visuelle et de recherche web. L'outil, écrit en TypeScript avec le runtime Bun, s'organise en sept groupes de commandes, mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision et mmx search, couvrant des cas d'usage allant du chat multi-tour en streaming jusqu'à la synthèse musicale avec contrôle du tempo, du BPM, de la tonalité et des instruments. La commande mmx speech propose plus de 30 voix et accepte jusqu'à 10 000 caractères, tandis que mmx video s'appuie par défaut sur le modèle MiniMax-Hailuo-2.3 et permet de générer une vidéo à partir d'une image de départ via le flag --first-frame. L'enjeu principal est de simplifier radicalement l'intégration des capacités multimodales dans les workflows des agents IA. Aujourd'hui, des outils comme Cursor, Claude Code ou OpenCode sont puissants pour manipuler du texte et du code, mais n'ont pas de chemin natif pour générer des médias sans passer par des couches d'intégration supplémentaires, wrappers d'API, configuration serveur, gestion d'authentification séparée, ou protocoles comme le Model Context Protocol (MCP). MMX-CLI contourne tout cela : un agent peut invoquer une commande shell comme n'importe quel outil terminal, sans glue MCP. Pour les équipes qui automatisent des pipelines de création de contenu, de localisation audio ou de production vidéo, cela représente une réduction concrète du coût d'intégration et du temps de développement. Ce lancement s'inscrit dans une tendance plus large où les fournisseurs de modèles cherchent à devenir des plateformes complètes plutôt que de simples API de texte. MiniMax, qui a levé des centaines de millions de dollars et positionne son stack "omni-modal" face aux offres de Google, OpenAI et ElevenLabs, mise sur l'outillage développeur comme levier d'adoption. En exposant ses modèles via une CLI standardisée compatible avec les grands environnements de développement assistés par IA, la société cherche à s'ancrer dans les workflows quotidiens des ingénieurs avant que des concurrents ne comblent le même manque. La prochaine étape probable est une adoption croissante dans les pipelines d'automatisation, content factories, doublage automatique, génération de supports marketing, où la combinaison texte-image-vidéo-voix en une seule interface représente un avantage opérationnel réel.

💬 Pas de wrapper MCP, pas de config serveur, juste une commande shell pour avoir du texte, de la vidéo, de la voix, de la musique : sur le papier, c'est exactement le raccourci qu'il me manquait dans mes pipelines. Si tu automatises de la prod de contenu multimédia, l'intégration devient triviale du coup. La vraie question c'est la qualité des modèles MiniMax face à ElevenLabs ou Hailuo en conditions réelles.

OutilsOutil
1 source
Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice
434MarkTechPost 

Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice

Microsoft a publié VibeVoice, un système de traitement de la parole combinant reconnaissance vocale avancée et synthèse vocale expressive, accompagné d'un tutoriel complet permettant de déployer l'ensemble du pipeline directement dans Google Colab. Le modèle ASR (reconnaissance automatique de la parole) pèse 7 milliards de paramètres et nécessite environ 14 Go de téléchargement lors de la première utilisation. Il s'appuie sur la bibliothèque Transformers de HuggingFace, avec un support spécifique via la classe VibeVoiceAsrForConditionalGeneration. Le tutoriel couvre l'installation des dépendances, le clonage du dépôt officiel depuis GitHub, et la configuration de l'environnement d'exécution, avant de plonger dans des cas d'usage concrets : transcription de podcasts avec identification des locuteurs, traitement audio par lots, génération de parole longue durée avec différents préréglages vocaux, et déploiement d'une interface interactive via Gradio. Un pipeline bout-en-bout speech-to-speech est également présenté, permettant de transformer directement une entrée audio en sortie vocale synthétisée. L'intérêt majeur de VibeVoice réside dans sa capacité à combiner dans un même système la diarisation des locuteurs, la transcription guidée par contexte et la synthèse vocale expressive multilingue, avec un exemple en allemand fourni dans les données de démonstration hébergées sur HuggingFace. Pour les développeurs et chercheurs, cela représente un gain concret : là où il fallait auparavant assembler plusieurs modèles spécialisés (un pour la transcription, un pour la détection des locuteurs, un pour la synthèse), VibeVoice propose une interface unifiée. La prise en charge native de device_map="auto" et du format float16 facilite également le déploiement sur GPU grand public sans optimisation manuelle. Le fait que le tutoriel soit conçu pour Colab rend le modèle accessible sans infrastructure locale dédiée. Microsoft s'inscrit avec VibeVoice dans une compétition intense autour des modèles de parole fondationnels, face à OpenAI Whisper, Meta SeamlessM4T ou encore Google USM. La publication simultanée d'un tutoriel détaillé et de jeux de données d'exemple sur HuggingFace suggère une stratégie d'adoption communautaire, cherchant à ancrer VibeVoice comme référence dans l'écosystème open source. L'intégration dans Transformers, bibliothèque centrale de l'industrie, est un signal fort : Microsoft ne veut pas que VibeVoice reste un projet isolé, mais qu'il devienne un composant standard dans les pipelines de traitement audio. Les prochaines étapes probables incluent des versions plus légères pour un déploiement embarqué, et une extension du support multilingue au-delà des langues déjà couvertes.

OutilsOutil
1 source
Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV
435MarkTechPost 

Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV

NVIDIA a publié KVPress, une bibliothèque open source conçue pour compresser le cache clé-valeur (KV cache) des grands modèles de langage et réduire drastiquement leur consommation mémoire lors des inférences sur de longs contextes. Un tutoriel complet publié récemment par des ingénieurs en IA illustre son fonctionnement concret à travers une implémentation pas-à-pas exécutable sur Google Colab. L'exemple s'appuie sur le modèle Qwen2.5-1.5B-Instruct de Qwen, chargé en quantification 4 bits via la bibliothèque BitsAndBytes, et fait appel à la version 0.4.0 de KVPress. Deux stratégies de compression sont comparées : ExpectedAttentionPress, qui estime l'importance des tokens en fonction de l'attention attendue, et KnormPress, qui s'appuie sur la norme des vecteurs K pour éliminer les entrées peu pertinentes. Le pipeline génère un corpus synthétique long, pose des questions ciblées sur ce corpus, puis mesure les écarts de performance et d'empreinte mémoire entre la génération standard et les différentes configurations compressées. L'enjeu est considérable pour l'industrie du traitement du langage naturel. Le KV cache est le principal goulot d'étranglement mémoire lors de l'inférence sur de longs contextes : chaque token généré alimente un cache qui grossit linéairement, rendant les fenêtres de 32 000, 128 000 voire un million de tokens extrêmement coûteuses en VRAM. KVPress permet de ne conserver dans ce cache que les entrées jugées les plus informatives, en supprimant dynamiquement les tokens à faible contribution. Pour les développeurs déployant des applications d'analyse de documents, de recherche d'information ou d'agents conversationnels à mémoire longue, cette compression peut rendre viables des scénarios qui nécessiteraient sinon du matériel de classe A100 ou H100. La possibilité de faire tourner ces expériences sur Colab, avec une simple GPU grand public, illustre bien la baisse de barrière à l'entrée que KVPress ambitionne d'offrir. La gestion du KV cache est devenue l'un des fronts les plus actifs de la recherche en inférence LLM depuis que les fenêtres contextuelles ont explosé en 2023-2024. Des techniques comme Sliding Window Attention, PagedAttention (à la base de vLLM) ou les approches de quantification du cache ont émergé pour répondre à cette pression. NVIDIA, en proposant KVPress comme couche d'abstraction modulaire compatible avec le pipeline Hugging Face Transformers, cherche à standardiser l'accès à ces optimisations pour un public plus large que les seules équipes d'infrastructure. La prochaine étape naturelle sera d'évaluer ces stratégies sur des modèles de plus grande taille et sur des benchmarks de rétention d'information à longue portée, pour quantifier précisément le compromis entre taux de compression et fidélité des réponses dans des cas d'usage de production.

OutilsTuto
1 source
Google intègre le support MCP dans Colab pour permettre l'exécution cloud d'agents IA
436InfoQ AI 

Google intègre le support MCP dans Colab pour permettre l'exécution cloud d'agents IA

Google a publié le Colab MCP Server, un outil open source qui permet aux agents d'intelligence artificielle d'interagir directement avec Google Colab via le Model Context Protocol (MCP). Cette intégration donne aux agents la capacité d'exécuter du code, de lancer des notebooks et de piloter des environnements cloud Colab sans intervention humaine, en passant par une interface standardisée que les principaux frameworks d'agents reconnaissent nativement. L'enjeu est concret : les développeurs qui construisent des agents IA se heurtent régulièrement à deux problèmes, la puissance de calcul disponible localement et la sécurité des exécutions. En déportant ces tâches vers Colab, les agents peuvent faire tourner des modèles lourds, traiter des jeux de données volumineux ou exécuter du code potentiellement risqué dans un environnement isolé et géré par Google, sans exposer la machine du développeur. Cela ouvre la voie à des workflows d'automatisation bien plus ambitieux, notamment pour les équipes qui n'ont pas accès à des GPU dédiés. Ce lancement s'inscrit dans la montée en puissance du Model Context Protocol, standard initialement proposé par Anthropic et rapidement adopté par l'ensemble de l'industrie comme protocole commun pour connecter les agents aux outils externes. Google, qui avait déjà intégré MCP dans plusieurs de ses produits, étend ainsi sa surface de compatibilité avec l'écosystème agent. Le fait que le serveur soit open source suggère une volonté d'ancrer Colab comme infrastructure de référence pour l'exécution agentique dans le cloud.

UELes équipes européennes de développement IA peuvent déléguer l'exécution agentique à un environnement cloud isolé, facilitant le développement sans infrastructure GPU dédiée.

OutilsOutil
1 source
[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
437Next INpact 

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Faire tourner un grand modèle de langage sur sa propre machine est désormais accessible à quiconque dispose d'un ordinateur suffisamment puissant. Des outils comme Ollama permettent d'installer et d'utiliser localement des LLM tels que Mistral, LLaMA ou Qwen, sans connexion internet et sans envoyer la moindre donnée à un serveur tiers. L'article propose un tutoriel pas à pas pour configurer cet environnement en local, accompagné d'un comparatif de performances entre deux configurations : un serveur équipé de 24 cœurs CPU sans GPU, et un autre disposant d'une carte graphique dédiée. Le résultat est sans appel : l'écart de vitesse d'inférence entre les deux setups est énorme, le GPU surclassant massivement le CPU seul pour ce type de charge de travail. L'enjeu central est la confidentialité des données. Utiliser ChatGPT, Claude ou Le Chat implique d'envoyer ses requêtes sur les serveurs d'OpenAI, Anthropic ou Mistral, où elles peuvent potentiellement servir à l'entraînement ou à l'amélioration des modèles. Pour les professionnels manipulant des données sensibles, documents juridiques, médicaux, financiers, code propriétaire, cette dépendance aux infrastructures cloud représente un risque réel. L'exécution locale supprime complètement ce vecteur : le modèle tourne sur la machine de l'utilisateur, les données n'en sortent jamais. C'est aussi une question d'autonomie : pas de quota d'API, pas d'abonnement mensuel, pas de coupure de service. Deux contraintes techniques conditionnent la faisabilité de cette approche. D'abord la mémoire : les poids d'un modèle de 7 milliards de paramètres occupent environ 4 à 8 Go selon le niveau de quantisation, tandis qu'un modèle de 70 milliards en requiert facilement 40 Go ou plus. Ensuite la puissance de calcul : un GPU accélère les opérations matricielles qui constituent le cœur de l'inférence, là où un CPU seul produit des réponses lentes et difficilement utilisables en pratique. Cette architecture locale n'est pas nouvelle, la communauté open source travaille dessus depuis la publication de LLaMA par Meta en 2023, mais elle est devenue beaucoup plus accessible grâce à des outils comme Ollama, LM Studio ou llama.cpp, qui abstraient la complexité technique. L'essor des modèles compacts et quantisés (3B, 7B, 14B paramètres) rend aujourd'hui possible une expérience satisfaisante même sur du matériel grand public, à condition de disposer d'une carte graphique avec suffisamment de VRAM.

UELes professionnels européens soumis au RGPD peuvent éliminer le risque d'envoi de données sensibles vers des serveurs américains en exécutant leurs modèles en local.

OutilsTuto
1 source
Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage
438MarkTechPost 

Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage

NVIDIA a publié un tutoriel complet détaillant comment construire un pipeline d'optimisation de bout en bout à l'aide de son outil NVIDIA Model Optimizer, combinant entraînement, élagage (pruning) et ajustement fin (fine-tuning) d'un réseau de neurones profond, le tout dans Google Colab sans infrastructure dédiée. Le pipeline repose sur l'architecture ResNet appliquée au jeu de données CIFAR-10, et utilise la technique FastNAS pour réduire la complexité computationnelle du modèle sous une contrainte de 60 millions de FLOPs (opérations en virgule flottante). Concrètement, le modèle est d'abord entraîné sur 12 000 exemples pendant 20 époques pour établir une référence, puis soumis à l'élagage structurel FastNAS qui supprime systématiquement les couches et filtres les moins utiles, avant une phase de fine-tuning de 12 époques pour récupérer la précision perdue. Cette approche répond à un besoin pressant dans l'industrie : déployer des modèles d'IA performants sur des matériels contraints, comme les appareils embarqués, les téléphones mobiles ou les serveurs à faible consommation. En réduisant le nombre de FLOPs sans sacrifier significativement la précision, FastNAS permet de rendre un modèle jusqu'à plusieurs fois plus léger et plus rapide à l'inférence. Pour les équipes ML en entreprise, cela se traduit par des coûts de déploiement réduits, une latence moindre et une empreinte énergétique plus faible. Le fait que l'ensemble du pipeline soit reproductible dans Colab, avec gestion des seeds et des sous-ensembles de données, le rend accessible à des équipes sans cluster GPU dédié. NVIDIA développe Model Optimizer dans le cadre de sa stratégie plus large pour contrôler toute la chaîne de valeur de l'IA, de l'entraînement jusqu'au déploiement sur ses propres puces. FastNAS s'inscrit dans une famille de techniques de compression de modèles qui inclut également la quantification et la distillation, toutes intégrées dans l'écosystème NVIDIA TensorRT. Face à la montée en puissance des outils open source comme la bibliothèque PEFT de Hugging Face ou les approches de pruning de PyTorch, NVIDIA positionne Model Optimizer comme une solution intégrée et orientée production. La prochaine étape logique de ce pipeline serait la conversion du modèle élaguévers le format ONNX ou TensorRT pour un déploiement sur GPU NVIDIA, bouclant ainsi la boucle entre recherche et mise en production industrielle.

OutilsTuto
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
439MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
Créer et faire évoluer un agent OpenAI sur mesure avec A-Evolve : benchmarks, compétences et mémoire
440MarkTechPost 

Créer et faire évoluer un agent OpenAI sur mesure avec A-Evolve : benchmarks, compétences et mémoire

A-Evolve est un framework open source conçu pour faire évoluer automatiquement des agents d'intelligence artificielle en modifiant itérativement leur architecture interne — leurs prompts, leurs compétences, leur mémoire — afin d'améliorer leurs performances sur des tâches définies. Un tutoriel détaillé, exécutable sur Google Colab, montre comment construire de bout en bout un pipeline d'évolution complet en s'appuyant sur GPT-4o-mini d'OpenAI comme moteur de raisonnement. Le processus commence par le clonage du dépôt GitHub A-EVO-Lab/a-evolve, la configuration d'un espace de travail structuré en couches (prompts, skills, memory, tools), et la définition d'un fichier manifeste qui spécifie les parties du système autorisées à évoluer. L'agent démarre avec un prompt système minimaliste, puis est soumis à un benchmark personnalisé comprenant des tâches de transformation de texte — calculs de sommes au format JSON, génération d'acronymes, tri de tokens — pour mesurer objectivement ses progrès à chaque génération. Ce type d'approche représente un changement de paradigme dans la façon dont les équipes construisent et maintiennent des agents IA. Plutôt que d'ajuster manuellement les prompts ou d'affiner un modèle par fine-tuning coûteux, A-Evolve automatise le cycle d'amélioration : l'agent tente des tâches, reçoit un retour structuré sous forme de scores, et un moteur d'évolution applique des mutations ciblées à son espace de travail pour corriger ses failles. Pour les développeurs et les équipes produit, cela signifie des agents qui s'améliorent de façon reproductible et traçable, sans intervention humaine à chaque itération. La philosophie est proche de l'optimisation évolutionnaire appliquée aux systèmes LLM : survivent les configurations qui performent le mieux sur le benchmark défini. A-Evolve s'inscrit dans une tendance plus large autour des agents "auto-améliorants", un sujet qui mobilise plusieurs laboratoires de recherche depuis 2024. Des travaux comme Self-Play Fine-Tuning (SPIN) chez UCLA ou les expériences d'auto-raffinement chez DeepMind ont posé les bases théoriques ; A-Evolve propose ici une implémentation pratique et accessible, orientée ingénierie plutôt que recherche fondamentale. Le framework est publié sous licence ouverte sur GitHub par l'organisation A-EVO-Lab, ce qui laisse la porte ouverte à des contributions communautaires. Les prochaines évolutions attendues concernent l'élargissement des stratégies de mutation (aujourd'hui limitées aux prompts et aux compétences codées) et l'intégration de benchmarks plus complexes, notamment des tâches de raisonnement multi-étapes ou d'interaction avec des APIs externes.

OutilsOutil
1 source
Les 15 meilleures skills OpenClaw à installer en 2026
441Le Big Data 

Les 15 meilleures skills OpenClaw à installer en 2026

OpenClaw s'est imposé en 2026 comme bien plus qu'un simple assistant IA pour développeurs : la plateforme open source est désormais un véritable système d'exploitation autonome capable d'exécuter des scripts shell, de gérer des boîtes mail, de contrôler un navigateur web et de coordonner des chaînes d'actions complexes sans intervention humaine. Son écosystème de « skills » — des modules fonctionnels installables à la demande — compte plusieurs centaines d'extensions. Parmi les plus utiles figurent Capability Evolver, qui permet à l'agent de s'auto-corriger en temps réel lorsqu'une commande échoue et de mémoriser la solution pour les prochaines fois, et Gog, le connecteur Google Workspace qui rédige des synthèses de réunions, nettoie des fichiers Sheets et prépare un briefing matinal livré sur Telegram. Mission Control complète ce trio productivité en coordonnant plusieurs modules en parallèle dès le démarrage — vérification météo, état des serveurs, messages Slack — en une seule passe automatisée. Côté développement, les skills GitHub et Agent Browser sont plébiscitées : la première gère issues et pull requests en autonomie, suggère des relecteurs et poste des notes de version ; la seconde transforme l'agent en outil de scraping avancé, capable de naviguer sur des sites complexes, remplir des formulaires et prendre des captures d'écran pour surveiller des prix ou automatiser des inscriptions. L'enjeu dépasse la simple productivité individuelle. OpenClaw, déployé sur un VPS personnel, donne à n'importe quel utilisateur technique un agent capable de remplacer plusieurs abonnements SaaS — automation, monitoring, rédaction, gestion de projet. Pour les petites équipes de développement, la skill GitHub seule représente un gain de temps substantiel sur les workflows de revue de code. Pour les indépendants ou les TPE, Gog et Mission Control automatisent une partie du travail administratif quotidien. Le modèle open source permet aussi une personnalisation totale, impossible avec des assistants propriétaires comme Copilot ou Notion AI. Mais 2026 marque aussi un tournant dans la méfiance vis-à-vis des écosystèmes de plugins IA. La multiplication des skills disponibles — dont une partie provient de contributeurs anonymes — crée une surface d'attaque non négligeable : des modules malveillants peuvent exfiltrer des données sensibles ou détourner des clés API. Les utilisateurs sont donc fortement encouragés à déployer leur instance uniquement sur un VPS sécurisé, à auditer le code source de chaque skill avant installation et à compartimenter les permissions accordées à chaque module. OpenClaw rejoint ainsi une tendance plus large de l'IA auto-hébergée où la puissance de l'outil est directement proportionnelle au soin apporté à sa configuration — et où une mauvaise installation peut coûter bien plus qu'elle ne rapporte.

OutilsOutil
1 source
Comment construire des agents IA de cybersécurité avancés avec CAI : outils, garde-fous, transferts et workflows multi-agents
442MarkTechPost 

Comment construire des agents IA de cybersécurité avancés avec CAI : outils, garde-fous, transferts et workflows multi-agents

CAI (Cybersecurity AI Framework) est un framework Python open source conçu pour construire des agents d'intelligence artificielle spécialisés en cybersécurité. Un tutoriel détaillé publié récemment démontre, étape par étape dans Google Colab, comment exploiter CAI pour créer des pipelines d'analyse de sécurité complets — depuis un agent basique jusqu'à des architectures multi-agents capables de raisonner, déléguer des tâches, valider des entrées et répondre en temps réel via streaming. Le framework s'installe en une commande (pip install cai-framework), s'appuie sur des modèles compatibles OpenAI comme GPT-4o mini, et expose des classes Python natives — Agent, Runner, function_tool, handoff — pour assembler des workflows de sécurité structurés sans infrastructure complexe. Ce que CAI change concrètement, c'est la capacité à transformer des fonctions Python ordinaires en outils d'analyse que l'agent peut invoquer de manière autonome : vérification de réputation d'adresses IP, simulation de scan de ports style nmap, orchestration de pipelines CTF (Capture The Flag), ou gestion de contexte multi-tours lors d'un incident. Les guardrails d'entrée permettent de filtrer les requêtes hors périmètre avant qu'elles n'atteignent le modèle, réduisant le bruit et les hallucinations. Les handoffs entre agents spécialisés — un agent réseau, un agent forensic, un agent de remédiation — permettent de simuler une équipe SOC entière dans un seul workflow automatisé. Pour les professionnels de la sécurité, cela signifie qu'une grande partie du triage et de l'analyse de premier niveau devient automatisable avec quelques dizaines de lignes de code. CAI s'inscrit dans une tendance plus large qui voit les frameworks d'agents IA (LangChain, AutoGen, OpenAI Agents SDK) être déclinés pour des domaines métier spécifiques. La cybersécurité est un terrain particulièrement fertile : les analystes SOC font face à des volumes d'alertes croissants, les pénétrateurs répètent des tâches de reconnaissance standardisées, et les CTF constituent un terrain d'entraînement idéal pour des agents capables de raisonnement multi-étapes. Le fait que CAI soit compatible avec n'importe quel modèle exposant une API OpenAI — y compris des modèles locaux via OpenRouter ou Ollama — le rend accessible sans dépendance à un fournisseur cloud unique. La prochaine étape naturelle pour le framework serait l'intégration avec des outils réels (Shodan, VirusTotal, SIEM) et des environnements de sandboxing pour tester des exploits sans risque, ce qui en ferait un copilote crédible pour les équipes de sécurité offensives et défensives.

OutilsOutil
1 source
Guide complet du pipeline d'agents nanobot : outils, mémoire, sous-agents et planification cron
443MarkTechPost 

Guide complet du pipeline d'agents nanobot : outils, mémoire, sous-agents et planification cron

Le framework nanobot, développé par le laboratoire HKUDS de l'Université de Hong Kong, s'impose comme l'une des solutions les plus légères pour construire des agents IA personnels complets. Rédigé en environ 4 000 lignes de Python, il embarque l'ensemble du pipeline agent : boucle de raisonnement, exécution d'outils, persistance mémoire, chargement de compétences (skills), gestion de sessions, délégation à des sous-agents et planification via cron. Un tutoriel publié récemment propose d'en reconstruire chaque sous-système à la main, en utilisant le modèle gpt-4o-mini d'OpenAI comme moteur LLM, afin de comprendre précisément leur fonctionnement plutôt que de simplement les utiliser en boîte noire. Le tutoriel progresse étape par étape : depuis une simple boucle d'appel d'outil jusqu'à un pipeline de recherche multi-étapes capable de lire et d'écrire des fichiers, de stocker des mémoires à long terme, et de déléguer des tâches à des agents parallèles fonctionnant en arrière-plan. Ce type de ressource pédagogique a une valeur pratique immédiate pour les développeurs qui souhaitent construire des agents IA sans dépendre de frameworks lourds comme LangChain ou AutoGen, dont la complexité et l'opacité sont souvent citées comme obstacles à la maintenance et à la compréhension. Nanobot mise sur la lisibilité du code source pour permettre aux équipes techniques de personnaliser chaque composant : outils sur mesure, architectures d'agents propres, logiques de scheduling adaptées. Pour un développeur solo ou une petite équipe, pouvoir déployer un agent personnel — capable d'effectuer des recherches, de mémoriser des contextes entre sessions et de lancer des tâches planifiées — en s'appuyant sur moins de 5 000 lignes de code auditables représente un changement d'échelle significatif. Nanobot s'inscrit dans une tendance plus large de miniaturisation des frameworks agentiques, portée par la maturité croissante des API LLM et la volonté de réduire la dette technique dans les projets IA. Alors que les grandes plateformes comme OpenAI ou Anthropic poussent leurs propres solutions d'orchestration, des projets open source légers comme nanobot, smolagents (HuggingFace) ou DSPy cherchent à garder le contrôle dans les mains des développeurs. HKUDS, connu pour ses travaux sur les systèmes de recommandation et les graphes de connaissances, confirme ici une diversification vers l'ingénierie agentique appliquée. Les prochaines évolutions du framework pourraient intégrer une compatibilité multi-modèles élargie, notamment vers les LLM open source via Ollama, et un système de partage de skills entre utilisateurs.

OutilsTuto
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
444MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
445AWS ML Blog 

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
Votre ordinateur ou smartphone peut-il faire tourner une IA ? Ce site vous donne la réponse en un clic
446Frandroid 

Votre ordinateur ou smartphone peut-il faire tourner une IA ? Ce site vous donne la réponse en un clic

CanIRun.ai est un nouveau site qui permet de vérifier en un clic si votre appareil — smartphone, tablette ou PC — est capable de faire tourner une intelligence artificielle en local, sans passer par le cloud. C'est une information concrète et utile pour des millions d'utilisateurs qui souhaitent expérimenter des modèles d'IA comme LLaMA ou Mistral directement sur leur machine, sans dépendre de serveurs distants ni payer d'abonnement. Savoir si son matériel est compatible évite des heures de configuration inutile. L'IA locale gagne en popularité depuis la prolifération de modèles open source légers et performants, mais les exigences en RAM, GPU et stockage restent un frein pour le grand public.

UELes utilisateurs européens peuvent directement vérifier la compatibilité de leur appareil pour faire tourner des modèles open source comme Mistral en local.

OutilsOutil
1 source
En Chine, la ruée vers l’agent IA autonome OpenClaw
447Le Monde Pixels 

En Chine, la ruée vers l’agent IA autonome OpenClaw

En Chine, l'agent IA autonome open source OpenClaw connaît un engouement massif, avec des files d'attente de personnes souhaitant l'installer sur leurs ordinateurs portables. La scène s'est notamment déroulée au siège de Baidu à Pékin le 11 mars 2026, illustrant la popularité croissante des alternatives locales aux assistants IA occidentaux. (Note : l'article fourni est très court — titre et légende photo uniquement. Un résumé plus complet nécessiterait le corps de l'article.)

OutilsOutil
1 source
La boom d'OpenClaw en Chine est une ruée vers l'or pour les entreprises d'IA
448Wired AI 

La boom d'OpenClaw en Chine est une ruée vers l'or pour les entreprises d'IA

La "furie des OpenClaw" en Chine, un agent open source, crée une ruée vers l'or pour les entreprises d'IA. L'engouement entraîne des gens à louer des serveurs cloud et à souscrire à des abonnements d'IA, générant ainsi des bénéfices substantiels pour les compagnies technologiques.

UELa montée en puissance d'OpenClaw en Chine stimule les entreprises européennes comme OVHcloud et SAP, les incitant à innover dans les solutions cloud et IA pour rester concurrentielles.

BusinessOutil
1 source
Exploitation controversée de la folie d'IA OpenClaw en Chine
449MIT Technology Review 

Exploitation controversée de la folie d'IA OpenClaw en Chine

Feng Qingyang, ingénieur logiciel de 27 ans à Pékin, a quitté son emploi fin février pour se consacrer à plein temps à son service d'installation d'OpenClaw — un agent IA open source capable d'exécuter des tâches de manière autonome — après avoir traité plus de 7 000 commandes à 248 RMB (~34$) pièce, avec une équipe de plus de 100 personnes. En Chine, l'outil surnommé "homard" (lobster) est devenu une véritable sensation populaire, attirant des profils non techniques comme des avocats et médecins, et générant des événements physiques réunissant plus de 500 personnes à Shenzhen. Cet engouement a fait émerger toute une industrie artisanale de services d'installation et de matériel préconfiguré, malgré des risques de sécurité importants.

BusinessActu
1 source
Participez à l'Hackathon Open Robotics d'AMD
450HuggingFace Blog 

Participez à l'Hackathon Open Robotics d'AMD

"Rejoignez le Hackathon Open Robotics d'AMD" AMD organise un Hackathon Open Source pour le développement de logiciels de robotique, invitant les programmeurs à collaborer sur des projets utilisant la plateforme RTOS AMDLinux. L'événement aura lieu en ligne, offrant aux participants la possibilité de gagner des prix et de contribuer à des projets open-source.

UEAMD lance un hackathon open-source pour la robotique, impliquant des programmeurs européens et potentiellement français, aligné avec les tendances open-source et les normes éthiques de l'UE, favorisant l'innovation dans le secteur des technologies de la robotique tout en respectant les directives du RGPD pour la gestion des données.

RobotiqueOutil
1 source