Aller au contenu principal

Dossier Alibaba — page 3

124 articles · page 3 sur 3

Suivi de l'actualité IA d'Alibaba : modèles Qwen, services cloud, recherche et déploiements en Chine et à l'international.

Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy
101MarkTechPost OutilsOutil

Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy

ZeroEntropy a publié Zerank-2, un modèle de reranking basé sur l'architecture Qwen3 avec 4 milliards de paramètres, conçu pour améliorer la précision des systèmes de recherche documentaire. Ce cross-encoder fonctionne selon une logique différente des modèles de récupération classiques : au lieu de comparer des vecteurs d'embeddings indépendants, il analyse conjointement chaque paire requête-document pour produire un score de pertinence calibré. Le modèle, accessible via l'identifiant zeroentropy/zerank-2-reranker sur HuggingFace, pèse environ 8 Go en mémoire GPU et s'intègre directement dans la bibliothèque sentence-transformers. Un tutoriel complet illustre son usage à travers des cas concrets en finance, droit et code, avec une évaluation quantitative via la métrique NDCG@10. L'apport principal de ce type de système réside dans l'architecture en deux étapes qu'il rend possible. Un premier modèle léger dit bi-encoder récupère rapidement un ensemble de candidats depuis une large base documentaire, puis Zerank-2 reclasse ces candidats avec une précision bien supérieure, au prix d'un calcul plus intensif mais limité à un sous-ensemble réduit. Cette combinaison permet d'atteindre la précision d'un cross-encoder sans en subir le coût computationnel à grande échelle. Pour les équipes qui construisent des moteurs de recherche d'entreprise, des pipelines RAG (Retrieval-Augmented Generation) ou des systèmes de questions-réponses, ce gain de précision peut être décisif : un reranker bien calibré réduit les hallucinations des LLM en leur fournissant des passages réellement pertinents, et améliore la satisfaction des utilisateurs finaux sur des requêtes complexes ou ambiguës. Le reranking est devenu un composant central dans l'écosystème RAG depuis que les limites des bi-encoders seuls sont bien documentées : ces modèles encodent requête et document séparément, perdant les interactions fines entre les deux. Des acteurs comme Cohere avec son modèle rerank-v3, ou Jina AI avec jina-reranker-v2, ont popularisé cette approche ces deux dernières années. ZeroEntropy entre sur ce marché avec un modèle open-source de 4 milliards de paramètres, une taille qui le rend déployable sur des GPU grand public tout en offrant des performances compétitives. La base Qwen3, développée par Alibaba et reconnue pour son efficacité en contexte multilingue, confère à Zerank-2 une robustesse potentielle sur des corpus non exclusivement anglophones. La prochaine étape naturelle pour les équipes qui adoptent cet outil sera d'évaluer ses performances sur des benchmarks standardisés comme BEIR, et d'explorer son intégration dans des frameworks RAG populaires tels que LangChain ou LlamaIndex.

UELa base Qwen3 multilingue de Zerank-2 peut avantager les équipes françaises et européennes construisant des pipelines RAG sur des corpus en français.

1 source
Promptimus : améliorer automatiquement des prompts LLM déjà performants
102Amazon Science 

Promptimus : améliorer automatiquement des prompts LLM déjà performants

Amazon Web Services a dévoilé Promptimus, une méthode d'optimisation automatique des prompts pour grands modèles de langage (LLM), destinée aux entreprises qui cherchent à améliorer des prompts déjà bien rodés sans repartir de zéro. La particularité du système repose sur une boucle d'itération en quatre étapes : il prend en entrée un prompt existant, un petit jeu de données JSONL de 20 à 50 exemples, et des métriques de performance définies par l'utilisateur. Trois agents IA spécialisés collaborent en coulisses, un analyseur de métriques, un agent de débogage et un agent de nettoyage de code, pour identifier précisément les points de défaillance, en diagnostiquer les causes profondes, et affiner chirurgicalement le prompt en conséquence. Le système inclut également un mode édition qui permet de modifier uniquement les parties défaillantes d'un prompt complexe, sans toucher à la logique métier qui fonctionne déjà. L'enjeu est considérable pour les entreprises. Dans les déploiements industriels, les prompts ne sont pas de simples instructions génériques : ils encodent des exigences légales précises, comme la conformité HIPAA pour les systèmes de santé, ou des règles de tolérance au risque pour les plateformes de trading financier. Ces prompts sont construits par des experts métier sur des semaines, voire des mois. Or, chaque fois qu'un fournisseur comme Anthropic, OpenAI, Google, Meta ou Alibaba sort un nouveau modèle, ces prompts soigneusement calibrés perdent en efficacité, les différences de comportement entre modèles suffisent à dégrader les performances. Promptimus est conçu pour être agnostique au modèle : il peut réoptimiser un prompt conçu pour un modèle source et l'adapter rapidement à un modèle cible, en comparant les résultats entre les deux. La difficulté sous-jacente que Promptimus cherche à résoudre est bien connue des équipes d'ingénierie prompt : les méthodes d'optimisation automatique existantes fonctionnent bien pour créer des prompts depuis zéro, mais peinent à améliorer ceux qui sont déjà excellents. Les suggestions génériques comme « sois plus créatif » ou « ajoute des exemples » n'ont aucun effet sur un prompt déjà optimisé, dont les marges d'amélioration restent très spécifiques et difficiles à cibler. Les scores scalaires comme retour d'information ne donnent aucune indication sur le pourquoi des échecs. Face à la cadence d'évolution des modèles fondamentaux, la reoptimisation manuelle est coûteuse et retarde l'adoption de modèles plus performants. Promptimus vise à industrialiser ce processus de migration, en automatisant entièrement l'analyse des métriques et la génération des points de contrôle de débogage via du code Python importable.

UELes entreprises européennes déployant des LLMs en production pourraient utiliser Promptimus pour automatiser la migration de leurs prompts lors des mises à jour de modèles fondamentaux, réduisant les coûts de réécriture manuelle.

OutilsOutil
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
103Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper
104MarkTechPost 

L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper

L'équipe Qwen a publié FlashQLA, une bibliothèque open source de kernels GPU haute performance, sous licence MIT. Construite sur le framework de compilation TileLang, elle est spécifiquement optimisée pour le mécanisme d'attention linéaire Gated Delta Network (GDN), qui est au coeur des modèles hybrides Qwen3.5 et Qwen3.6. Sur les GPU NVIDIA de la génération Hopper (H100, H200), FlashQLA atteint une accélération de 2 à 3 fois sur la passe avant (inference et entraînement) et de 2 fois sur la passe arrière (calcul des gradients), par rapport à la bibliothèque de référence Flash Linear Attention (FLA) et ses kernels Triton. Ces gains reposent sur deux innovations principales documentées : un parallélisme de contexte intra-carte déclenché automatiquement par les propriétés mathématiques du gate exponentiel du GDN, et une reformulation algébrique optimisée pour les unités de calcul matérielles de l'architecture Hopper. Ces résultats ont une portée concrète pour quiconque entraîne ou déploie des modèles de langage sur des séquences longues. L'attention classique de type softmax souffre d'une complexité quadratique en O(n²) : doubler la longueur de la séquence multiplie le coût de calcul par quatre. L'attention linéaire ramène ce coût à O(n), ce qui rend le traitement de longs documents, de code ou de conversations beaucoup moins onéreux. Or, l'efficacité de l'attention linéaire dépend en grande partie de la qualité des kernels GPU sous-jacents. En exploitant les instructions warpgroup-level des Tensor Cores et les pipelines de données asynchrones propres à Hopper, fonctionnalités que Triton ne peut pas toujours exploiter pleinement, FlashQLA libère une partie du potentiel matériel que les implémentations existantes laissaient sur la table. Ce travail s'inscrit dans une compétition intense autour de l'optimisation bas niveau des modèles de langage, un terrain souvent invisible mais décisif. Depuis FlashAttention (2022), plusieurs équipes cherchent à accélérer les opérations d'attention directement au niveau du kernel, c'est-à-dire la routine de calcul qui s'exécute réellement sur le processeur graphique. Qwen, développé par Alibaba Cloud, a fait le choix d'une architecture hybride pour ses derniers modèles : des couches GDN alternent avec des couches d'attention complète, combinant efficacité sur les longues séquences et expressivité là où elle est le plus utile. En publiant FlashQLA sous MIT, l'équipe ouvre cette optimisation à l'ensemble de la communauté, y compris aux chercheurs et entreprises qui construisent des pipelines sur ces architectures hybrides. La prochaine étape probable est l'intégration dans les frameworks d'entraînement dominants comme vLLM ou SGLang, ce qui élargirait significativement l'impact de cette bibliothèque.

UEAucun impact direct, mais les chercheurs et entreprises européens disposant de GPU NVIDIA Hopper peuvent intégrer cette bibliothèque MIT pour accélérer l'entraînement et l'inférence de leurs modèles à attention linéaire.

LLMsOpinion
1 source
Baidu lance GenFlow 4.0 et améliore ses agents de stockage cloud et de bureautique
105Pandaily 

Baidu lance GenFlow 4.0 et améliore ses agents de stockage cloud et de bureautique

Le 27 avril, Baidu a présenté GenFlow 4.0 lors de son événement AI Day, une mise à jour majeure de son système d'agents IA généraliste. Cette nouvelle version est désormais disponible sur les versions PC et mobile de Baidu Netdisk, le service de stockage cloud de l'entreprise, et intègre des agents spécialisés pour les tâches bureautiques sur PowerPoint, Excel et Word. Les utilisateurs peuvent lancer une tâche depuis leur mobile et la faire exécuter sur PC, créant ainsi des flux de travail multi-appareils fluides. Depuis son lancement initial en avril 2025, GenFlow a atteint 100 millions d'utilisateurs actifs mensuels et 200 millions d'exécutions de tâches par mois. La version 4.0 améliore particulièrement la reconnaissance d'intention, la décomposition de tâches complexes, la coordination entre outils et la restitution des résultats. En pratique, GenFlow 4.0 permet des enchaînements bureautiques complets : analyser des données dans Excel, générer automatiquement une présentation PowerPoint à partir des résultats, puis compiler un rapport Word, le tout sans intervention manuelle entre chaque étape. Le système s'étend également à l'édition vidéo, à la gestion de photos et aux usages pédagogiques, en exploitant les fichiers déjà stockés dans le cloud. Pour renforcer la sécurité des données, Baidu introduit une fonctionnalité "espace de travail" qui limite l'accès de l'IA aux seuls fichiers autorisés. Côté entreprise, une fonctionnalité "Team Space" permet la collaboration multi-utilisateurs et la gestion de tâches par agents, déjà adoptée par plus de 10 000 organisations. Cette annonce s'inscrit dans la course acharnée que se livrent les géants technologiques chinois pour intégrer l'IA agentique dans leurs écosystèmes productifs. Baidu, qui doit faire face à une concurrence accrue d'Alibaba, Tencent et de nouveaux acteurs comme DeepSeek, mise sur Netdisk comme point d'ancrage stratégique pour déployer ses agents au quotidien. L'intégration directe dans un service de stockage à 100 millions d'utilisateurs actifs constitue un levier de diffusion considérable, et la direction prise vers l'automatisation de tâches complexes multi-applications pourrait redéfinir les standards attendus des assistants IA en milieu professionnel.

OutilsOutil
1 source
kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles
106MarkTechPost 

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence. L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens. Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

UELes équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

InfrastructureTuto
1 source
Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI
107SCMP Tech 

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Tencent Holdings a dévoilé jeudi son nouveau modèle d'intelligence artificielle phare, baptisé HY3-Preview, marquant une étape importante dans la stratégie IA du groupe de Shenzhen. C'est le premier grand modèle lancé depuis que Yao Shunyu, ancien chercheur chez OpenAI, a rejoint l'entreprise pour diriger ses efforts en IA fondamentale. Fermé et non accessible au public en open source, HY3-Preview se distingue par une architecture relativement compacte de 295 milliards de paramètres, une taille modeste pour un modèle de cette ambition. Tencent positionne HY3-Preview comme son modèle le plus puissant à ce jour, comparable aux meilleures solutions chinoises disponibles, mais encore en retrait face aux leaders américains comme OpenAI et Google DeepMind. L'arrivée de Yao Shunyu, figure reconnue de la recherche en IA, signale la volonté du groupe de monter en gamme sur les fondations mêmes de ses systèmes, au-delà de ses applications existantes comme Weixin ou Tencent Cloud. Ce lancement s'inscrit dans une intense course technologique entre les géants technologiques chinois, qui cherchent à réduire l'écart avec les États-Unis dans un contexte de restrictions à l'export de puces Nvidia. Alibaba, Baidu, et ByteDance ont chacun intensifié leurs investissements en modèles fondationnels ces derniers mois. Que Tencent, longtemps perçu comme plus discret sur ce terrain, franchisse ce cap avec un recrutement aussi symbolique qu'un ex-OpenAI, témoigne d'une accélération générale de la compétition IA en Asie.

LLMsActu
1 source
Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5
108Pandaily 

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Xiaomi a lancé la bêta publique de sa nouvelle série de modèles de langage MiMo-V2.5, avec une mise à disposition en open source de MiMo-V2.5 et MiMo-V2.5-Pro annoncée pour très prochainement. La famille MiMo-V2.5 comprend quatre modèles distincts : MiMo-V2.5, V2.5-Pro, V2.5-TTS et V2.5-ASR, chacun conçu pour améliorer le raisonnement, la gestion de contextes longs, le suivi d'instructions complexes ou ambiguës, et la compréhension multimodale. Xiaomi a également annoncé des ajustements tarifaires sur son offre Token Plan. Le fleuron de la gamme, MiMo-V2.5-Pro, est présenté comme le modèle le plus puissant jamais développé par l'entreprise. Les performances revendiquées sont ambitieuses : en tests internes, MiMo-V2.5-Pro se montre compétitif face à Claude Opus 4.6 et GPT-5.4 sur des tâches d'agent général, d'ingénierie logicielle complexe et d'exécution de tâches longues. Associé au bon environnement d'exécution, le modèle peut enchaîner de manière fiable des séquences impliquant près de 1 000 appels d'outils au cours d'une même session. Sa capacité à suivre des instructions implicites tout en maintenant une cohérence logique sur de longues interactions représente une avancée notable par rapport à la génération précédente, et le positionne comme un outil crédible pour des charges de travail professionnelles exigeantes. Cette annonce s'inscrit dans une stratégie d'accélération claire de Xiaomi dans la course mondiale aux grands modèles de langage. Longtemps perçu avant tout comme fabricant de smartphones et d'électronique grand public, le groupe chinois investit massivement dans l'IA depuis plusieurs trimestres, cherchant à s'imposer face à des acteurs comme Alibaba, Baidu ou DeepSeek sur le marché domestique, tout en visant une reconnaissance internationale grâce à l'open source. La publication prochaine des poids du modèle devrait permettre à la communauté de valider les performances annoncées et d'évaluer la place réelle de Xiaomi dans l'écosystème mondial de l'IA.

UELa mise en open source prochaine des poids du modèle pourrait intéresser les développeurs et entreprises européennes cherchant des alternatives open source compétitives, sans impact réglementaire direct sur la France ou l'UE.

LLMsActu
1 source
109AWS ML Blog 

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

AWS et ses partenaires ont publié des résultats de benchmarks démontrant que le décodage spéculatif (speculative decoding) sur les puces AWS Trainium2, couplé au framework vLLM et à Kubernetes, permet d'accélérer la génération de tokens jusqu'à trois fois pour les charges de travail intensives en décodage. Les tests ont été réalisés avec les modèles Qwen3, une famille de modèles de langage développée par Alibaba. La technique repose sur l'utilisation de deux modèles en tandem : un petit modèle "brouillon" (draft model) qui propose plusieurs tokens en avance, et le modèle principal qui vérifie ces propositions en une seule passe. Résultat : une latence inter-token réduite et un coût par token généré significativement plus faible. L'impact est particulièrement marqué pour les applications comme les assistants à l'écriture, les agents de code ou tout système génératif qui produit beaucoup plus de tokens qu'il n'en consomme en entrée. Dans ces cas, la phase de décodage représente l'essentiel du coût d'inférence. Le problème fondamental du décodage autorégressif classique est que les accélérateurs matériels restent largement sous-utilisés : chaque étape ne produit qu'un seul token, ce qui génère de petites opérations matricielles inefficaces et monopolise inutilement la bande passante mémoire du cache KV. Le décodage spéculatif transforme ce goulot d'étranglement en permettant au modèle cible de traiter n tokens simultanément lors de la vérification, amortissant ainsi les accès mémoire et densifiant les calculs. Deux paramètres clés pilotent les performances de cette approche : le choix du modèle brouillon et la valeur de numspeculativetokens, qui détermine combien de tokens sont proposés à chaque passe. Le modèle brouillon doit partager le même tokenizer et le même vocabulaire que le modèle principal, idéalement appartenir à la même famille architecturale, pour maximiser le taux d'acceptation des tokens proposés. Un taux d'acceptation élevé est crucial : si le modèle principal rejette trop souvent les suggestions, les gains de performance s'évaporent et le coût de calcul du modèle brouillon devient une charge nette. Fixer numspeculativetokens trop bas limite les gains ; trop haut, cela multiplie les rejections anticipées. Cette publication s'inscrit dans une tendance plus large de la course à l'optimisation de l'inférence LLM, où AWS cherche à positionner ses puces Trainium comme alternative crédible aux GPU Nvidia, notamment pour les entreprises cherchant à réduire leurs coûts d'inférence à grande échelle.

UELes entreprises européennes utilisant AWS pourraient réduire leurs coûts d'inférence LLM en migrant vers Trainium2, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureActu
1 source
110AWS ML Blog 

Déploiements par cas d'usage sur SageMaker JumpStart

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker. Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving. Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

UELes entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

OutilsOutil
1 source
111Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export
112MarkTechPost 

Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export

ModelScope, la plateforme de partage de modèles d'intelligence artificielle développée par Alibaba et son laboratoire DAMO Academy, s'impose comme une alternative crédible à Hugging Face pour les développeurs souhaitant accéder à des modèles pré-entraînés, des jeux de données et des pipelines d'inférence. Un tutoriel complet publié récemment détaille un workflow de bout en bout exécutable sur Google Colab, couvrant l'installation de l'environnement, la recherche de modèles via le hub ModelScope, le téléchargement de snapshots comme BERT, le chargement du jeu de données IMDB, le fine-tuning d'un classificateur de sentiment, son évaluation et son export pour déploiement. La procédure repose sur un écosystème de bibliothèques Python incluant PyTorch, Transformers d'Hugging Face, Accelerate, scikit-learn et Optimum, avec une compatibilité GPU vérifiée dès le départ via CUDA. Ce type de guide pratique a une valeur concrète pour les équipes d'ingénierie et de recherche qui cherchent à industrialiser leurs workflows IA sans repartir de zéro. En montrant que ModelScope s'intègre nativement avec les outils Hugging Face, notamment les pipelines Transformers pour l'analyse de sentiment ou la vision par ordinateur, le tutoriel réduit la barrière à l'entrée pour les équipes déjà familières de cet écosystème. La possibilité de télécharger localement des snapshots de modèles, d'accéder à des datasets comme IMDB via l'API MsDataset, et d'exporter les modèles fine-tunés vers des formats de production (via Optimum) en fait un outil pertinent aussi bien pour l'expérimentation que pour des déploiements à plus grande échelle. ModelScope a été lancé en 2022 par Alibaba DAMO Academy avec l'ambition de construire un écosystème ouvert de modèles centré sur la communauté chinoise et internationale du machine learning. La plateforme héberge des milliers de modèles dans des domaines variés, NLP, vision, audio, multimodal, et se positionne directement face à Hugging Face, qui reste la référence mondiale avec plus de 500 000 modèles disponibles. La dépendance au réseau chinois pour certaines API (la recherche de modèles peut être indisponible hors de Chine, comme le mentionne le tutoriel lui-même) constitue une friction réelle pour les utilisateurs occidentaux. Néanmoins, avec l'accélération des sorties de modèles chinois performants comme Qwen, DeepSeek ou Yi, ModelScope devient un point d'accès incontournable pour quiconque souhaite travailler avec ces modèles dès leur publication, souvent avant leur disponibilité sur d'autres plateformes.

OutilsTuto
1 source
Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end
113The Decoder 

Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end

Zhipu AI, une startup chinoise spécialisée dans l'intelligence artificielle, a lancé GLM-5V-Turbo, un nouveau modèle multimodal capable de traiter simultanément des images, des vidéos et du texte. Sa particularité principale est de convertir des maquettes de design directement en code front-end exécutable, sans intervention manuelle intermédiaire. Le modèle est conçu pour s'intégrer dans des workflows agentiques, où des systèmes autonomes enchaînent des tâches complexes de façon automatisée. Cette capacité à transformer un visuel en code fonctionnel représente un gain de temps concret pour les équipes de développement web et d'interface utilisateur. Là où un développeur devait interpréter une maquette Figma ou Adobe XD puis écrire manuellement le HTML, CSS et JavaScript correspondant, GLM-5V-Turbo automatise cette conversion. Pour les startups, agences et équipes produit, cela peut accélérer significativement les cycles de prototypage et de livraison. Zhipu AI s'inscrit dans une course très serrée entre laboratoires chinois pour proposer des modèles multimodaux compétitifs face aux géants américains comme OpenAI ou Google. Des acteurs comme Baidu, Alibaba et ByteDance investissent massivement dans ce segment. GLM-5V-Turbo cible explicitement les usages agentiques, un domaine en pleine expansion où les modèles ne se contentent plus de répondre à des questions mais exécutent des séquences d'actions autonomes dans des environnements logiciels.

OutilsOutil
1 source
Comment créer des workflows AgentScope prêts pour la production avec agents ReAct, outils personnalisés, débat multi-agents, sorties structurées et pipelines concurrents
114MarkTechPost 

Comment créer des workflows AgentScope prêts pour la production avec agents ReAct, outils personnalisés, débat multi-agents, sorties structurées et pipelines concurrents

AgentScope, le framework open-source de gestion d'agents IA développé par Alibaba DAMO Academy, dispose désormais d'un tutoriel complet permettant de construire des workflows multi-agents prêts pour la production. Publié début 2026 et conçu pour tourner intégralement dans Google Colab, ce guide pas à pas couvre cinq niveaux de complexité croissante : de l'appel basique à un modèle OpenAI jusqu'à un pipeline concurrent où plusieurs agents spécialistes travaillent en parallèle. La stack technique repose sur Python 3, les bibliothèques agentscope, openai, pydantic et nest_asyncio, avec le modèle gpt-4o-mini comme moteur de raisonnement. Le tutoriel montre comment enregistrer des fonctions Python personnalisées — calcul mathématique, horodatage — dans un Toolkit, inspecter les schémas JSON générés automatiquement, puis connecter ces outils à un agent ReActAgent capable de décider dynamiquement quand les appeler. Ce type de ressource répond à un besoin concret dans l'écosystème des agents IA : la majorité des développeurs savent appeler un LLM, mais peinent à passer à une architecture robuste et modulaire en production. Le tutoriel introduit notamment MsgHub, la primitive d'AgentScope pour orchestrer des débats structurés entre agents — un pattern utile pour la vérification de faits, la critique de code ou la validation de décisions critiques. L'intégration de Pydantic pour forcer des sorties structurées élimine l'un des problèmes les plus fréquents en production : les réponses libres d'un LLM qui cassent le parsing aval. Enfin, le pipeline concurrent — plusieurs spécialistes analysent un problème en parallèle, un synthétiseur agrège leurs conclusions — réduit significativement la latence pour les tâches décomposables, ce qui est central dans les systèmes d'analyse ou de veille automatisée. AgentScope s'inscrit dans une compétition féroce entre frameworks d'orchestration d'agents : LangChain, LlamaIndex, AutoGen de Microsoft ou CrewAI occupent déjà le terrain, mais AgentScope mise sur une API asynchrone native, une gestion mémoire intégrée (InMemoryMemory) et des formateurs de messages spécifiques aux providers (OpenAIChatFormatter, OpenAIMultiAgentFormatter). Le choix de gpt-4o-mini comme modèle de référence dans le tutoriel reflète l'orientation coût/performance qui domine les déploiements réels en 2025-2026. La prochaine étape logique pour ce type de workflow serait l'intégration de mémoire persistante externe et de mécanismes de supervision — deux angles sur lesquels la communauté AgentScope est activement attendue.

💬 AgentScope commence à ressembler à quelque chose de sérieux. Le pattern `MsgHub` pour les débats structurés entre agents, c'est exactement ce qui manque quand tu essaies de faire de la validation critique sans que tout parte en freestyle. Reste à voir si ça tient face à AutoGen ou CrewAI en conditions réelles, parce que sur le papier, tous ces frameworks ont l'air bien jusqu'au premier bug de prod.

OutilsTuto
1 source
Apple lance temporairement ses logiciels d'IA en Chine
115The Information AI 

Apple lance temporairement ses logiciels d'IA en Chine

Apple a brièvement déployé ses fonctionnalités d'intelligence artificielle en Chine cette semaine, avant de faire marche arrière. Une mise à jour iOS a permis à certains utilisateurs chinois de découvrir Apple Intelligence sur leurs iPhones — une première dans un marché où ces fonctions étaient jusqu'ici absentes. Le déploiement a rapidement été annulé, selon Bloomberg, suggérant qu'il s'agissait d'une sortie prématurée ou accidentelle. Ce faux départ illustre la complexité du marché chinois pour Apple. La Chine représente environ 17 % du chiffre d'affaires d'Apple, et l'absence d'Apple Intelligence dans ce pays constitue un désavantage compétitif face à des concurrents locaux comme Huawei, Xiaomi ou Oppo qui intègrent déjà des assistants IA natifs dans leurs appareils. Pour des millions d'utilisateurs chinois, l'IA d'Apple reste inaccessible alors qu'elle est disponible dans plus d'une vingtaine de langues ailleurs. Le déploiement d'Apple Intelligence en Chine se heurte à des obstacles réglementaires majeurs : Pékin exige que les données des utilisateurs soient traitées localement et que les modèles IA soient approuvés par les autorités. Apple négocierait des partenariats avec des entreprises chinoises comme Baidu ou Alibaba pour héberger et faire tourner ses modèles dans le pays, un processus dont l'issue reste incertaine.

BusinessOpinion
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
116MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
J'ai développé mon propre agent IA sur site grâce à OpenClaw et Obsidian : les éléments cruciaux que l'on me cache
117Towards AI 

J'ai développé mon propre agent IA sur site grâce à OpenClaw et Obsidian : les éléments cruciaux que l'on me cache

Un développeur a publié un retour d'expérience détaillé sur l'installation d'OpenClaw, un agent IA open-source auto-hébergé, sur une VM Ubuntu via Docker avec Telegram comme interface et Obsidian pour la mémoire persistante. Le guide liste les quatre erreurs critiques à éviter : problèmes de permissions lors de l'exécution avec sudo, crash loop de la gateway en mode Loopback (Docker), agent en mode "messaging" incapable d'écrire des fichiers, et clé de configuration non reconnue pour l'API Alibaba. La motivation centrale : arrêter de payer des abonnements IA (ChatGPT, Claude) utilisés seulement 10 minutes par jour, en faveur d'une solution locale où toutes les données restent sur la machine.

OutilsTuto
1 source