Aller au contenu principal
Tesla Chine intègre le modèle d'IA Doubao dans son système embarqué
OutilsPandaily1h

Tesla Chine intègre le modèle d'IA Doubao dans son système embarqué

1 source couvre ce sujet·Source originale ↗·

Tesla China a finalisé le dépôt réglementaire de son système vocal embarqué le 20 avril 2026, ouvrant la voie à l'intégration du modèle d'intelligence artificielle Doubao de ByteDance dans ses véhicules vendus en Chine. Selon des informations relayées par AI Daily, la page officielle de Tesla China avait déjà révélé dans ses "Conditions d'utilisation de l'assistant vocal embarqué" que la Model Y L serait équipée à la fois du modèle Doubao et de DeepSeek, tous deux accessibles via Volcano Engine, la plateforme cloud de ByteDance. La répartition des rôles est précise : Doubao prend en charge les commandes vocales courantes, réglage de la navigation, contrôle de la lecture multimédia, ajustements climatiques et consultation du manuel propriétaire, tandis que DeepSeek alimente des fonctionnalités conversationnelles plus avancées, permettant des échanges de nature plus générale avec le véhicule.

Cette intégration marque une étape concrète dans la localisation de l'expérience Tesla en Chine, marché qui représente une part critique de ses ventes mondiales. En adoptant deux modèles d'IA développés par des acteurs chinois majeurs, Tesla reconnaît implicitement que les LLM occidentaux ne suffisent pas à répondre aux attentes des consommateurs locaux, qu'il s'agisse de la langue, des usages culturels ou des exigences réglementaires. Pour les utilisateurs, cela se traduit par un assistant embarqué nettement plus capable et mieux adapté aux conditions de conduite chinoises.

Cette décision s'inscrit dans un contexte de concurrence intense sur le marché automobile chinois, où des constructeurs locaux comme BYD, NIO ou Li Auto intègrent depuis plusieurs années des assistants IA avancés directement dans leurs plateformes. Tesla, longtemps en retard sur ce volet en Chine, avait déjà engagé des discussions avec Baidu pour la cartographie et les services connectés. Le choix de Doubao, modèle phare de ByteDance aux centaines de millions d'utilisateurs, et de DeepSeek, devenu en quelques mois une référence mondiale en matière d'efficience des LLM, reflète la volonté de Tesla de s'aligner rapidement sur les standards locaux pour ne pas perdre de terrain face à une industrie nationale en pleine accélération technologique.

À lire aussi

Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines
1SCMP Tech 

Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines

Alibaba a annoncé son premier partenariat externe pour son application grand public d'intelligence artificielle Qwen, en s'associant à China Eastern Airlines, l'une des trois grandes compagnies aériennes nationales chinoises. Grâce à cette intégration, les utilisateurs de l'application Qwen peuvent désormais gérer l'intégralité du processus de réservation de vol, recherche de billets, achat, sélection du siège et enregistrement, au sein d'une seule interface conversationnelle en langage naturel, sans quitter l'application. Ce partenariat marque une étape décisive dans la stratégie d'Alibaba : faire de Qwen non plus un simple assistant textuel, mais un agent capable d'agir concrètement dans le monde réel pour le compte de l'utilisateur. L'intégration avec China Eastern illustre ce qu'on appelle les capacités « agentiques », la possibilité pour un modèle de langage d'enchaîner des actions complexes dans des systèmes tiers. Pour les voyageurs chinois, cela représente un gain de fluidité considérable, toutes les étapes d'une réservation étant centralisées dans un seul dialogue. Cette initiative s'inscrit dans une course mondiale aux assistants IA capables de se connecter à des services réels. En Chine, Alibaba fait face à une concurrence intense de Baidu, ByteDance et surtout de DeepSeek, dont la montée en puissance a redistribué les cartes début 2025. En ouvrant Qwen à des partenaires extérieurs, Alibaba cherche à constituer un écosystème d'intégrations qui rendrait son application indispensable au quotidien, à l'image de ce que WeChat a réussi avec ses mini-programmes il y a près d'une décennie.

OutilsOutil
1 source
Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique
2MarkTechPost 

Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique

Un tutoriel publié récemment détaille comment concevoir un système multi-agents de niveau production à l'aide du framework CAMEL, une bibliothèque Python open source dédiée à l'orchestration d'agents LLM. Le pipeline décrit met en scène cinq agents spécialisés aux rôles clairement délimités : un planificateur, un chercheur, un rédacteur, un critique et un rééditeur. L'ensemble repose sur GPT-4o d'OpenAI (via l'API), la validation de schémas avec Pydantic 2.7, et l'affichage structuré via Rich 13.7. Concrètement, le système génère des synthèses techniques documentées de façon autonome, en combinant recherche web en temps réel, échantillonnage par auto-cohérence et raffinement itératif piloté par critique interne. Ce type d'architecture multi-agents représente une évolution significative par rapport aux approches LLM classiques en pipeline simple. En distribuant les responsabilités entre agents distincts, chacun doté de contraintes de sortie précises (schémas JSON validés par Pydantic), le système réduit les hallucinations et améliore la cohérence des résultats. L'ajout d'un agent critique qui évalue la production de l'agent rédacteur, puis déclenche un agent rééditeur si le score est insuffisant, introduit une boucle de contrôle qualité autonome : le système s'auto-corrige sans intervention humaine. Pour les équipes produit ou data qui cherchent à industrialiser des workflows de génération de contenu ou d'analyse, cette approche offre un cadre reproductible, modulaire et extensible. CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) est un framework open source initié en 2023, qui a gagné en maturité avec des versions stables permettant l'intégration native d'outils web, de modèles multi-plateformes et de mécanismes de validation structurée. Le tutoriel s'inscrit dans un mouvement plus large d'industrialisation des agents LLM, où des acteurs comme LangChain, AutoGen de Microsoft ou CrewAI cherchent à standardiser la façon dont on compose des agents spécialisés. L'enjeu central est de passer du prototype expérimental au système fiable en production, ce qui exige précisément les mécanismes décrits ici : contrôle de schéma, gestion des erreurs, logique de retry et traçabilité des sorties. Les prochaines évolutions de ces frameworks devraient intégrer davantage de mémoire persistante entre agents et des mécanismes de délégation dynamique des tâches, rapprochant ces systèmes des premières formes d'automatisation cognitive véritablement autonome.

OutilsTuto
1 source
OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services
3VentureBeat AI 

OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services

OpenAI a lancé ce jeudi une nouvelle offre baptisée « Workspace Agents », destinée aux entreprises utilisant ChatGPT dans un cadre professionnel. Disponible dès maintenant pour les abonnés ChatGPT Business à 20 dollars par utilisateur par mois, ainsi que pour les plans Enterprise, Edu et Teachers, cette fonctionnalité permet de créer ou de sélectionner des agents depuis une bibliothèque de modèles préconfigurés, capables d'agir directement dans des outils tiers comme Slack, Google Drive, Salesforce, Notion, Microsoft 365, Atlassian Rovo et d'autres applications courantes en entreprise. Concrètement, un agent peut rédiger un email à toute une équipe, extraire des données pour générer une présentation, ou exécuter des tâches complexes en plusieurs étapes, sans que l'utilisateur à l'origine de la demande ait besoin de rester connecté. OpenAI précise que la fonctionnalité sera gratuite jusqu'au 6 mai 2026, date à laquelle une tarification basée sur des crédits entrera en vigueur. De nouvelles capacités sont annoncées : déclencheurs automatiques, tableaux de bord avancés, et intégration dans Codex, l'outil de génération de code de l'entreprise. L'enjeu principal n'est pas simplement d'avoir des assistants IA plus puissants, mais de transformer l'IA en ressource organisationnelle partagée plutôt qu'en outil de productivité individuelle. L'onglet « Agents » dans la barre latérale de ChatGPT fonctionne comme un annuaire d'équipe : les agents créés par des collègues sont accessibles et réutilisables par toute l'organisation. Ce modèle s'attaque directement à l'un des problèmes chroniques du travail en entreprise, la transmission entre personnes, systèmes et étapes d'un processus, en permettant à un agent de gérer cette complexité de bout en bout. Pour les directions informatiques et les responsables métiers, cela représente un nouveau paradigme de déploiement de l'IA : non plus des outils ponctuels, mais des workflows autonomes pilotés par des agents paramétrés selon des règles et des permissions définies par l'entreprise. La différence technique fondamentale avec les anciens « custom GPTs » réside dans l'architecture sous-jacente : ces agents sont propulsés par Codex, la plateforme cloud de développement assisté par IA qu'OpenAI a considérablement enrichie en 2026, notamment il y a six jours à peine avec l'ajout de plus de 90 plugins, de la mémoire persistante, de l'utilisation d'ordinateur en arrière-plan et de la capacité à planifier des tâches futures. Un agent Workspace n'est donc pas un simple modèle de langage qui répond à une invite : c'est une session Codex qui écrit du code, exécute des requêtes, produit des graphiques et retient ce qu'elle a appris pour la prochaine occurrence. Cette architecture d'exécution de code est ce qui distingue ces agents des solutions concurrentes reposant sur des boucles d'appels LLM classiques. À mesure qu'OpenAI annonce de nouveaux déclencheurs et une intégration plus profonde dans son écosystème, la concurrence avec Microsoft Copilot, Google Workspace AI et les plateformes d'agents comme Salesforce Agentforce s'intensifie sur le terrain stratégique des grandes entreprises.

UELes entreprises françaises et européennes abonnées à ChatGPT Business peuvent tester gratuitement ces agents intégrés à Slack, Notion, Microsoft 365 et Salesforce avant l'entrée en vigueur de la tarification le 6 mai 2026.

OutilsOutil
1 source
Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch
4AWS ML Blog 

Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch

NVIDIA a publié en août 2025 Parakeet-TDT-0.6B-v3, un modèle de transcription automatique de la parole open source couvrant 25 langues européennes, dont le français, l'allemand, l'espagnol, le polonais ou l'ukrainien. Capable de détecter automatiquement la langue parlée, ce modèle affiche un taux d'erreur sur les mots de 6,34 % en conditions acoustiques propres et de 11,66 % à 0 dB de rapport signal/bruit, tout en prenant en charge des fichiers audio allant jusqu'à trois heures. Distribué sous licence CC-BY-4.0, il s'appuie sur une architecture Token-and-Duration Transducer (TDT) qui prédit simultanément les tokens de texte et leur durée, permettant de sauter silences et segments redondants pour atteindre des vitesses d'inférence très largement supérieures au temps réel. Dans la configuration présentée, le modèle tourne sur AWS Batch avec des instances GPU G6 équipées de NVIDIA L4, qui offrent le meilleur ratio coût/performance, bien qu'il soit également compatible avec des instances G5, G4dn ou P5 pour un débit maximal. Le pipeline est entièrement événementiel : un fichier audio déposé sur Amazon S3 déclenche une règle Amazon EventBridge, qui soumet automatiquement un job à AWS Batch, lequel provisionne les ressources, télécharge l'image de conteneur depuis Amazon ECR et restitue une transcription JSON horodatée dans un bucket de sortie. Le coût final descend à quelques fractions de centime par heure d'audio. L'enjeu principal est économique. Pour les organisations traitant des volumes massifs d'audio, qu'il s'agisse d'archives médias, d'enregistrements de centres d'appels, de données d'entraînement pour l'IA ou de sous-titrage vidéo à la demande, les services ASR gérés facturent généralement à la durée réelle du fichier, ce qui fait exploser les coûts dès que les volumes augmentent. En ne payant que de brèves fenêtres de calcul GPU plutôt que la totalité de la durée audio, combiné à l'utilisation d'instances EC2 Spot moins onéreuses et au streaming par tampons, ce pipeline peut réduire la facture de transcription de façon substantielle par rapport aux APIs cloud classiques comme celles d'AWS Transcribe ou de Google Speech-to-Text. La prise en charge native de 25 langues sans configuration par langue supprime également une complexité opérationnelle significative pour les entreprises internationales. Cette approche s'inscrit dans une tendance plus large consistant à substituer des modèles open source performants aux services gérés pour les charges de travail à fort volume. NVIDIA, qui diffuse Parakeet dans le cadre de son écosystème NeMo, cherche à s'imposer comme référence en ASR face à OpenAI avec Whisper, à AssemblyAI ou encore à Amazon Transcribe. Le fait qu'un modèle de 600 millions de paramètres atteigne ces niveaux de précision multilingue ouvre la voie à des pipelines entièrement maîtrisés, hébergés en interne ou dans un cloud privé, sans dépendance à un fournisseur. La prochaine étape logique pour les équipes qui adoptent cette architecture sera d'enchaîner directement en aval des modules de post-traitement automatisés, résumé, analyse de sentiment ou détection d'entités, pour extraire encore plus de valeur des transcriptions produites.

UELe modèle Parakeet couvre nativement 25 langues européennes dont le français, offrant aux organisations françaises et européennes un pipeline de transcription audio économique et souverain, sans dépendance à un service ASR propriétaire.

OutilsTuto
1 source