Dossier Open weight & Open source — page 7

642 articles · page 7 sur 13

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

301Next INpact OutilsOutil

☕️ Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10

Canonical a officiellement présenté le 17 juin le projet Myna, une initiative visant à intégrer la dictée vocale nativement dans Ubuntu Desktop. Prévu pour Ubuntu 26.10, dont la sortie est attendue en octobre 2026, ce système fonctionnera entièrement en local, sans recours à un serveur distant ni à une connexion internet. Le nom Myna fait référence au mainate religieux, un oiseau réputé pour imiter la parole humaine. Dans sa première version, le principe est volontairement simple : l'utilisateur déclenche l'écoute via un raccourci clavier, prononce son texte, et celui-ci s'insère directement dans le champ actif de n'importe quelle application. Cette version initiale ciblera Ubuntu Desktop sous Wayland avec l'environnement GNOME, mais Canonical précise que l'architecture sera conçue pour accueillir d'autres environnements de bureau par la suite. Un dépôt GitHub a été ouvert pour recueillir des retours, même si seule de la documentation y figure pour l'instant. L'enjeu central de Myna est la confidentialité. L'audio capturé par le microphone est effacé de la mémoire immédiatement après traitement, rien n'est transmis à des serveurs, et le micro ne s'active qu'à la demande explicite de l'utilisateur via le raccourci clavier. Pour les professionnels, journalistes, développeurs ou personnes à mobilité réduite qui dictent du texte au quotidien, disposer d'une solution souveraine et offline dans leur système d'exploitation représente un changement de paradigme concret. Jusqu'ici, les solutions de dictée vocale fiables sous Linux reposaient soit sur des services cloud comme Google ou Azure, soit sur des outils tiers complexes à configurer. L'intégration native dans Ubuntu simplifie radicalement l'accès à cette fonctionnalité pour des millions d'utilisateurs. Ce projet s'inscrit dans une stratégie d'IA plus large que Canonical développe depuis plusieurs mois. L'éditeur d'Ubuntu distingue deux grandes familles d'IA : l'IA implicite, qui améliore discrètement des fonctions existantes comme l'autofocus webcam ou la qualité du microphone, et l'IA explicite, que l'utilisateur invoque consciemment. La dictée vocale est la première fonction explicite annoncée, mais elle ouvre la voie à d'autres intégrations d'inférence locale. Cette orientation est cohérente avec une tendance de fond dans l'industrie : après des années de dépendance au cloud pour l'IA, les grands acteurs logiciels, d'Apple avec ses modèles on-device à Microsoft avec Copilot+ PC, misent désormais sur des modèles légers exécutables directement sur le matériel de l'utilisateur. Canonical prend ainsi position dans cette compétition, avec l'avantage différenciateur d'une approche open source et tournée vers la vie privée.

UELes administrations et professionnels français et européens utilisant Ubuntu disposeront d'une solution de dictée vocale souveraine sans dépendance aux services cloud américains, cohérente avec les exigences du RGPD.

Dossier Open weight & Open source — page 7

☕️ Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10

Startup IA Baseten : une levée de 1,5 milliard de dollars en préparation

Un concurrent d'OpenClaw fait son apparition

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Inférence ML chiffrée de bout en bout avec Amazon SageMaker AI et le chiffrement homomorphe

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal

Scout, l'Autopilot à base d'agents de Microsoft pour l'ensemble de M365

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

L'ère des agents asynchrones : Walden Yan de Cognition et Cole Murray d'OpenInspect

MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

DeepSWE bouleverse le classement IA, sacre GPT-5.5 et révèle que Claude Opus exploite une faille dans les benchmarks

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

Webwright : l'agent web de Microsoft qui bat GPT-5.4

Tencent open-source TencentDB Agent Memory : un pipeline mémoire local à 4 niveaux pour agents IA

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars

AWS et Cisco AI Defense sécurisent les déploiements MCP et A2A pour les agents IA

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

NVIDIA et SAP renforcent la fiabilité des agents spécialisés

GitHub Spec-Kit : développement piloté par les specs

Anthropic affiche une croissance de 10x par an pendant que ses concurrents licencient plus de 10 % de leurs effectifs

Le point : malaise autour de l'IA et technologies de procréation

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Nemotron Labs : les enjeux des agents OpenClaw pour toutes les entreprises

Face à l'essor des cyberattaques à 1 dollar, les défenses durables font leurs preuves

DAIMON Robotics veut doter les mains robotiques du sens du toucher

Canonical présente son plan pour intégrer l'IA dans Ubuntu Linux

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

META invente l’IA social-native : une nouvelle couche entre contenu, recommandation et commerce

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Claude, OpenClaw et la nouvelle réalité : les agents IA sont là, et le chaos aussi

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Tencent mise sur OpenClaw pour rattraper son retard dans la course à l'IA en Chine

TRIBE v2 : Meta lance une IA capable de simuler les réactions du cerveau

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

Mozilla lance cq : le projet qui veut permettre aux IA de partager leurs connaissances entre elles

Il refuse le code d’une IA OpenClaw : elle publie un article pour l’accuser de discrimination

NVIDIA veut rendre les agents IA d'entreprise suffisamment sûrs pour être vraiment déployés

OpenClaw est le nouveau ChatGPT selon NVIDIA : mais c’est quoi ?