Aller au contenu principal
RechercheMarkTechPost3sem

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM).

L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité.

Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
1MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
2VentureBeat AI 

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

Les modèles d'IA les plus avancés échouent encore environ une fois sur trois dans des conditions réelles, selon le neuvième rapport annuel de l'AI Index publié par Stanford HAI. Sur τ-bench, un benchmark qui évalue des agents sur des tâches concrètes impliquant des échanges utilisateurs et des appels à des API externes, les meilleurs modèles actuels, dont Claude Opus 4.5, GPT-5.2 et Qwen3.5, n'atteignent qu'entre 62,9 % et 70,2 % de réussite. Pourtant, ces mêmes systèmes ont réalisé des progrès spectaculaires ailleurs : les performances sur Humanity's Last Exam ont progressé de 30 % en un an, les scores sur MMLU-Pro dépassent désormais 87 %, et la réussite sur SWE-bench Verified, qui mesure la capacité à résoudre de vrais bugs logiciels, est passée de 60 % à près de 100 % en douze mois. Sur WebArena, un environnement web simulé pour agents autonomes, le taux de succès est passé de 15 % en 2023 à 74,3 % début 2026. En cybersécurité, les modèles frontières résolvent désormais 93 % des problèmes de Cybench, contre 15 % l'an dernier. Ce décalage entre capacité et fiabilité constitue, selon Stanford HAI, le défi opérationnel central pour les directions informatiques en 2026. L'adoption de l'IA en entreprise a atteint 88 %, et les usages se multiplient dans des domaines à haute exigence d'exactitude : traitement fiscal, finance d'entreprise, droit, traitement de prêts hypothécaires, avec des taux de précision oscillant entre 60 et 90 %. Le problème n'est pas l'absence de progrès, mais leur caractère imprévisible. Les chercheurs reprennent le concept de "jagged frontier" de l'universitaire Ethan Mollick pour décrire cette frontière instable : un modèle peut décrocher une médaille d'or à l'Olympiade Internationale de Mathématiques, comme l'a fait Gemini Deep Think en 2025, résolvant cinq des six problèmes en langage naturel en moins de 4h30, et simultanément être incapable de lire l'heure de façon fiable. Ce rapport intervient dans un contexte de course aux capacités qui ne montre aucun signe de ralentissement. Stanford HAI est explicite : "Les capacités de l'IA ne plafonnent pas. Elles s'accélèrent." Les progrès en génération vidéo illustrent cette tendance : Veo 3 de Google DeepMind, testé sur plus de 18 000 vidéos générées, a démontré une capacité à simuler la flottabilité et à résoudre des labyrinthes sans entraînement spécifique sur ces tâches, suggérant que certains modèles commencent à modéliser le fonctionnement du monde physique. La question qui se pose désormais n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais comment garantir une fiabilité suffisante pour des déploiements critiques, et comment auditer des systèmes dont la complexité croissante rend l'interprétabilité de plus en plus difficile.

UELes entreprises européennes déployant l'IA dans des secteurs réglementés (finance, droit, fiscal) doivent intégrer ce taux d'échec de 30 % dans leurs stratégies de déploiement, avec des implications directes pour la conformité à l'AI Act qui exige des garanties de fiabilité pour les systèmes à haut risque.

RecherchePaper
1 source
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
3MarkTechPost 

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites ` et ` — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper
1 source
Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines
4VentureBeat AI 

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

Des chercheurs du Generative Artificial Intelligence Research Lab (SII-GAIR) ont présenté ASI-EVOLVE, un cadre agentique conçu pour automatiser l'ensemble du cycle de recherche et développement en intelligence artificielle. Le système opère en boucle continue selon quatre étapes, apprentissage, conception, expérimentation, analyse, et prend en charge simultanément trois piliers fondamentaux du développement IA : les données d'entraînement, les architectures de modèles et les algorithmes d'apprentissage. Lors des premières expérimentations, ASI-EVOLVE a généré de nouvelles architectures de modèles de langage, optimisé des pipelines de pré-entraînement pour améliorer les scores de référence de plus de 18 points, et conçu des algorithmes de renforcement nettement plus efficaces, surpassant dans chaque cas les configurations élaborées par des ingénieurs humains. Ce type de système répond à un problème structurel qui ralentit toute la recherche en IA : les équipes d'ingénierie ne peuvent explorer qu'une fraction infime de l'espace des configurations possibles. Chaque cycle d'expérimentation exige des interventions manuelles coûteuses, mobilise des dizaines voire des centaines d'heures de GPU, et les enseignements tirés restent souvent cloisonnés dans l'expérience individuelle des chercheurs, difficiles à capitaliser ou à transmettre. En automatisant cette boucle, ASI-EVOLVE libère les équipes de la charge opérationnelle répétitive et accélère mécaniquement le rythme d'innovation. Pour les organisations qui itèrent fréquemment sur leurs systèmes IA, le gain potentiel est à la fois en temps d'ingénierie et en qualité des résultats. L'architecture repose sur deux composants centraux. La "Cognition Base" fonctionne comme une mémoire experte préchargée : elle intègre des connaissances humaines issues de la littérature scientifique, des heuristiques propres à chaque tâche, et un catalogue des pièges connus, ce qui oriente les explorations dès la première itération plutôt que de repartir de zéro. L'"Analyzer" prend en charge le retour d'expérience multidimensionnel des expériences, logs d'entraînement bruts, résultats de benchmarks, traces d'efficacité computationnelle, pour en distiller des analyses causales réutilisables. Ce travail s'inscrit dans un contexte où l'IA commence à s'attaquer à la découverte scientifique, d'AlphaFold aux systèmes agentiques généralistes, mais où la recherche ouverte sur les fondations mêmes de l'IA reste un défi à part entière. ASI-EVOLVE représente l'une des premières démonstrations concrètes qu'un système unifié peut progresser simultanément sur les trois axes constitutifs du développement de modèles, ouvrant la voie à une automatisation plus profonde du cycle de R&D en IA.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour