Aller au contenu principal
Règles critiquées : simplification des processus de tokenisation dans les Transformateurs v5, offrant une transparence accrue et une modularité améliorée
RechercheHuggingFace Blog26sem· 1 min de lecture

Règles critiquées : simplification des processus de tokenisation dans les Transformateurs v5, offrant une transparence accrue et une modularité améliorée

Source originale ↗·

L'article discute des avancées dans la tokenisation utilisée dans les modèles Transformers version 5, qui apporte des simplifications, une clarté accrue et une meilleure modularité. Il met l'accent sur l'amélioration de l'architecture pour faciliter la compréhension et la manipulation des données textuelles.

Impact France/UE

L'avancée dans la tokenisation des Transformateurs v5 simplifie et clarifie le traitement des données textuelles, bénéficiant potentiellement aux entreprises européennes comme DeepMind Europe et Hugging Face, en améliorant leur capacité à respecter la réglementation RGPD en manipulant les données textuelles de manière plus transparente, tout en ouvrant des opportunités pour l'innovation dans les secteurs de l'IA et du traitement du langage naturel.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs
1MarkTechPost 

Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs

Moonshot AI a présenté Attention Residuals (AttnRes), un remplacement des connexions résiduelles standard dans les Transformers. Les chercheurs soutiennent que les connexions résiduelles actuelles introduisent un problème structurel, car toutes les sorties précédentes sont accumulées avec des poids unitaires fixes, entraînant une croissance de la magnitude de l'état caché et faiblissant progressivement le contribucion de chaque couche. AttnRes permet à chaque couche d'agréger les représentations antérieures via une attention softmax sur la profondeur, plutôt que sur la position séquentielle. Les principaux problèmes des connexions résiduelles standard incluent l'accès non selectif, la perte irréversible d'informations et la croissance de l'output, qui peuvent entraîner une instabilité de l'entraînement. Full AttnRes calcule les poids d'attention sur toutes les sources de profondeur précédentes, augmentant ainsi le coût mais offrant une meilleure gestion des informations.

RecherchePaper
1 source
Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer
2The Decoder 

Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer

Des chercheurs de Meta, en collaboration avec plusieurs universités, ont développé ce qu'ils appellent des « hyperagents » — des systèmes d'IA capables non seulement d'accomplir des tâches, mais aussi d'optimiser activement le mécanisme même par lequel ils s'améliorent. Cette architecture dépasse le cadre classique de l'apprentissage par renforcement ou du fine-tuning : l'agent agit sur deux niveaux simultanément, en résolvant des problèmes tout en affinant sa propre stratégie d'amélioration. Les résultats ont été présentés dans le cadre de travaux impliquant plusieurs équipes académiques aux côtés de Meta. Cette capacité à « s'améliorer en s'améliorant » représente un changement de paradigme potentiel dans la conception des systèmes d'IA agentiques. Là où les agents actuels nécessitent des cycles humains de rétroaction ou de supervision pour progresser, les hyperagents pourraient théoriquement accélérer leur propre développement de manière autonome. L'approche fonctionne sur plusieurs domaines de tâches différents, ce qui suggère une généralisation plutôt qu'une spécialisation étroite — un critère déterminant pour une adoption plus large dans des applications réelles. Ce travail s'inscrit dans une course intense entre les grands laboratoires pour développer des agents IA toujours plus autonomes. Meta, qui a misé massivement sur l'IA agentique avec ses modèles Llama et ses recherches en raisonnement, cherche à rattraper OpenAI et Google sur ce terrain. Le concept d'IA auto-accélératrice soulève également des questions profondes sur la sécurité et la contrôlabilité : si un système peut modifier sa propre dynamique d'apprentissage, la supervision humaine devient structurellement plus difficile à maintenir.

RecherchePaper
1 source
Au-delà de la précision : quantifier la fragilité en production causée par les variables excessives, redondantes et peu informatives en régression
3MarkTechPost 

Au-delà de la précision : quantifier la fragilité en production causée par les variables excessives, redondantes et peu informatives en régression

Ajouter davantage de variables à un modèle de régression peut sembler bénéfique, mais en pratique cela introduit des risques structurels cachés : instabilité des coefficients, signaux faibles confondus avec de vrais patterns, et fragilité accrue en production due aux dépendances multiples sur les pipelines de données. Lorsque des variables sont corrélées ou peu informatives, l'optimiseur peine à distribuer les poids de manière cohérente, rendant le modèle imprévisible au déploiement. L'article illustre ce problème avec un dataset de prix immobiliers en comparant des modèles "tout-en-un" à des alternatives plus sobres et stables, en utilisant Ridge Regression, scikit-learn et pandas.

RecherchePaper
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
4MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic