Aller au contenu principal
SyGra : Le cadre unique pour construire des données pour les modèles LLM et SLM
LLMsHuggingFace Blog39sem· 1 min de lecture

SyGra : Le cadre unique pour construire des données pour les modèles LLM et SLM

Source originale ↗·

SyGra est un cadre unique pour la construction de données destinées aux grands modèles de langage (LLMs) et aux modèles de langage à transfert (SLMs). Il offre une solution complète pour générer et manipuler des ensembles de données, simplifiant ainsi le processus de préparation des données pour les modèles d'IA. Ce cadre permet aux utilisateurs de créer, d'augmenter et de nettoyer des données textuelles, tout en optimisant les performances des modèles d'apprentissage profond. SyGra est particulièrement utile pour les chercheurs et les développeurs travaillant sur des applications nécessitant des grandes quantités de données textuelles.

Impact France/UE

SyGra facilite l'accès des entreprises françaises et européennes à la construction de données pour les modèles LLM et SLM, améliorant potentiellement leurs capacités d'IA tout en respectant les exigences de l'AI Act et du RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google constitue une équipe spécialisée pour améliorer ses modèles de code
1The Information AI 

Google constitue une équipe spécialisée pour améliorer ses modèles de code

Google a constitué une équipe spéciale de chercheurs et ingénieurs au sein de DeepMind, dédiée à l'amélioration de ses modèles d'IA pour la génération de code. Cette initiative, révélée par trois sources internes, vise à automatiser davantage le développement logiciel en interne, et à terme, à accélérer la recherche en intelligence artificielle elle-même. L'opération a été lancée en réponse directe aux récentes sorties de modèles d'Anthropic, selon deux des personnes interrogées. L'enjeu est considérable : les chercheurs de Google DeepMind estiment que les outils de codage d'Anthropic surpassent actuellement les capacités de Gemini dans ce domaine. Pour une entreprise dont l'infrastructure logicielle est l'une des plus complexes au monde, perdre du terrain sur la génération de code représente un désavantage compétitif majeur, aussi bien en productivité interne qu'en attractivité commerciale face aux développeurs. Cette mobilisation s'inscrit dans une course effrénée entre les grands laboratoires d'IA autour du codage autonome. Anthropic a fait de Claude un outil de référence pour les développeurs, notamment via des agents capables de modifier des bases de code entières. Google, malgré ses ressources considérables et ses modèles Gemini, se retrouve en position de rattrapage sur ce créneau stratégique. La capacité à automatiser sa propre recherche en IA constitue potentiellement un avantage décisif dans la compétition à long terme.

UELes développeurs et entreprises européens utilisant des outils de génération de code IA pourraient bénéficier à terme d'une amélioration des capacités de Gemini dans ce domaine concurrentiel.

LLMsActu
1 source
Le méta-système de Poetiq construit un cadre universel améliorant tous les LLM sur LiveCodeBench Pro sans affinage
2MarkTechPost 

Le méta-système de Poetiq construit un cadre universel améliorant tous les LLM sur LiveCodeBench Pro sans affinage

La startup Poetiq a publié des résultats qui retiennent l'attention dans le domaine de l'IA : son système baptisé Meta-System a atteint un nouveau niveau de performance sur LiveCodeBench Pro, un benchmark compétitif de codage, en construisant et optimisant automatiquement son propre environnement d'inférence. Sans entraîner les modèles sous-jacents ni accéder à leurs paramètres internes, le Meta-System a permis à GPT 5.5 High de passer de 89,6 % à 93,9 % sur ce benchmark. Plus spectaculaire encore : Gemini 3.1 Pro, le modèle sur lequel le système a été optimisé, bondit de 78,6 % à 90,9 %, surpassant ainsi Gemini 3 Deep Think de Google lui-même, crédité de 88,8 % mais non accessible via API pour vérification externe. Il s'agit du troisième benchmark public de Poetiq, et le choix de LiveCodeBench Pro était délibéré. Ce que Poetiq appelle un « harness » est la couche d'orchestration enveloppant un modèle de langage : elle contrôle comment le modèle est sollicité, comment les sorties sont structurées, comment les réponses sont assemblées sur plusieurs appels, et comment les solutions sont évaluées. Traditionnellement, ces architectures sont construites à la main par des ingénieurs. La proposition de Poetiq est que le Meta-System les construit et les optimise de manière entièrement automatique, par amélioration récursive. En pratique, le système développe de meilleures stratégies de questionnement, affine des chaînes de raisonnement séquentielles, et assemble les réponses de façon adaptive, en intégrant les apprentissages de tâches précédentes. L'impact est immédiat pour l'industrie : si un tel système peut améliorer n'importe quel modèle sans accès privilégié ni réentraînement coûteux, cela repositionne la compétition non plus uniquement sur la qualité intrinsèque des modèles, mais sur la sophistication de l'infrastructure qui les entoure. LiveCodeBench Pro a été conçu pour résister à deux défauts récurrents des benchmarks : la contamination des données et le surapprentissage. Il puise ses problèmes dans les compétitions de programmation compétitive, valide les solutions via un cadre de tests complet, et impose des contraintes strictes de mémoire et de temps d'exécution, notamment en C++. Le benchmark est aussi mis à jour en continu, ce qui le distingue des évaluations statiques qui finissent par devenir obsolètes. Pour Poetiq, le codage représente la catégorie commerciale la plus répandue de l'IA aujourd'hui, mêlant raisonnement, récupération d'information et génération de logique procédurale complexe. L'entreprise entend démontrer que l'amélioration récursive automatique des harnesses constitue une voie complémentaire au scaling traditionnel des modèles, avec des gains substantiels à la clé pour tous les acteurs souhaitant tirer davantage de valeur des LLM existants.

LLMsOutil
1 source
3AWS ML Blog 

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil
1 source
4Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic