RechercheHuggingFace Blog8sem

Ulysses Sequence Parallelism : entraînement sur des contextes d'un million de tokens

Résumé IASource uniqueImpact UE

L'article ne contient que le titre — le corps du texte n'a pas été fourni. Peux-tu coller le contenu complet de l'article ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs

Les grands modèles de langage (LLM) sont capables d'évaluer leur propre confiance au niveau sémantique, pas seulement au niveau des tokens — et ce sans avoir été explicitement entraînés pour cela. Une étude montre que les LLM de base sont remarquablement bien calibrés pour estimer leur certitude sur le sens réel de leurs réponses dans des tâches de questions-réponses en domaine ouvert. Les chercheurs proposent un mécanisme théorique expliquant pourquoi cette calibration sémantique émerge naturellement de l'entraînement sur des tokens.

RecherchePaper

1 source

2The Decoder

Les données textuelles pour les LLM s'épuisent : Meta mise sur les vidéos non étiquetées comme prochain grand terrain d'entraînement

Une équipe de recherche de Meta FAIR et de l'Université de New York a entraîné un modèle d'IA multimodal from scratch, remettant en question plusieurs hypothèses courantes sur la construction de ces modèles. Face à l'épuisement des données textuelles pour entraîner les LLM, Meta mise sur la vidéo non étiquetée comme prochain grand gisement d'entraînement. Cette approche pourrait ouvrir une nouvelle frontière pour le développement de modèles d'IA à grande échelle.

RechercheActu

1 source

3Ars Technica AI

Grand modèle génomique: IA open source entraînée sur des billions de bases

L'équipe d'Evo a développé Evo 2, un modèle d'IA open source formé sur des milliards de paires de bases de l'ADN provenant des trois domaines de la vie (bactéries, archées, et eucaryotes). Après avoir analysé des quantités massives de génomes, Evo 2 a développé des représentations internes de caractéristiques essentielles dans des génomes complexes, y compris des éléments régulateurs de l'ADN et des sites d'splice, souvent difficiles à identifier pour les humains.

UELes laboratoires et instituts de recherche européens en génomique (comme l'Institut Pasteur ou le CEA) peuvent directement exploiter ce modèle open source pour accélérer leurs travaux sur la compréhension des génomes complexes et le développement de thérapies.

RecherchePaper

1 source

4HuggingFace Blog

Déverrouiller l'entraînement RL agissant pour GPT-OSS : un retour d'expérience pratique

Titre: Déverrouiller l'entraînement RL agissant pour GPT-OSS : un retour d'expérience pratique Résumé: L'article discute de l'expérience acquise lors de l'application de l'apprentissage par renforcement (RL) agissant à GPT-OSS, un modèle de langage open-source. Les chercheurs ont mis en évidence les défis rencontrés et les solutions trouvées, mettant l'accent sur l'importance de l'optimisation des ressources pour une meilleure efficacité.

UEL'application de l'apprentissage par renforcement agissant à GPT-OSS, un modèle de langage open-source, offre aux entreprises françaises et européennes des opportunités d'optimisation des ressources pour améliorer l'efficacité de leurs systèmes d'intelligence artificielle, en respectant les directives de l'AI Act et le RGPD.

RechercheOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour