Aller au contenu principal
RechercheMarkTechPost3j

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de `train.py`, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme `MAXSEQLEN`, `DEPTH` ou `DEVICEBATCHSIZE`, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

Articles similaires

1The Decoder14h

Les agents RL passent du plantage au parkour en multipliant les couches du réseau

Des chercheurs ont obtenu des gains de performance de 2x à 50x en augmentant la profondeur des réseaux de neurones jusqu'à 1 024 couches dans un agent d'apprentissage par renforcement auto-supervisé, alors que la plupart des algorithmes n'utilisent que 2 à 5 couches. Cette mise à l'échelle en profondeur a non seulement amélioré les performances, mais a aussi fait émerger des comportements entièrement nouveaux — les agents passant de chutes répétées à des mouvements de parkour fluides.

RecherchePaper
1 source
201net16h

« On passe de la peste au choléra » : l’IA française Simone AI dénonce les pratiques de WhatsApp (Meta)

Jérémy André, fondateur de Simone AI, critique Meta pour avoir réouvert WhatsApp aux chatbots IA tiers, mais imposé des tarifs jugés exagérés. Simone AI, dépendant de WhatsApp, espère une intervention de l'autorité européenne antitrust.

UESimone AI, une entreprise française, sollicite une action de l'autorité européenne antitrust contre Meta pour des pratiques tarifaires jugées excessives après la réouverture de WhatsApp aux chatbots IA tiers.

RechercheOpinion
1 source
3MarkTechPost17h

Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)

Zhipu AI présente GLM-OCR, un modèle multimodal compact de 0.9 milliards de paramètres pour la compréhension des documents, qui combine un encodeur visuel CogViT de 0.4 milliard, un connecteur léger intermodal et un décodeur linguistique GLM de 0.5 milliard. Le modèle utilise la prédiction de multi-token (MTP) pour améliorer le traitement (50%), adapté aux contraintes des déploiements sur le bord, et adopte une architecture en deux étapes pour analyser la structure documentaire avant la reconnaissance. GLM-OCR traite les tâches de parse document et d'extraction des informations clés (KIE) via des chemins d'output distincts, optimisant ainsi l'efficacité et la robustesse sur des documents complexes.

UEZhipu AI's GLM-OCR modèle, développé par une entreprise chinoise mais exploitable par des acteurs européens comme OVHcloud ou SAP pour améliorer leurs propres solutions de traitement automatique du langage naturel et d'analyse documentaire, peut potentiellement renforcer la compétitivité des entreprises françaises et européennes dans les secteurs de l'informatique avancée et la gestion de données.

RechercheOutil
1 source