Aller au contenu principal
Andrej Karpathy : les humains sont désormais le goulot d'étranglement de la recherche en IA face à des résultats faciles à mesurer
RechercheThe Decoder12sem· 1 min de lecture

Andrej Karpathy : les humains sont désormais le goulot d'étranglement de la recherche en IA face à des résultats faciles à mesurer

Source originale ↗·

Andrej Karpathy, l'un des chercheurs les plus influents du domaine de l'intelligence artificielle et cofondateur d'OpenAI, a fait une révélation qui illustre un basculement profond dans la recherche en IA : il a laissé un agent autonome optimiser sa configuration d'entraînement pendant une nuit, et celui-ci a identifié des améliorations qu'il n'avait pas su trouver lui-même — malgré deux décennies d'expérience dans le domaine.

Ce constat dépasse l'anecdote personnelle. Karpathy pointe un phénomène structurel : dans les tâches de recherche où les résultats sont facilement mesurables — optimisation de hyperparamètres, benchmarks standardisés, réglage de pipelines d'entraînement — les agents IA surpassent désormais la capacité humaine d'exploration. Le chercheur suggère que l'humain n'est plus le moteur de ces cycles d'amélioration, mais le goulot d'étranglement qui les ralentit.

L'expérience de Karpathy s'inscrit dans une tendance plus large : les laboratoires de recherche comme OpenAI, Google DeepMind ou Anthropic investissent massivement dans des systèmes capables de s'auto-améliorer sur des métriques précises. Ce que Karpathy décrit de façon concrète — un agent qui travaille en continu, sans fatigue, en explorant un espace de solutions bien plus vaste qu'un humain ne pourrait le faire — valide expérimentalement ce que beaucoup pressentaient théoriquement.

La question qui s'ouvre est celle des limites de cette automatisation : là où les métriques sont ambiguës ou les objectifs difficiles à formaliser, le jugement humain reste irremplaçable. Mais pour tout ce qui peut être mesuré clairement, la recherche en IA entre dans une nouvelle ère où les machines optimisent les machines.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

IA : débats sur les goulots d'étranglement, et essais BCI en plein essor
1MIT Technology Review 

IA : débats sur les goulots d'étranglement, et essais BCI en plein essor

La startup américaine Subquadratic est sortie de sa phase de discrétion le mois dernier avec une affirmation ambitieuse : avoir résolu un goulot d'étranglement mathématique qui freine les grands modèles de langage depuis près d'une décennie. Leur approche consiste à réduire drastiquement le nombre de calculs que les transformeurs doivent effectuer pour générer des réponses, ce qui produirait des modèles plus rapides, moins coûteux et bien moins énergivores que tout ce qui existe actuellement sur le marché. Parallèlement, le domaine des interfaces cerveau-ordinateur (BCI) connaît une accélération notable : Casey Harrell, atteint de la maladie de Charcot (SLA), est décrit comme le premier "utilisateur avancé" d'un implant cérébral qui lui permet de maintenir une activité professionnelle, de renouer avec ses proches et de lire des histoires à sa fille. En 2026, la Chine est devenue le premier pays à approuver officiellement une BCI à usage médical. Sur le plan politique, le sénateur Bernie Sanders a dévoilé une proposition de loi visant à créer un fonds souverain américain en intelligence artificielle, financé par une taxe unique sur les actions des grandes entreprises du secteur, avec des versements annuels directs aux citoyens américains. Ces développements signalent des mutations profondes dans l'industrie technologique. Si la technique de Subquadratic est confirmée, elle pourrait redistribuer les cartes dans la course aux LLM en rendant obsolètes les avantages concurrentiels liés à la puissance brute de calcul, un domaine où des entreprises comme Nvidia et les grands hyperscalers ont investi des dizaines de milliards de dollars. Du côté des BCI, l'accélération des essais cliniques ouvre des perspectives concrètes pour des millions de personnes atteintes de paralysie ou de maladies neurodégénératives. Deux études publiées dans Nature viennent toutefois tempérer l'enthousiasme ambiant autour de l'IA : elles suggèrent que l'utilisation intensive de ces outils affaiblirait les capacités cognitives des médecins et des ingénieurs, un phénomène que certains observateurs qualifient de "désqualification professionnelle par surinvestissement technologique." Le contexte global reflète une industrie à un tournant. Chez Amazon, des ingénieurs ayant témoigné lors de réunions internes en faveur d'un ralentissement de la construction de centres de données font l'objet d'enquêtes disciplinaires pouvant aller jusqu'au licenciement, révélant les tensions croissantes entre salariés et direction sur les enjeux environnementaux et éthiques du déploiement massif de l'IA. Sur le plan géopolitique, des investisseurs chinois auraient discrètement acquis des parts dans SpaceX avant son introduction en bourse, tandis que Washington craint que Pékin ait obtenu l'accès à l'une des machines les plus avancées du fabricant de semi-conducteurs ASML. La proposition Sanders s'inscrit dans un débat plus large sur qui doit bénéficier des gains économiques de l'IA, à l'heure où la pratique du "tokenminning", réduire sa consommation de tokens face à des coûts en spirale, commence à remplacer le "tokenmaxxing" chez les professionnels tech les plus intensifs.

UELa révélation que Pékin aurait obtenu l'accès à une machine ASML (fabricant néerlandais stratégique de semi-conducteurs) soulève des enjeux de sécurité économique directement pertinents pour l'UE, et les études Nature sur la déqualification cognitive par l'IA concernent l'ensemble des travailleurs européens.

💬 Si Subquadratic a vraiment réduit drastiquement les calculs des transformeurs, c'est pas une amélioration marginale, c'est l'avantage compétitif des hyperscalers qui s'effondre parce qu'ils ont tout misé sur la puissance brute. Bon, à confirmer en dehors de leur propre comm. Ce qui m'inquiète autant, c'est les deux études Nature sur la déqualification cognitive : médecins et ingénieurs qui utilisent intensivement ces outils perdraient en compétences, et presque personne n'en fait les gros titres.

RecherchePaper
1 source
Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences
2MarkTechPost 

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de train.py, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme MAXSEQLEN, DEPTH ou DEVICEBATCHSIZE, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

RechercheTuto
1 source
Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle
3The Decoder 

Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle

Une étude de grande envergure portant sur 208 000 participants et 26 millions de réponses révèle un paradoxe fondamental dans le développement des assistants conversationnels : l'entraînement qui rend les modèles de langage utiles et agréables à utiliser dégrade simultanément leur capacité à reproduire fidèlement les comportements humains. Plus un modèle est optimisé pour être serviable, poli et aligné sur les attentes des utilisateurs, moins il parvient à simuler la diversité réelle des réponses humaines. L'effet s'aggrave à chaque nouvelle génération de modèles. Ce résultat a des conséquences directes pour les chercheurs en sciences sociales, économistes et psychologues qui utilisent de plus en plus les LLM comme substituts aux sondages humains classiques, jugés coûteux et lents. Si ces modèles ne peuvent pas reproduire de manière fiable les comportements individuels, leur valeur comme outils de simulation sociale est sérieusement remise en question. La technique populaire consistant à fournir aux modèles des profils démographiques détaillés, souvent appelée "persona prompting", n'apporte pratiquement aucun gain de précision au niveau individuel. Ce constat s'inscrit dans un débat plus large sur la nature de l'alignement des LLM : en optimisant pour la satisfaction de l'utilisateur via le renforcement humain (RLHF), les entreprises comme OpenAI, Anthropic ou Google créent des modèles qui s'homogénéisent vers un comportement "acceptable" au détriment de la variabilité humaine. Les chercheurs appellent à distinguer clairement les cas d'usage où l'alignement est souhaitable de ceux où la fidélité comportementale est requise.

UELes chercheurs européens en sciences sociales, économie et psychologie doivent revoir leur méthodologie : les LLM alignés ne peuvent pas remplacer fiablement des participants humains dans les études comportementales à l'échelle individuelle.

💬 Résultat presque évident une fois qu'on le lit, sauf que personne ne l'avait mesuré à cette échelle : plus tu rends un LLM utile et poli, moins il ressemble à un humain réel. 208 000 participants, 26 millions de réponses, c'est difficile à contester. Les chercheurs en sciences sociales qui remplaçaient leurs sondages par des LLM vont devoir revoir leurs copies, et pas qu'un peu.

RecherchePaper
1 source
Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus
4The Decoder 

Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus

Des chercheurs de l'Université du Maryland, de Google, de Meta et d'autres institutions ont mis au point AutoTTS, un système qui confie à un agent de codage - Claude Code d'Anthropic - la tâche de concevoir de façon autonome des algorithmes pour améliorer le raisonnement des modèles d'IA. En 160 minutes et pour seulement 40 dollars, l'agent a découvert un algorithme inédit qui réduit d'environ 70 % la charge de calcul par rapport à la méthode self-consistency standard, tout en atteignant une précision équivalente. Ce résultat change la donne sur la façon dont les algorithmes d'optimisation pourraient être développés. La méthode self-consistency, qui consiste à générer plusieurs réponses et à en extraire la plus cohérente, est largement utilisée pour améliorer la fiabilité des grands modèles de langage, mais elle reste coûteuse en ressources. Réduire ce coût de 70 % sans perte de précision représente un gain concret pour les équipes qui déploient ces systèmes à grande échelle, et soulève une question plus profonde : certains algorithmes utiles sont peut-être inaccessibles à l'intuition humaine. Ce travail s'inscrit dans la tendance croissante du test-time scaling, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement. Confier à un agent IA la conception d'algorithmes que des chercheurs humains n'auraient probablement pas imaginés ouvre une nouvelle frontière dans la méta-optimisation. La question qui se pose désormais est de savoir jusqu'où cette automatisation peut s'étendre, et si d'autres domaines de la recherche en IA pourraient bénéficier d'une approche similaire.

💬 40 dollars, 160 minutes, et un algo qui réduit de 70% les coûts de calcul qu'aucun chercheur n'avait pensé à chercher là. C'est ça qui est troublant, pas la perf en elle-même : certains espaces de solutions sont peut-être hors de portée de l'intuition humaine, et on commence juste à s'en rendre compte. Reste à voir si ça tient hors benchmark.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic