Les LLMs de connaissance selon Karpathy : une bibliothèque markdown évolutive gérée par IA, en alternative au RAG
Andrej Karpathy, ancien directeur de l'IA chez Tesla et co-fondateur d'OpenAI, a publié sur X une description détaillée de son architecture personnelle qu'il nomme "LLM Knowledge Bases". Le principe : confier à un LLM le rôle de bibliothécaire permanent, chargé de compiler, organiser et maintenir une bibliothèque de fichiers Markdown (.md) représentant ses projets et sujets de recherche. Le système fonctionne en trois étapes : les matières brutes (articles, dépôts GitHub, papers de recherche) sont déposées dans un répertoire raw/, converties en Markdown via l'outil Obsidian Web Clipper ; le LLM "compile" ensuite ces données en rédigeant des articles encyclopédiques, des résumés et des liens croisés entre concepts ; enfin, des passes de "linting" régulières permettent au modèle de détecter les incohérences et les connexions manquantes, rendant la base auto-réparatrice.
Cette approche s'attaque à un problème concret que tout développeur utilisant des LLMs connaît bien : la réinitialisation du contexte à chaque nouvelle session. Reconstruire l'état d'un projet complexe consomme des tokens précieux et du temps. En maintenant une base de connaissances structurée, lisible par l'humain et directement exploitable par le modèle, Karpathy élimine ce "reset lobotomisant". Par rapport au RAG classique — où les documents sont découpés en fragments arbitraires, transformés en vecteurs mathématiques et stockés dans une base spécialisée — son système évite la boîte noire des embeddings : chaque information est traçable jusqu'à un fichier Markdown qu'un humain peut lire, modifier ou supprimer. Pour les datasets de taille intermédiaire, la complexité opérationnelle d'une infrastructure vectorielle n'est tout simplement plus justifiée.
Le RAG domine la scène enterprise depuis trois ans, mais les limites de l'approche par chunks sont de plus en plus visibles à mesure que les fenêtres de contexte des LLMs s'élargissent. Karpathy reconnaît lui-même que son système reste "une collection hacky de scripts", mais la réaction de la communauté a immédiatement pointé vers le potentiel commercial : comme l'a formulé l'entrepreneur Vamshi Reddy, "chaque entreprise possède déjà un répertoire raw/ — personne ne l'a jamais compilé". Karpathy a acquiescé, évoquant une "incroyable nouvelle catégorie de produits". La plupart des organisations se noient dans des données non structurées — logs Slack, wikis internes, rapports PDF — sans jamais avoir les moyens de les synthétiser. Une couche enterprise inspirée de cette architecture pourrait transformer ces silos en bases de connaissances vivantes, auditables et maintenues en continu par l'IA elle-même.