IA générative : le RAG par l’exemple, avec 15 000 actus Next et Mistral 7B
La rédaction de Next a mis en œuvre une démonstration concrète du RAG (Retrieval-Augmented Generation) en indexant plus de 15 000 articles publiés sur le site au cours des dix dernières années, puis en les connectant à Mistral 7B, un modèle de langage open source à 7,3 milliards de paramètres sorti en 2023 et distribué sous licence Apache 2.0. L'ensemble du traitement a été réalisé entièrement en local, sur un MacBook Pro équipé d'un SoC Apple M2 et de 16 Go de mémoire unifiée, sans aucune connexion à Internet. L'outillage repose sur Ollama (open source, licence MIT) pour faire tourner Mistral 7B, et sur le modèle nomic-embed-text pour transformer les textes en vecteurs numériques. L'indexation initiale des 15 000 articles a pris environ trois heures sur cette machine ; les ajouts ultérieurs ne nécessitent de vectoriser que les nouveaux contenus. À l'exécution, chaque prompt utilisateur est lui-même vectorisé, comparé à l'ensemble de la base, et les dix extraits les plus pertinents sont transmis simultanément à Mistral pour que le modèle construise sa réponse en s'appuyant à la fois sur ses connaissances internes et sur ces morceaux sélectionnés.
Cette démonstration illustre une capacité désormais accessible sans infrastructure cloud ni abonnement payant : enrichir un modèle généraliste avec une base de connaissances privée et actualisée, sans réentraînement. Pour les entreprises comme pour les particuliers, le RAG représente une voie pragmatique pour dépasser la date de coupure des modèles et les ancrer dans un corpus maîtrisé, qu'il s'agisse de documentation interne, d'archives éditoriales ou de bases réglementaires. Le fait que l'intégralité du pipeline tourne sur un ordinateur portable grand public, sans données envoyées vers des serveurs tiers, lève en outre les obstacles liés à la confidentialité qui freinent l'adoption en milieu professionnel.
Le RAG s'est imposé ces deux dernières années comme l'une des techniques les plus utilisées pour spécialiser les LLM sans passer par le fine-tuning, jugé coûteux et rigide. Mistral 7B, bien que désormais dépassé par des modèles comptant des centaines de milliards de paramètres, reste suffisamment léger pour tourner sur du matériel grand public tout en offrant des résultats exploitables. Ollama, de son côté, a considérablement simplifié le déploiement local de ces modèles depuis son lancement. La démarche de Next souligne que l'expérimentation RAG n'est plus réservée aux équipes disposant de GPU serveur : un Mac récent suffit, et le principal investissement reste le temps de constitution et de maintenance du corpus source.
Le pipeline entièrement local, basé sur Mistral 7B (Mistral AI, France), élimine tout transfert de données vers des serveurs tiers, levant les obstacles RGPD qui freinent l'adoption de l'IA générative en entreprise en France et dans l'UE.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




