Les applis mobiles remplacées par des agents IA ?…

Les 7 types de mémoire des agents IA : guide technique pour les ingénieurs

37

1MarkTechPost

Les 7 types de mémoire des agents IA : guide technique pour les ingénieurs

Les grands modèles de langage sont sans mémoire par défaut : chaque appel à l'API repart de zéro, sans souvenir de l'échange précédent. Cette limitation, acceptable pour une simple question, devient un obstacle dès qu'on construit un agent capable de planifier, d'appeler des outils et d'opérer sur plusieurs étapes. Pour combler ce vide, les ingénieurs en IA ont identifié sept types de mémoire distincts, chacun répondant à un besoin précis. La mémoire de travail, ou mémoire en contexte, correspond à tout ce que le modèle voit dans sa fenêtre de contexte à un instant donné : le prompt système, les messages récents, les résultats d'outils. C'est la RAM de l'agent, rapide mais éphémère et limitée en taille. La mémoire sémantique stocke quant à elle des faits et préférences durables dans une base externe, comme "cet utilisateur préfère Python à JavaScript". La mémoire épisodique journalise les événements passés, les conversations entières et les résultats de tâches, permettant à des systèmes comme Reflexion ou ExpeL d'écrire des bilans post-tâche et d'en tirer des leçons pour les exécutions suivantes. Ces distinctions ne sont pas purement académiques : elles déterminent concrètement les performances et le coût des systèmes agentiques en production. La mémoire procédurale encode les savoir-faire, les workflows et les règles comportementales, ce qui évite à un agent de support de raisonner à nouveau chaque réinitialisation de mot de passe après en avoir traité cent. La mémoire externe ou de récupération repose sur une base vectorielle interrogée à l'inférence par similarité, c'est le principe du RAG appliqué à l'historique de l'agent : la qualité de la recherche devient rapidement le goulot d'étranglement. La mémoire paramétrique, elle, est figée dans les poids du modèle lors de l'entraînement, inaccessible à la mise à jour en temps réel. Enfin, la mémoire prospective gère les intentions futures et les objectifs planifiés mais non encore exécutés, indispensable pour les agents à planification longue qui, sans elle, oublient leurs propres engagements. Cette taxonomie émerge à mesure que les agents IA passent des démonstrateurs de laboratoire aux systèmes opérationnels dans les entreprises. Les frameworks comme LangChain, LlamaIndex ou AutoGPT intègrent désormais plusieurs de ces couches simultanément, mais sans architecture mémoire explicite, les agents accumulent les erreurs, répètent les mêmes échecs et perdent le fil sur des tâches longues. Le choix de la combinaison mémoire dépend du cas d'usage : un agent de service client n'a pas les mêmes besoins qu'un assistant de recherche scientifique multi-session. À mesure que les fenêtres de contexte s'allongent, certains types comme la mémoire de récupération externe pourraient fusionner avec la mémoire de travail, redessinant profondément l'architecture des agents de demain.

💬 Sept types de mémoire, ça paraît beaucoup jusqu'à ce que ton agent oublie ses propres objectifs à mi-tâche. La vraie valeur de cette taxonomie, c'est qu'elle force à traiter la mémoire comme une décision d'architecture, pas une base vectorielle branchée au dernier moment faute de mieux. C'est le genre de clarification qui manquait depuis que tout le monde se met à construire des agents sans vraiment comprendre pourquoi ils déraillent.

LLMsOutil

1 source

L'ancien responsable de Qwen explique les erreurs du hybrid thinking et pourquoi il mise desormais sur les agents

33

2MarkTechPost

L'ancien responsable de Qwen explique les erreurs du hybrid thinking et pourquoi il mise desormais sur les agents

Junyang Lin, qui dirigeait le projet Qwen chez Alibaba, a annoncé son départ le 3 mars 2026 et se présente désormais comme chercheur indépendant. Dans une conférence intitulée "Qwen : vers un modèle ou agent généraliste", il retrace toute la famille Qwen, de QwQ-32B à Qwen2.5-Max, en passant par Qwen3, Qwen2.5-VL et Qwen2.5-Omni, en comparant leurs performances à celles de DeepSeek-R1, Grok 3 Beta, Gemini 2.5 Pro et la série o d'OpenAI. Qwen3 occupe la place centrale de l'exposé : Lin y détaille les modes de raisonnement hybrides, avec un mode "réflexion" pour le raisonnement pas à pas et un mode "instruction" pour des réponses quasi instantanées, ainsi que des budgets de réflexion ajustables par l'utilisateur. La famille couvre désormais 119 langues et dialectes contre 29 auparavant, avec des tailles allant de 0,6 à 235 milliards de paramètres, disponibles en versions quantifiées GGUF, GPTQ, AWQ et MLX, toutes sous licence Apache 2.0. Les architectures présentées montrent que les petits modèles denses partagent leurs embeddings d'entrée et de sortie avec un contexte de 32 000 tokens, tandis que les modèles plus grands, denses ou à mélange d'experts, abandonnent ce partage et étendent le contexte à 128 000 tokens. Ce que Lin détaille surtout, c'est la difficulté technique derrière cette fusion des modes de réflexion, un enjeu qui dépasse largement Qwen. Un modèle optimisé pour l'instruction est récompensé pour sa rapidité et sa concision, tandis qu'un modèle de raisonnement est récompensé pour le temps qu'il consacre aux problèmes complexes. Fusionner les deux sans précaution dégrade les deux comportements à la fois. Qwen3 a d'abord tenté cette fusion via un pipeline de post-entraînement en quatre étapes, avant que la lignée 2507, plus tard en 2025, ne revienne à des variantes séparées, une pour l'instruction et une pour le raisonnement. Lin y voit avant tout un problème de données plutôt que d'architecture, et cite en contrepoint la trajectoire d'Anthropic, qui a conservé une approche hybride avec Claude 3.7 Sonnet et son budget de réflexion réglable, puis avec Claude 4 qui entrelace raisonnement et usage d'outils pour le code et les tâches longues. Cette réflexion s'inscrit dans un basculement plus large que Lin situe entre deux époques. La première, portée par o1 et DeepSeek-R1, a établi que l'apprentissage par renforcement exige des récompenses vérifiables, plaçant les mathématiques, le code et la logique au centre des efforts. La seconde, qu'il appelle la pensée agentique, consiste à raisonner pour agir : planifier, décider quand utiliser un outil, lire les retours de l'environnement et ajuster sa trajectoire. Ses pistes pour la suite incluent davantage de pré-entraînement, du renforcement fondé sur des retours d'environnement, des contextes plus longs et davantage de modalités, résumées dans sa formule finale : entraîner des agents plutôt que de simples modèles.

💬 L'aveu est rare : le mec qui a dirigé Qwen pendant deux ans dit texto que fusionner mode rapide et mode raisonnement, ça marche pas encore proprement, et qu'ils sont revenus en arrière avec la lignée 2507. Ce que ça révèle, c'est que le hybrid thinking vendu partout comme la norme (Claude, et bientôt tout le monde) reste un problème de données non résolu, pas une simple question d'architecture qu'on règle avec plus de compute. Et son pivot vers "entraîner des agents plutôt que des modèles" confirme un truc que je sens depuis des mois : la course au meilleur benchmark de raisonnement pur touche à sa fin.

LLMsPaper

1 source

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

43

3MarkTechPost

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

En l'espace d'un an et demi, les agents de codage IA sont passés du simple complètement automatique à des systèmes entièrement autonomes capables de lire des issues GitHub, naviguer dans des bases de code multi-fichiers, écrire des correctifs, exécuter des tests et ouvrir des pull requests sans qu'un humain tape une seule ligne. Début 2026, environ 85 % des développeurs déclarent utiliser régulièrement une forme d'assistance IA pour coder. Le marché s'est structuré en quatre grandes familles : les agents terminaux, les IDE natifs IA, les ingénieurs autonomes hébergés dans le cloud, et les frameworks open source permettant de choisir librement son modèle. Chaque outil se réclame du meilleur, mais les benchmarks invoqués pour le prouver ne mesurent pas toujours les mêmes choses, et certains ont perdu toute crédibilité. Le coup de tonnerre est venu le 23 février 2026, quand l'équipe Frontier Evals d'OpenAI a annoncé qu'elle cessait de publier ses scores sur SWE-bench Verified, le benchmark de référence du secteur depuis mi-2024. Ce test soumet des agents à 500 vraies issues GitHub tirées de dépôts Python populaires, en mesurant leur capacité à comprendre le problème, naviguer le code, générer un correctif et valider les tests, sans intervention humaine. L'audit d'OpenAI a porté sur 138 des problèmes les plus difficiles, répartis sur 64 sessions indépendantes : 59,4 % présentaient des cas de test fondamentalement défectueux ou insolubles, exigeant par exemple des noms de fonctions précis absents de l'énoncé. Plus grave encore, les auditeurs ont constaté que les trois grands modèles frontière, GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash, étaient capables de reproduire mot pour mot les solutions de référence à partir du seul identifiant de tâche, confirmant une contamination systématique des données d'entraînement. La conclusion d'OpenAI est sans appel : les progrès mesurés sur SWE-bench Verified ne reflètent plus d'améliorations réelles dans le développement logiciel. OpenAI recommande désormais SWE-bench Pro comme successeur. Ce nouveau benchmark contient 1 865 tâches réparties en trois sous-ensembles : 731 tâches publiques, 858 tâches en set caché, et 276 tâches commerciales issues de 18 bases de code propriétaires de startups. Les scores y sont nettement plus bas qu'en Verified : lorsque Scale AI avait évalué les modèles frontière avec un scaffold unifié SWE-Agent, le meilleur résultat n'atteignait pas 25 % (GPT-5 à 23,3 %). Les chiffres publiés aujourd'hui par les labs sont bien supérieurs grâce à des harness optimisés : OpenAI annonce GPT-5.5 à 58,6 % sur le set public, Anthropic revendique 64,3 % pour Claude Opus 4.7, et Google affiche 54,2 % pour Gemini 3.1 Pro. La difficulté à comparer ces résultats, obtenus avec des configurations très différentes, illustre le défi central du marché en 2026 : choisir son agent de codage exige désormais de décrypter les benchmarks autant que les fonctionnalités.

UELes développeurs français et européens utilisant des agents de codage IA doivent recalibrer leurs critères de sélection face à l'invalidité confirmée du benchmark SWE-bench Verified et adopter SWE-bench Pro comme nouvelle référence comparative.

💬 Le coup de balai sur SWE-bench Verified était attendu, mais que les modèles reproduisent les solutions mot pour mot depuis l'identifiant de tâche, c'est quand même un niveau au-dessus. SWE-bench Pro repart à 23% avec un scaffold unifié, ce qui donne une image plus juste de là où on en est vraiment. Les 58-64% qu'annoncent les labs maintenant, c'est avec leurs propres harness optimisés, donc compare qui peut.

LLMsOutil

1 source

Google I/O : nouveaux modèles, agent cloud permanent et refonte de l'application Gemini

52

4The Decoder

Google I/O : nouveaux modèles, agent cloud permanent et refonte de l'application Gemini

Lors de sa conférence développeurs Google I/O, tenue cette semaine, Google a dévoilé plusieurs annonces majeures dans le domaine de l'intelligence artificielle. Au programme : un nouveau modèle de langage baptisé Gemini 3.5 Flash, conçu pour allier rapidité et efficacité, un modèle multimodal nommé Gemini Omni capable de traiter simultanément texte, images, audio et vidéo, ainsi qu'un agent personnel cloud appelé Gemini Spark, pensé pour fonctionner en continu, vingt-quatre heures sur vingt-quatre. L'application Gemini bénéficie par ailleurs d'une refonte visuelle et fonctionnelle complète. L'introduction de Gemini Spark marque un tournant dans la vision de Google pour l'IA personnelle. Contrairement aux assistants classiques qui se contentent de répondre à des requêtes ponctuelles, un agent cloud permanent peut exécuter des tâches de façon autonome, anticiper des besoins, surveiller des données ou déclencher des actions sans intervention humaine. Pour les développeurs comme pour les utilisateurs grand public, cela ouvre la voie à une nouvelle catégorie d'assistants proactifs, toujours disponibles et potentiellement connectés à l'ensemble des services Google. Ces annonces s'inscrivent dans une course effrénée à l'IA agentique que se livrent Google, OpenAI et Microsoft depuis début 2025. Google cherche à reprendre l'initiative après avoir été perçu comme en retrait face aux avancées de GPT-4o et des agents d'OpenAI. Avec cette vague de lancements, l'entreprise signale sa volonté de positionner Gemini non plus comme un simple chatbot, mais comme une infrastructure d'IA omniprésente, ancrée dans le cloud et intégrée à l'ensemble de son écosystème.

UELes nouveaux modèles Gemini et l'agent cloud permanent seront accessibles aux développeurs et entreprises européens, accélérant l'adoption de l'IA agentique dans l'écosystème Google en Europe.

LLMsActu

1 source

Les applis mobiles remplacées par des agents IA ? Nothing prédit le futur des smartphones

À lire aussi

Les 7 types de mémoire des agents IA : guide technique pour les ingénieurs

L'ancien responsable de Qwen explique les erreurs du hybrid thinking et pourquoi il mise desormais sur les agents

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

Google I/O : nouveaux modèles, agent cloud permanent et refonte de l'application Gemini