
Créer un assistant de recherche sur les protéines avec Amazon Bedrock AgentCore
Amazon Web Services a publié un guide technique détaillant la construction d'un assistant conversationnel dédié à la recherche sur les protéines, baptisé "protein research copilot", reposant sur Amazon Bedrock AgentCore. Le système permet aux chercheurs de soumettre des requêtes en langage naturel, par exemple "Trouve 10 peptides similaires au peptide du virus de la dengue LPAIVREAI", et d'obtenir automatiquement des résultats de similarité structurelle accompagnés d'une synthèse scientifique générée par IA. L'architecture s'appuie sur le SDK Strands Agents pour orchestrer trois outils spécialisés au sein d'un agent unique : un parseur de requêtes, un moteur de recherche vectorielle, et un summariseur. Les embeddings protéiques sont calculés via le modèle ESM-C 300M déployé comme endpoint serverless sur Amazon SageMaker AI, puis comparés par similarité cosinus dans une base Amazon Aurora PostgreSQL avec l'extension pgvector. L'interface utilisateur tourne sur AWS Fargate via Streamlit, et le modèle de langage central est Claude Sonnet 4.6 d'Anthropic, accessible via l'API Bedrock Converse.
Ce type d'outil répond à un problème concret dans les laboratoires de biologie computationnelle : la recherche manuelle de peptides structurellement similaires parmi des milliers de séquences est lente, sujette aux erreurs, et exige une expertise pointue pour interpréter les résultats. En automatisant l'ensemble du pipeline, de la formulation de la question à la synthèse des résultats, le copilote réduit drastiquement le temps passé sur des tâches répétitives et rend la recherche accessible à des profils moins spécialisés en bioinformatique. Le pattern "LLM-as-parser" utilisé pour extraire des paramètres structurés depuis du langage naturel est directement réutilisable dans d'autres domaines scientifiques où les données sont complexes et la formulation des requêtes peu standardisée.
Cette publication s'inscrit dans la stratégie d'AWS de positionner Bedrock AgentCore comme plateforme de référence pour déployer des agents IA en production, face à des concurrents comme Google Vertex AI ou Microsoft Azure AI Studio. Le secteur biotech et pharmaceutique représente une cible prioritaire : la recherche sur les épitopes viraux, le dataset utilisé ici est celui de l'IEDB (Immune Epitope Database), est au coeur du développement de vaccins et de thérapies antivirales. Le modèle ESM-C, développé par EvolutionaryScale, est l'un des modèles de langage protéique les plus performants du moment. Le déploiement complet est estimé entre 30 et 45 minutes, mais implique des coûts sur Bedrock, SageMaker, Aurora Serverless v2 et Fargate qu'AWS invite explicitement à consulter avant de lancer l'infrastructure. Les prochaines étapes naturelles seraient l'intégration de bases de données protéiques publiques comme UniProt ou PDB, et l'extension à d'autres types de molécules biologiques.
Cet outil développé par AWS peut bénéficier aux chercheurs en biologie computationnelle en France et dans l'UE en automatisant la recherche de peptides structurellement similaires, améliorant ainsi l'efficacité et rendant ces tâches moins spécialisées.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




