Aller au contenu principal
InfrastructureMIT Technology Review6sem

Déployer l'IA dans les environnements contraints du secteur public

Résumé IASource uniqueImpact UE
Source originale ↗·

Les institutions publiques du monde entier subissent une pression croissante pour adopter l'intelligence artificielle, mais leur contexte opérationnel diffère radicalement de celui du secteur privé. Une étude de Capgemini révèle que 79 % des dirigeants du secteur public s'inquiètent de la sécurité des données liées à l'IA, une préoccupation justifiée au regard de la sensibilité des informations gouvernementales et des obligations légales qui les entourent. Han Xiao, vice-président de l'IA chez Elastic, résume la situation : les agences gouvernementales doivent strictement contrôler les données qu'elles envoient sur le réseau, ce qui impose de nombreuses contraintes sur leur approche de l'IA. Une enquête d'Elastic auprès de décideurs publics révèle par ailleurs que 65 % d'entre eux peinent à exploiter leurs données en continu, en temps réel et à grande échelle.

Là où le secteur privé présuppose une connectivité permanente au cloud, une infrastructure centralisée et une liberté de mouvement des données, les administrations publiques ne peuvent accepter ces conditions. Elles doivent garantir que leurs données restent sous leur contrôle, que les informations peuvent être vérifiées, et que la continuité des opérations est assurée, y compris dans des environnements où la connexion internet est limitée ou inexistante. S'ajoute à cela un autre obstacle matériel : les administrations achètent rarement des GPU, ces processeurs graphiques indispensables pour faire tourner les grands modèles d'IA, faute d'habitude de gérer ce type d'infrastructure. Ces contraintes cumulées expliquent pourquoi de nombreux projets pilotes d'IA dans le secteur public ne franchissent jamais le stade de l'expérimentation.

Face à ces limites, les petits modèles de langage, ou SLM (Small Language Models), apparaissent comme une solution adaptée. Contrairement aux grands modèles comme GPT-4 qui mobilisent des centaines de milliards de paramètres, les SLM n'en utilisent que quelques milliards, ce qui les rend bien moins gourmands en ressources de calcul et permet de les héberger localement, sans dépendance au cloud. Des études empiriques montrent que leurs performances sont comparables, voire supérieures à celles des LLM sur des tâches spécialisées. Les données restent stockées en dehors du modèle et ne sont consultées qu'au moment des requêtes, grâce à des techniques comme la recherche vectorielle et l'ancrage sur des sources vérifiables. Des entreprises comme Elastic positionnent ces approches comme la voie réaliste vers une IA véritablement opérationnelle dans les administrations, à l'heure où la pression politique en faveur de la modernisation numérique ne cesse de s'intensifier.

Impact France/UE

Les administrations françaises et européennes, contraintes par le RGPD et les exigences de souveraineté des données, trouvent dans les SLM déployables en local une voie concrète pour dépasser le stade pilote et accélérer leur modernisation numérique sans dépendance au cloud.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes
1VentureBeat AI 

Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes

Definity, une startup spécialisée dans la fiabilité des pipelines de données, basée à Chicago, a annoncé mercredi une levée de fonds de 12 millions de dollars en série A, menée par GreatPoint Ventures avec la participation de Dynatrace, StageOne Ventures et Hyde Park Venture Partners. La société a développé une approche radicalement différente de la surveillance des pipelines : plutôt que d'analyser ce qui s'est passé après l'exécution d'un job, elle intègre un agent directement à l'intérieur du moteur Spark ou DBT, pendant que le pipeline tourne. Concrètement, un agent JVM s'installe en une seule ligne de code sous la couche plateforme, capturant en temps réel le comportement des requêtes, la pression mémoire, le déséquilibre des données et les patterns de shuffle. L'agent peut alors intervenir activement : réallouer des ressources à mi-parcours, stopper un job avant que des données corrompues ne se propagent, ou bloquer un pipeline en aval si la table d'entrée en amont est périmée. Un client entreprise a identifié 33 % de ses opportunités d'optimisation dès la première semaine de déploiement, réduit de 70 % l'effort de débogage, et résout désormais les problèmes Spark complexes jusqu'à dix fois plus vite. L'enjeu va bien au-delà de l'efficacité opérationnelle : avec l'essor des systèmes d'IA agentiques, la fiabilité des données en entrée devient critique. Un pipeline qui échoue silencieusement ou livre des données obsolètes ne casse plus seulement un tableau de bord, il compromet l'ensemble du système d'IA qui en dépend. La distinction est fondamentale : la détection et la prévention sont en temps réel, tandis que l'analyse des causes profondes et les recommandations d'optimisation s'effectuent à la demande, avec tout le contexte d'exécution déjà assemblé. L'agent n'ajoute qu'environ une seconde de calcul sur un job d'une heure. Seules les métadonnées transitent à l'extérieur, et un déploiement entièrement on-premises est disponible pour les environnements sensibles. Les outils existants, qu'il s'agisse de Datadog (qui a racheté Metaplane l'an dernier), des system tables Databricks, ou de plateformes comme Unravel Data et Acceldata, lisent tous les métriques une fois le job terminé. Comme le résume Roy Daniel, CEO et co-fondateur de Definity : « Le moment où vous apprenez qu'un problème s'est produit, il s'est déjà produit. » Le marché de l'observabilité des données est en pleine structuration, porté par la multiplication des pipelines complexes et l'exigence croissante des systèmes d'IA en production. Nexxen, plateforme adtech opérant de large pipelines Spark pour la publicité en temps réel, fait partie des premiers clients en production. La participation de Dynatrace au tour de table est notable : l'entreprise, spécialiste de l'observabilité IT, investit ainsi dans une approche concurrente à ses propres capacités de monitoring, signe que la niche de l'exécution inline commence à être prise au sérieux.

UEDynatrace, éditeur autrichien d'observabilité IT coté en bourse, participe au tour de table de Definity, signalant l'intérêt croissant des acteurs européens pour la surveillance inline des pipelines de données critiques aux systèmes d'IA en production.

InfrastructureActu
1 source
Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité
2Meta Engineering ML 

Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité

Meta a dévoilé l'Adaptive Ranking Model (ARM), un nouveau système de recommandation publicitaire fonctionnant à l'échelle des grands modèles de langage (LLM). Déployé sur Instagram au quatrième trimestre 2025, ARM a généré une hausse de 3 % des conversions publicitaires et de 5 % du taux de clics pour les utilisateurs ciblés. Le système atteint une complexité de calcul équivalente à celle des meilleurs LLMs — environ 10 GFLOPs par token — tout en maintenant une latence inférieure à 100 millisecondes, soit un ordre de grandeur plus rapide que l'inférence LLM standard. L'enjeu central qu'ARM résout est ce que Meta appelle le « trilemme de l'inférence » : comment faire tourner des modèles d'une complexité comparable à GPT-4 ou Llama dans un environnement publicitaire temps réel, où chaque requête doit aboutir en moins d'une seconde, pour des milliards d'utilisateurs, sans exploser les coûts d'infrastructure. La solution repose sur un routage intelligent des requêtes : plutôt que d'appliquer le même modèle à chaque impression publicitaire, ARM analyse le contexte et l'intention de l'utilisateur pour décider dynamiquement du niveau de complexité nécessaire. Les requêtes simples consomment peu de ressources ; les requêtes complexes mobilisent toute la puissance du modèle LLM-scale. Ce principe d'alignement dynamique entre complexité et contexte permet de maximiser la qualité des prédictions sans surcharger les serveurs. Trois innovations techniques rendent cela possible. Premièrement, une architecture centrée sur la requête plutôt que sur le modèle, permettant de servir un modèle à un trillion de paramètres (O(1T)) de façon économiquement viable. Deuxièmement, une co-conception modèle-matériel : les architectures sont conçues en tenant compte des contraintes précises du silicium utilisé, ce qui améliore significativement l'utilisation des GPU dans des environnements matériels hétérogènes. Troisièmement, une infrastructure de serving repensée autour d'architectures multi-cartes et d'optimisations bas-niveau spécifiques au hardware. Ce développement s'inscrit dans la course que se livrent les grandes plateformes pour intégrer l'intelligence des LLMs dans leurs systèmes de recommandation — un marché où chaque fraction de point de taux de conversion se traduit en milliards de dollars de revenus publicitaires. Pour Meta, dont plus de 98 % des revenus proviennent de la publicité, ARM représente une avancée structurelle : la preuve qu'il est désormais possible de faire fonctionner des modèles de la taille de ceux utilisés pour les chatbots dans des pipelines industriels ultra-contraints en latence et en coût.

UELes annonceurs européens utilisant Instagram et Facebook bénéficient indirectement d'un ciblage publicitaire amélioré, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

InfrastructureOpinion
1 source
L'entrainement decentralise peut aider a resoudre les problemes energetiques de l'IA
3IEEE Spectrum AI 

L'entrainement decentralise peut aider a resoudre les problemes energetiques de l'IA

L'intelligence artificielle consomme des quantités colossales d'énergie, et cette réalité pousse chercheurs et entreprises à repenser en profondeur la manière dont les modèles sont entraînés. Plutôt que de continuer à concentrer le calcul dans d'immenses centres de données centralisés, une approche émerge : la décentralisation de l'entraînement, qui distribue le travail sur un réseau de nœuds indépendants. Des acteurs comme Nvidia, avec son infrastructure Spectrum-XGS Ethernet conçue pour relier des clusters GPU géographiquement séparés, ou Cisco avec son routeur 8223 destiné à connecter des clusters d'IA dispersés, ont déjà commercialisé des solutions dans ce sens. Plus radical encore, Akash Network propose une place de marché pair-à-pair baptisée "l'Airbnb des centres de données" : des entreprises ou particuliers disposant de GPU sous-utilisés les louent à ceux qui en ont besoin, sans construction d'infrastructure supplémentaire. Sur le plan logiciel, l'apprentissage fédéré permet à plusieurs organisations d'entraîner localement un modèle partagé, en n'échangeant que les poids du modèle avec un serveur central qui les agrège, sans jamais centraliser les données brutes. L'enjeu est considérable : l'entraînement représente l'une des phases les plus énergivores du cycle de vie d'un modèle d'IA, et les émissions carbone liées aux grands modèles de langage ne cessent d'augmenter. La décentralisation offre une réponse concrète en permettant au calcul d'aller là où l'énergie existe déjà, qu'il s'agisse d'un serveur dormant dans un laboratoire de recherche ou d'un ordinateur alimenté par des panneaux solaires. Cela évite de surcharger les réseaux électriques en construisant toujours plus de centres de données, et ouvre la voie à un modèle économique inédit où de petits GPU, jusqu'ici négligés, deviennent des ressources valorisables. Comme le souligne Greg Osuri, cofondateur d'Akash Network, le monde passe progressivement d'une dépendance exclusive aux GPU les plus puissants vers une utilisation combinée de matériels plus modestes mais abondants. Cette évolution s'inscrit dans un contexte où les grandes entreprises technologiques, faute d'avancées matérielles suffisamment rapides pour suivre la croissance des modèles, explorent déjà la mutualisation de plusieurs centres de données. L'approche décentralisée soulève néanmoins des défis techniques sérieux : les échanges constants de poids de modèles génèrent des coûts de communication élevés, et la moindre défaillance d'un nœud peut obliger à recommencer un lot d'entraînement entier. Pour y répondre, des chercheurs de Google DeepMind ont développé DiLoCo, un algorithme d'optimisation à faible communication conçu spécifiquement pour l'entraînement distribué. Les solutions nucléaires envisagées par les géants du secteur restent à plusieurs années de distance ; la décentralisation, elle, est déjà opérationnelle.

UELa décentralisation de l'entraînement pourrait alléger la pression sur les réseaux électriques européens, déjà sous tension face à la prolifération des centres de données.

InfrastructureOpinion
1 source
Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production
4The Decoder 

Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production

Un article de synthèse publié récemment soutient que le véritable goulot d'étranglement dans le développement d'agents IA autonomes n'est pas le modèle de langage lui-même, mais la couche logicielle qui l'entoure. Baptisée "harness", cette infrastructure regroupe les outils externes, la mémoire persistante, les systèmes de test et les mécanismes de contrôle des permissions. C'est elle, selon les auteurs, qui transforme un modèle stateless en agent opérationnel. Le laboratoire chinois Deepseek a déjà tiré les conclusions pratiques de cette thèse en montant à Pékin une équipe dédiée exclusivement au développement du harness, avec une formule qui résume tout : modèle plus harness égal agent IA. Cela repose la question fondamentale de la valeur dans l'écosystème IA. Si le modèle seul ne suffit pas, les entreprises qui maîtrisent l'orchestration logicielle autour du modèle, et non uniquement l'entraînement, détiennent un avantage concurrentiel décisif. Pour les développeurs et les équipes produit, cela signifie que construire des agents performants exige autant d'ingénierie système que de puissance brute en paramètres. Cette vision s'inscrit dans une tendance plus large où les grands laboratoires et startups investissent massivement dans les frameworks agentiques. LangChain, LlamaIndex, ou encore les outils natifs d'Anthropic et OpenAI illustrent cette course à l'infrastructure plutôt qu'au modèle. Le mouvement de Deepseek, qui structure une équipe entière autour du harness plutôt que de simplement scaler les paramètres, pourrait annoncer une réorganisation profonde des priorités dans la course à l'IA agentique.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour