InfrastructureLe Big Data7h

Comment Uber optimise ses millions de trajets et son IA avec Amazon

1 source couvre ce sujet·Source originale ↗·

Uber a annoncé un renforcement significatif de son partenariat avec Amazon Web Services pour optimiser en temps réel la gestion de ses millions de trajets quotidiens à l'échelle mondiale. Au cœur de cette collaboration, deux puces développées par AWS jouent des rôles complémentaires : Graviton4, conçue pour les calculs cloud intensifs, et Trainium3, spécialisée dans l'entraînement de modèles d'intelligence artificielle à partir de volumes massifs de données. Concrètement, Uber migre une part croissante de ses opérations critiques vers ces architectures matérielles, notamment ses Trip Serving Zones, des serveurs chargés de traiter en continu la localisation des chauffeurs, leur disponibilité et le calcul des itinéraires. Rich Geraffo, vice-président d'AWS, a qualifié Uber de l'une des applications en temps réel les plus exigeantes au monde, soulignant l'ampleur du défi technique que représente cette infrastructure.

L'enjeu est considérable : à chaque ouverture de l'application, le système dispose de moins d'une seconde pour attribuer un chauffeur, définir un itinéraire et estimer le délai d'arrivée, et ce pour des millions d'utilisateurs simultanément, sans marge d'erreur même lors des pics de demande. Le passage à Graviton4 permet à Uber d'améliorer sa réactivité, de réduire sa consommation énergétique et de mieux absorber les surcharges de trafic qui peuvent atteindre 2 à 25 fois le niveau normal selon AWS. En parallèle, Trainium3 permet d'affiner les algorithmes d'IA qui analysent des millions de trajets et de livraisons pour améliorer la sélection des chauffeurs, la précision des temps d'arrivée et l'optimisation des options de livraison. Cette montée en puissance technologique vise à maintenir la qualité de service à mesure que les volumes de données traitées augmentent.

Ce partenariat s'inscrit dans une tendance lourde du secteur : les grandes plateformes de mobilité à la demande investissent massivement dans des infrastructures cloud sur mesure pour rester compétitives. Uber, qui opère dans des dizaines de pays et traite des milliards de points de données quotidiens, ne peut plus se contenter d'architectures génériques. Toutefois, plusieurs défis subsistent. La migration vers ces nouvelles puces implique d'adapter des algorithmes complexes, de tester chaque scénario de calcul et d'assurer la compatibilité avec les systèmes existants, ce qui représente un investissement en temps, en expertise et en budget considérable. Par ailleurs, même les architectures les plus robustes peuvent être prises de court par des événements imprévisibles, qu'il s'agisse de pics explosifs lors du Black Friday ou d'incidents de circulation en temps réel. L'IA reste tributaire de la qualité et de la fraîcheur des données disponibles, ce qui constitue une limite structurelle que la puissance matérielle seule ne peut pas résoudre.

À lire aussi

1MIT Technology Review

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Mustafa Suleyman, PDG de Microsoft AI et cofondateur de DeepMind, affirme que le développement de l'intelligence artificielle n'est pas près de plafonner. Depuis ses débuts dans le domaine en 2010, la puissance de calcul consacrée à l'entraînement des grands modèles a été multipliée par mille milliards : on est passé d'environ 10¹⁴ opérations en virgule flottante pour les premiers systèmes à plus de 10²⁶ aujourd'hui. Les puces Nvidia ont vu leurs performances brutes multipliées par huit en six ans, passant de 312 téraflops en 2020 à 2 500 téraflops aujourd'hui. La mémoire à haute bande passante HBM3 triple le débit de données par rapport à sa génération précédente. Des interconnexions comme NVLink et InfiniBand permettent désormais de relier des centaines de milliers de GPU en supercalculateurs de la taille d'un entrepôt. Ce qui prenait 167 minutes sur huit GPU en 2020 prend aujourd'hui moins de quatre minutes sur du matériel moderne, soit une amélioration de 50x là où la loi de Moore n'en prédisait que 5x. Les dépenses des grands laboratoires en infrastructure de calcul croissent à un rythme d'environ 4x par an, et le parc mondial de calcul dédié à l'IA devrait atteindre l'équivalent de 100 millions de puces H100 d'ici 2027. Ces chiffres ont des implications concrètes pour l'industrie : Suleyman estime qu'on pourrait voir encore 1 000x de puissance de calcul effective d'ici fin 2028. Parallèlement, les coûts d'inférence, c'est-à-dire d'utilisation des modèles, se sont effondrés d'un facteur allant jusqu'à 900 sur une base annualisée. L'IA devient donc radicalement moins chère à déployer, ce qui ouvre l'accès à des entreprises et des usages jusqu'ici inaccessibles économiquement. Selon les recherches d'Epoch AI, la quantité de calcul nécessaire pour atteindre un niveau de performance donné est divisée par deux environ tous les huit mois, un rythme bien supérieur aux 18 à 24 mois du cycle classique de Moore. Les sceptiques prédisent régulièrement un essoufflement de la progression, invoquant le ralentissement de la loi de Moore, la raréfaction des données d'entraînement ou les contraintes énergétiques. Suleyman balaie ces arguments en montrant que la dynamique repose sur trois leviers simultanés et indépendants : des puces plus rapides, une mémoire plus efficace, et une mise en réseau massive des GPU. Son propre laboratoire chez Microsoft a lancé en janvier 2026 la puce Maia 200, qui offre selon lui 30 % de meilleures performances par dollar que tout autre matériel de leur flotte. Le tableau qu'il dresse est celui d'une révolution encore en pleine accélération, où les avancées matérielles et logicielles se renforcent mutuellement, une perspective qui tranche avec le pessimisme ambiant sur les limites supposées de l'IA générative.

InfrastructureOpinion

1 source

2ZDNET FR

ZD Tech : brevets 2025, pourquoi l'Europe surprend avec une accélération historique dans l'IA et la 6G

L'Office européen des brevets (OEB) a enregistré en 2025 un record historique avec plus de 200 000 demandes de brevets déposées sur le continent, une première dans son histoire. Cette hausse, portée notamment par les secteurs de l'intelligence artificielle et de l'informatique quantique, traduit une dynamique d'innovation sans précédent en Europe. Les dépôts liés à l'IA ont progressé à un rythme particulièrement soutenu, reflétant la course mondiale aux technologies d'apprentissage automatique et de traitement du langage naturel. Ce chiffre symbolique dépasse la simple statistique : il signale un repositionnement stratégique de l'Europe dans la compétition technologique mondiale, longtemps dominée par les États-Unis et la Chine. Sur le terrain de la 6G et des semi-conducteurs, les inventeurs européens affichent une progression inattendue, deux domaines considérés comme critiques pour la souveraineté numérique et industrielle des prochaines décennies. Ces brevets constituent un actif économique direct, ouvrant la voie à des licences, des partenariats et une capacité de négociation renforcée face aux géants américains et asiatiques. Cette accélération s'inscrit dans le sillage des politiques industrielles engagées par l'Union européenne, notamment le Chips Act européen et les investissements massifs dans la recherche fondamentale via Horizon Europe. La montée en puissance de la 6G survient alors que les standards de la prochaine génération de réseaux mobiles sont encore en cours de définition, offrant à l'Europe une fenêtre d'opportunité pour peser sur les normes internationales avant que le marché ne soit verrouillé par quelques acteurs dominants.

UEL'Europe améliore concrètement sa capacité de négociation sur les standards 6G et les licences de semi-conducteurs, réduisant sa dépendance technologique face aux États-Unis et à la Chine.

InfrastructureOpinion

1 source

3InfoQ AI

Le maintien d'état pour les agents IA : pourquoi les couches de transport deviennent essentielles

Les agents IA reposent sur des boucles multi-tours et des appels d'outils répétés, ce qui transforme la couche de transport en enjeu critique de performance. Dans un article publié par Anirudh Mendiratta, la technique dite de "stateful continuation" est présentée comme une solution concrète : en maintenant l'état de la session côté serveur plutôt que de le retransmettre à chaque requête, il devient possible de réduire le volume de données envoyées par le client de plus de 80 % et d'améliorer les temps d'exécution de 15 à 29 %. Cet impact est loin d'être marginal. Dans les architectures agentiques, chaque tour de boucle implique de renvoyer l'historique complet de la conversation, les sorties d'outils et les instructions système, ce qui génère une surcharge croissante au fil de l'exécution. La continuation avec état élimine cette redondance en permettant au serveur de reprendre là où il s'est arrêté, sans que le client ait à tout recharger. Pour les systèmes à forte fréquence d'appels ou à contextes longs, le gain en latence et en coût de bande passante devient structurellement significatif. Cette problématique émerge directement de la montée en puissance des agents autonomes, qui diffèrent fondamentalement des usages classiques des LLM en accès direct. Là où une requête unique pouvait tolérer un protocole de transport léger, des workflows de plusieurs dizaines de tours exposent des inefficacités jusqu'ici invisibles. Les frameworks d'orchestration comme LangGraph, AutoGen ou les environnements MCP commencent à intégrer ces considérations, et la gestion du contexte côté serveur pourrait devenir un standard de facto pour les déploiements agentiques à grande échelle.

InfrastructureOpinion

1 source

4Next INpact

USA : les chantiers de datacenters butent sur un double mur énergétique

Entre 30 et 50 % des projets de datacenters prévus pour 2026 aux États-Unis accuseront des retards significatifs, selon une enquête de Bloomberg publiée le 1er avril 2026. Le frein principal n'est pas, comme on pourrait le supposer, la pénurie de puces IA ou de mémoire vive, mais bien un goulot d'étranglement à l'étage inférieur : les équipements électriques indispensables à l'alimentation de ces infrastructures, transformateurs, turbines, systèmes de distribution haute tension. Ces composants représentent moins de 10 % du coût total d'un datacenter, mais leur absence suffit à bloquer l'ensemble d'un chantier. La demande est colossale : selon une analyse de Bridgewater Associates de fin février 2026, Google, Amazon, Meta et Microsoft ont planifié à eux seuls 650 milliards de dollars de dépenses d'investissement en infrastructures. À cela s'ajoutent des acteurs comme Oracle, Equinix ou CoreWeave, qui construisent leurs propres centres de données en parallèle. Ce double mur, énergétique d'un côté, industriel de l'autre, crée une situation paradoxale où des centaines de milliards de dollars sont engagés mais ne peuvent se concrétiser faute de câbles, de transformateurs et de turbines disponibles en quantité suffisante. Pour les entreprises clientes comme OpenAI ou Anthropic, dont les besoins de calcul explosent, ces retards de livraison se traduisent directement par des contraintes de capacité. Pour les régions concernées, le problème est aussi structurel : plusieurs zones du territoire américain disposent d'un réseau électrique insuffisamment dimensionné pour absorber de telles charges. Meta a d'ores et déjà réservé 6,6 gigawatts d'énergie nucléaire dont les réacteurs ne seront pas opérationnels avant 2035, signe que les géants tech anticipent une pénurie durable. Face à ces contraintes, les grandes entreprises technologiques cherchent à devenir leurs propres producteurs d'énergie, contournant ainsi les délais de raccordement au réseau public. L'exemple le plus radical est celui de xAI, la société d'Elon Musk, qui a levé 20 milliards de dollars en partie pour financer l'achat de cinq turbines à gaz représentant 2 gigawatts de puissance cumulée, en complément d'installations déjà existantes dont les niveaux d'émission dépassent la réglementation locale. Ce mouvement de verticalisation énergétique illustre une tendance de fond : la course à l'infrastructure IA est désormais autant une question d'approvisionnement électrique que de performance logicielle. Le cabinet Sightline Climate, dont Bloomberg s'appuie sur les données chiffrées, documente une accumulation de retards qui révèle les limites réelles de plans d'investissement présentés comme historiques mais dont l'exécution se heurte à la physique des réseaux et aux délais de l'industrie lourde.

UEL'Europe fait face aux mêmes contraintes de réseau électrique et de délais d'approvisionnement en équipements lourds, risquant de ralentir les projets de datacenters européens pourtant essentiels à la souveraineté numérique de l'UE.

InfrastructureOpinion

1 source