Aller au contenu principal
OutilsVentureBeat AI1h

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Résumé IASource uniqueImpact UE
Source originale ↗·

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines.

L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici.

Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

Impact France/UE

Les entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Personal Computer : le « Claude Cowork » de Perplexity est enfin accessible à tous
1Le Big Data 

Personal Computer : le « Claude Cowork » de Perplexity est enfin accessible à tous

Perplexity a ouvert au grand public son application Mac, jusqu'ici réservée à un accès limité, en y intégrant une fonctionnalité centrale baptisée Personal Computer. Disponible dès maintenant en téléchargement direct depuis le site de Perplexity (l'App Store n'est pas encore de la partie), l'application embarque les fonctions de base attendues, recherche web, pièces jointes, dictée vocale, mais c'est l'agent autonome Personal Computer qui concentre l'essentiel de l'attention. Ce système s'exécute directement sur le Mac de l'utilisateur, accède aux fichiers locaux, aux applications natives macOS, aux outils connectés et au web, et prend en charge des tâches complexes de manière indépendante. Concrètement, l'utilisateur ouvre ses Notes, appuie sur CMD, formule une instruction, gérer une liste de tâches, réorganiser un dossier, extraire des informations, et l'agent s'en charge sans intervention supplémentaire. Mieux encore, il fonctionne en continu : une tâche lancée depuis un iPhone continuera de s'exécuter sur le Mac à domicile, même en l'absence de l'utilisateur. Pour les professionnels qui jonglent quotidiennement entre dizaines d'applications, de fichiers et de sources d'information, ce type d'agent représente un gain de temps potentiellement significatif. Perplexity positionne Personal Computer comme une couche d'automatisation qui réduit la friction entre l'intention et l'exécution : plutôt que de passer d'un outil à l'autre, l'utilisateur délègue la séquence entière à l'agent. Le fait que le système reste sous contrôle, il ne prend pas de décision critique sans validation, chaque action est réversible, et les validations sont possibles depuis n'importe quel appareil, répond directement aux craintes liées à l'autonomie des IA. Ce design "human-in-the-loop" devient progressivement un standard implicite dans ce segment. Personal Computer n'évolue pas dans un vide concurrentiel. Anthropic propose une fonctionnalité comparable avec Claude Cowork, capable lui aussi de piloter des tâches sur la machine locale de l'utilisateur. Microsoft, Apple et Google poussent leurs propres agents d'automatisation dans leurs systèmes d'exploitation respectifs. Ce que Perplexity tente ici, c'est de s'imposer comme une couche d'intelligence transversale, indépendante de l'écosystème natif, en s'appuyant sur sa réputation dans la recherche augmentée. L'absence sur l'App Store reste un frein à l'adoption grand public, mais elle reflète probablement les contraintes imposées par Apple sur les applications accédant aux fichiers système et aux processus locaux. Les prochains mois diront si Personal Computer parvient à fidéliser au-delà des early adopters ou si la bataille des agents de bureau se gagne surtout sur l'intégration OS native.

💬 L'absence sur l'App Store, c'est le signal qu'on zappe vite. Perplexity essaie de s'intercaler comme couche d'IA transversale là où Apple, Microsoft et Google jouent à domicile avec l'OS sous les pieds. Ce genre de pari se gagne rarement, et leur réputation dans la recherche va devoir peser vraiment lourd pour compenser.

OutilsOutil
1 source
Le « Personal Computer » de Perplexity amène ses agents IA sur le… PC
2Ars Technica AI 

Le « Personal Computer » de Perplexity amène ses agents IA sur le… PC

Perplexity lance "Personal Computer", un agent IA en accès anticipé (sur invitation) qui s'exécute localement sur Mac Mini et donne aux agents un accès direct aux fichiers et applications de l'utilisateur. Contrairement à son homologue cloud "Computer", il permet de compléter des tâches complexes (créer des guides interactifs, produire des podcasts) en manipulant directement l'environnement local, tout en restant accessible à distance depuis n'importe quel appareil. Le concept rappelle l'outil open source OpenClaw, mais dans une version plus soignée avec une interface dockable permettant de suivre plusieurs tâches simultanément.

OutilsOutil
1 source
Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV
3MarkTechPost 

Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV

NVIDIA a publié KVPress, une bibliothèque open source conçue pour compresser le cache clé-valeur (KV cache) des grands modèles de langage et réduire drastiquement leur consommation mémoire lors des inférences sur de longs contextes. Un tutoriel complet publié récemment par des ingénieurs en IA illustre son fonctionnement concret à travers une implémentation pas-à-pas exécutable sur Google Colab. L'exemple s'appuie sur le modèle Qwen2.5-1.5B-Instruct de Qwen, chargé en quantification 4 bits via la bibliothèque BitsAndBytes, et fait appel à la version 0.4.0 de KVPress. Deux stratégies de compression sont comparées : ExpectedAttentionPress, qui estime l'importance des tokens en fonction de l'attention attendue, et KnormPress, qui s'appuie sur la norme des vecteurs K pour éliminer les entrées peu pertinentes. Le pipeline génère un corpus synthétique long, pose des questions ciblées sur ce corpus, puis mesure les écarts de performance et d'empreinte mémoire entre la génération standard et les différentes configurations compressées. L'enjeu est considérable pour l'industrie du traitement du langage naturel. Le KV cache est le principal goulot d'étranglement mémoire lors de l'inférence sur de longs contextes : chaque token généré alimente un cache qui grossit linéairement, rendant les fenêtres de 32 000, 128 000 voire un million de tokens extrêmement coûteuses en VRAM. KVPress permet de ne conserver dans ce cache que les entrées jugées les plus informatives, en supprimant dynamiquement les tokens à faible contribution. Pour les développeurs déployant des applications d'analyse de documents, de recherche d'information ou d'agents conversationnels à mémoire longue, cette compression peut rendre viables des scénarios qui nécessiteraient sinon du matériel de classe A100 ou H100. La possibilité de faire tourner ces expériences sur Colab, avec une simple GPU grand public, illustre bien la baisse de barrière à l'entrée que KVPress ambitionne d'offrir. La gestion du KV cache est devenue l'un des fronts les plus actifs de la recherche en inférence LLM depuis que les fenêtres contextuelles ont explosé en 2023-2024. Des techniques comme Sliding Window Attention, PagedAttention (à la base de vLLM) ou les approches de quantification du cache ont émergé pour répondre à cette pression. NVIDIA, en proposant KVPress comme couche d'abstraction modulaire compatible avec le pipeline Hugging Face Transformers, cherche à standardiser l'accès à ces optimisations pour un public plus large que les seules équipes d'infrastructure. La prochaine étape naturelle sera d'évaluer ces stratégies sur des modèles de plus grande taille et sur des benchmarks de rétention d'information à longue portée, pour quantifier précisément le compromis entre taux de compression et fidélité des réponses dans des cas d'usage de production.

OutilsTuto
1 source
Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face
4MarkTechPost 

Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face

L'équipe de recherche de Perplexity AI a réécrit de zéro son tokeniseur Unigram en Rust et publié le code en open source dans son dépôt pplx-garden, dédié à ses technologies d'inférence. Le résultat est saisissant : à des longueurs d'entrée typiques de production, la nouvelle implémentation divise par 5 la latence médiane (p50) par rapport à la bibliothèque tokenizers de Hugging Face, par 2 par rapport à SentencePiece en C++, et par 1,5 par rapport au tokeniseur IREE en C. En conditions réelles, Perplexity a mesuré une réduction de 5 à 6 fois de l'utilisation CPU dans sa pile d'inférence, et un gain de plusieurs dizaines de millisecondes sur la latence de ses modèles de reranking. La solution atteint zéro allocation sur le tas en régime permanent, ce qui change fondamentalement la courbe de performance à grande échelle. Ce gain n'est pas anecdotique : il révèle un angle mort souvent ignoré de l'inférence LLM. La conversation autour des coûts se concentre presque exclusivement sur les GPU, les caches KV et les noyaux d'attention. Mais des modèles plus compacts, comme les encodeurs d'embeddings, les classifieurs et les modèles de reranking, présentent un profil radicalement différent. Un reranker tel que XLM-RoBERTa, doté d'un vocabulaire Unigram de 250 000 tokens, peut terminer son calcul GPU en quelques millisecondes seulement. La tokenisation côté CPU devient alors le vrai goulot d'étranglement, surtout lorsqu'il faut traiter des centaines de documents par requête. Pour des systèmes à fort trafic comme celui de Perplexity, optimiser cette étape revient à réduire directement les coûts d'infrastructure et la latence perçue par l'utilisateur final. La lenteur de l'implémentation de Hugging Face tenait à trois problèmes structurels : chaque correspondance dans le trie déclenchait une allocation mémoire via String::from_utf8, générant jusqu'à 299 000 allocations pour une entrée de 16 000 tokens ; chaque nœud du trie reposait sur une HashMap entraînant quatre chargements mémoire dépendants par octet ; enfin, les buffers de la table de programmation dynamique étaient réalloués à chaque appel, saturant le cache L2 à mesure que les entrées s'allongent. Perplexity a d'abord validé un portage sans allocation avec la même structure de trie, réduisant déjà la latence de 326 µs à 155 µs, avant d'introduire un Double-Array Trie pour éliminer le coût résiduel du parcours de pointeurs. L'algorithme de Viterbi, introduit en 1967 pour la segmentation probabiliste, reste au cœur du tokeniseur Unigram formalisé par Kudo en 2018 et intégré à SentencePiece. En publiant leur implémentation, Perplexity offre à l'ensemble de l'écosystème open source un composant critique dont les bénéfices dépassent largement leur propre infrastructure.

UELes équipes techniques européennes travaillant avec des tokeniseurs Unigram à grande échelle peuvent intégrer directement cette bibliothèque open source pour réduire la latence et les coûts CPU de leurs pipelines d'inférence.

OutilsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour