Aller au contenu principal
OutilsLe Big Data2h

OpenClaw est le nouveau ChatGPT selon NVIDIA : mais c’est quoi ?

1 source couvre ce sujet·Source originale ↗·
Résumé IA

OpenClaw est un agent IA open source qui, contrairement à ChatGPT, ne répond pas à des questions mais exécute des tâches de manière autonome — navigation web, manipulation de fichiers, exécution de commandes. Jensen Huang (NVIDIA) le compare au lancement de ChatGPT en 2022, y voyant un basculement majeur vers une IA qui agit plutôt que qui discute. Son architecture repose sur un LLM augmenté de modules ("skills") lui permettant d'enchaîner des actions en boucle pour atteindre un objectif donné sans intervention humaine à chaque étape.

Articles similaires

1TechCrunch AI59min

Le PDG de Nothing, Carl Pei, affirme que les applications mobiles vont disparaître au profit des agents IA

Le PDG de Nothing, Carl Pei, prédit que les applications smartphones disparaîtront progressivement, remplacées par des agents IA capables de comprendre les intentions des utilisateurs et d'agir en leur nom.

OutilsOpinion
1 source
2The Decoder1h

Google DeepMind améliore l'API Gemini avec le chaînage multi-outils et la circulation du contexte

Google DeepMind enrichit l'API Gemini avec deux nouvelles capacités majeures : le chaînage d'outils multiples en une seule requête et l'intégration de Google Maps comme source de données. Ces améliorations permettent aux développeurs de construire des pipelines plus complexes et de combiner des informations géographiques directement dans leurs applications.

UELes développeurs et startups européens utilisant l'API Gemini pourront désormais construire des pipelines IA plus complexes intégrant des données géographiques, renforçant leur compétitivité face aux solutions concurrentes.

OutilsOutil
1 source
3MarkTechPost2h

L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres

L'équipe Baidu Qianfan a lancé Qianfan-OCR, un modèle de 4 milliards de paramètres capable d'analyser des documents, détecter la mise en page et extraire du texte en une seule passe, via une architecture vision-langage basée sur Qwen3-4B. Le modèle introduit un mécanisme "Layout-as-Thought" qui génère une représentation structurée de la mise en page avant de produire le résultat final, réduisant la longueur de sortie de 50 %. Sur les principaux benchmarks, il se classe premier parmi les modèles de bout en bout : 93,12 sur OmniDocBench v1.5, 880 sur OCRBench, et 87,9 de score moyen en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B.

OutilsOutil
1 source