Aller au contenu principal
Mesurer les performances de nos modèles sur des tâches réelles
OutilsOpenAI Blog38sem· 1 min de lecture

Mesurer les performances de nos modèles sur des tâches réelles

Source originale ↗·

OpenAI a lancé GDPval, un nouveau système d'évaluation qui mesure les performances des modèles sur des tâches économiquement précieuses dans 44 métiers. Cette approche vise à évaluer l'impact pratique des modèles d'intelligence artificielle dans des contextes réels.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Les entreprises IA à base d'agents : concevoir pour des performances mesurables

Les agents d'intelligence artificielle semi-autonomes capables de gérer des tâches métier complexes en temps réel ne sont plus une promesse lointaine, c'est désormais une réalité opérationnelle pour certaines grandes entreprises. EdgeVerve, filiale d'Infosys spécialisée dans l'automatisation intelligente, a récemment publié un cadre de conception pour déployer ces agents à l'échelle industrielle. L'entreprise cite ses propres déploiements en production : dans un environnement financier réel piloté par un directeur financier, sept agents interconnectés ont généré en un an une amélioration de plus de 3 % des flux de trésorerie mensuels, un gain de productivité de 50 % sur les workflows concernés, un onboarding 90 % plus rapide, et un impact total de 32 millions de dollars sur la trésorerie. En maintenance immobilière, des résultats similaires ont été obtenus grâce à des agents spécialisés dans la coordination des interventions. Ces chiffres illustrent ce qui distingue un pilote réussi d'un projet abandonné : l'ancrage dans des objectifs métier mesurables dès le départ. La méthode préconisée consiste à partir des KPI organisationnels, délai de recouvrement (DSO), taux de conformité, temps moyen de résolution (MTTR), satisfaction client (NPS), pour définir les objectifs des agents, puis seulement choisir les workflows à automatiser. Les "zones grises opérationnelles", ces espaces entre les applications où subsistent encore des validations manuelles, des réconciliations et des transferts humains, représentent le prochain gisement de valeur. C'est là que les agents peuvent éliminer les frictions systémiques sans remplacer intégralement des processus formalisés. Le cadre repose sur quatre piliers : autonomie calibrée selon le niveau de risque (de la simple suggestion à l'exécution avec rollback automatique), gouvernance intégrée dès la conception avec des garde-fous stricts sur les données personnelles et réglementaires, observabilité continue via des évaluations et métriques en temps réel, et flexibilité d'intégration allant bien au-delà des seules API classiques, en incluant les flux événementiels, les connecteurs RAG pour bases documentaires, et des fallbacks RPA là où les API n'existent pas. Le risque central identifié est celui des agents "hallucinant" des actions non vérifiables par l'entreprise, d'où l'insistance sur l'idempotence, les mécanismes de retry et les schémas d'outils standardisés. Dans un contexte où de nombreuses entreprises peinent encore à sortir leurs agents du stade expérimental, ce retour d'expérience chiffré positionne EdgeVerve comme un acteur cherchant à normaliser les déploiements agentiques en environnement critique.

OutilsOutil
1 source
[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
2Next INpact 

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Faire tourner un grand modèle de langage sur sa propre machine est désormais accessible à quiconque dispose d'un ordinateur suffisamment puissant. Des outils comme Ollama permettent d'installer et d'utiliser localement des LLM tels que Mistral, LLaMA ou Qwen, sans connexion internet et sans envoyer la moindre donnée à un serveur tiers. L'article propose un tutoriel pas à pas pour configurer cet environnement en local, accompagné d'un comparatif de performances entre deux configurations : un serveur équipé de 24 cœurs CPU sans GPU, et un autre disposant d'une carte graphique dédiée. Le résultat est sans appel : l'écart de vitesse d'inférence entre les deux setups est énorme, le GPU surclassant massivement le CPU seul pour ce type de charge de travail. L'enjeu central est la confidentialité des données. Utiliser ChatGPT, Claude ou Le Chat implique d'envoyer ses requêtes sur les serveurs d'OpenAI, Anthropic ou Mistral, où elles peuvent potentiellement servir à l'entraînement ou à l'amélioration des modèles. Pour les professionnels manipulant des données sensibles, documents juridiques, médicaux, financiers, code propriétaire, cette dépendance aux infrastructures cloud représente un risque réel. L'exécution locale supprime complètement ce vecteur : le modèle tourne sur la machine de l'utilisateur, les données n'en sortent jamais. C'est aussi une question d'autonomie : pas de quota d'API, pas d'abonnement mensuel, pas de coupure de service. Deux contraintes techniques conditionnent la faisabilité de cette approche. D'abord la mémoire : les poids d'un modèle de 7 milliards de paramètres occupent environ 4 à 8 Go selon le niveau de quantisation, tandis qu'un modèle de 70 milliards en requiert facilement 40 Go ou plus. Ensuite la puissance de calcul : un GPU accélère les opérations matricielles qui constituent le cœur de l'inférence, là où un CPU seul produit des réponses lentes et difficilement utilisables en pratique. Cette architecture locale n'est pas nouvelle, la communauté open source travaille dessus depuis la publication de LLaMA par Meta en 2023, mais elle est devenue beaucoup plus accessible grâce à des outils comme Ollama, LM Studio ou llama.cpp, qui abstraient la complexité technique. L'essor des modèles compacts et quantisés (3B, 7B, 14B paramètres) rend aujourd'hui possible une expérience satisfaisante même sur du matériel grand public, à condition de disposer d'une carte graphique avec suffisamment de VRAM.

UELes professionnels européens soumis au RGPD peuvent éliminer le risque d'envoi de données sensibles vers des serveurs américains en exécutant leurs modèles en local.

OutilsTuto
1 source
Sans Claude Fable 5 : Sakana atteint les performances de pointe avec son système multi-modèles Fugu
3VentureBeat AI 

Sans Claude Fable 5 : Sakana atteint les performances de pointe avec son système multi-modèles Fugu

Sakana AI a lancé Fugu, un système d'orchestration multi-agents accessible via une API compatible OpenAI, conçu pour égaler les performances des modèles d'IA les plus avancés sans dépendre d'un fournisseur unique. Fondée par David Ha, ancien directeur de recherche chez Google Brain, la startup propose deux déclinaisons : Fugu, optimisé pour les tâches courantes à faible latence et intégrable directement dans des environnements de développement comme Codex, et Fugu Ultra, destiné aux travaux complexes tels que la recherche en IA, l'analyse en cybersécurité ou les investigations de brevets, facturé 5 dollars le million de tokens en entrée et 30 dollars en sortie. Le système fonctionne comme un chef d'orchestre : face à une requête, il la décompose en sous-tâches, les délègue à un ensemble de modèles spécialisés, vérifie leurs résultats, puis synthétise la réponse finale. Fugu est lui-même un LLM entraîné à appeler d'autres LLMs, y compris des instances de lui-même de façon récursive, selon les équipes de Sakana. Le lancement intervient dans un contexte précis : le 12 juin 2026, Anthropic a révoqué l'accès public à ses deux modèles les plus puissants, Claude Mythos 5 et Claude Fable 5, sous la pression d'un décret américain de contrôle des exportations. Pour Ha, cet événement illustre un risque systémique majeur pour les entreprises et les gouvernements qui s'appuient sur un seul fournisseur d'IA. "L'accès aux meilleurs modèles peut disparaître du jour au lendemain", a-t-il écrit sur X. Fugu répond à ce problème en s'appuyant sur un pool de modèles entièrement interchangeable, dont la composition exacte reste propriétaire, rendant le système résilient face aux restrictions géopolitiques ou commerciales soudaines. Ce projet s'inscrit dans une tendance plus large qui fait de l'orchestration intelligente de modèles la prochaine frontière de l'IA, au-delà de la seule course à la taille des paramètres. Fugu repose sur deux travaux de recherche publiés par Sakana en 2026, TRINITY et Conductor, qui formalisent des stratégies de coordination apprises plutôt que des workflows codés à la main. En affichant des performances comparables ou supérieures à Fable et Mythos sur des benchmarks d'agents tiers, Sakana cherche à convaincre entreprises et États que la résilience collective vaut mieux que la dépendance à un modèle monolithique. Dans un contexte géopolitique de plus en plus fragmenté, la startup, désormais clairement tournée vers le marché entreprise, pourrait s'imposer comme un acteur clé de l'infrastructure IA critique mondiale.

UELes entreprises et institutions européennes exposées aux restrictions d'exportation américaines sur les modèles IA disposent avec Fugu d'une alternative d'orchestration multi-modèles résiliente, réduisant leur dépendance à un fournisseur unique.

💬 La révocation de l'accès à Fable et Mythos sur décret américain le 12 juin dernier, c'est le genre d'événement qui transforme un argument de vente en argument de survie. Ne jamais dépendre d'un seul fournisseur d'IA pour des usages critiques, c'est désormais moins une recommandation qu'une évidence industrielle. Fugu arrive exactement au bon moment, reste à voir si les perfs en prod tiennent la promesse des benchmarks.

OutilsOpinion
1 source
Nvidia dévoile un système de puces basé sur Groq pour accélérer les tâches d'IA comme le codage
4The Information AI 

Nvidia dévoile un système de puces basé sur Groq pour accélérer les tâches d'IA comme le codage

Nvidia a dévoilé un nouveau système de serveurs IA intégrant la technologie du fabricant de puces Groq, dont la licence a été acquise l'an dernier. Annoncé par le PDG Jensen Huang, ce système vise à rendre les serveurs IA plus économes en énergie et moins coûteux pour des tâches comme la génération de code. Il s'agit de la première fois que Nvidia intègre la technologie d'une autre entreprise dans ses puces.

OutilsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic