LLMsThe Verge AI6sem

Des entreprises d'IA ciblent les acteurs d'improvisation pour entraîner leurs modèles aux émotions humaines

Résumé IASource uniqueImpact UE

Les grandes entreprises d'IA recrutent des acteurs d'improvisation pour entraîner leurs modèles à mieux comprendre et reproduire les émotions humaines. Une offre d'emploi publiée via Handshake — une société spécialisée dans la fourniture de données d'entraînement à OpenAI et d'autres laboratoires — recherche des profils capables de "portraire authentiquement des émotions" et de "rester fidèles à la voix d'un personnage tout au long d'une scène". Les candidats ne monteront pas sur scène : leur talent servira à alimenter des modèles d'intelligence artificielle.

Ce recrutement révèle une évolution majeure dans la stratégie des acteurs de l'IA : après avoir massivement ingéré du texte et des images, les laboratoires cherchent désormais à combler un manque persistant — la nuance émotionnelle et le jeu dramatique. Les modèles actuels peinent encore à simuler des échanges conversationnels crédibles, riches en sous-texte et en variation de ton. Les improvisateurs, formés à réagir spontanément et à incarner des personnages complexes, représentent une source de données particulièrement précieuse pour ce type d'entraînement.

Handshake AI fait partie d'un écosystème en pleine expansion de sociétés spécialisées dans la fourniture de données d'entraînement de niche. Ces entreprises intermédiaires se positionnent entre les talents humains et les grands labos, proposant des missions de plus en plus ciblées — jeu de rôle, expression émotionnelle, simulation de dialogues complexes. Le profil recherché insiste sur la capacité à "rester authentique" et à maintenir une cohérence de personnage, des compétences directement issues de la formation théâtrale à l'improvisation.

Cette tendance soulève des questions sur la rémunération et les droits des artistes sollicités pour enrichir des systèmes commerciaux. Alors que la Screen Actors Guild et d'autres syndicats ont déjà bataillé contre l'utilisation non consentie de performances d'acteurs, ce nouveau marché du "talent émotionnel" à la tâche pourrait raviver les tensions entre la communauté artistique et l'industrie tech.

Dans nos dossiers

OpenAI

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1TechCrunch AI

Mistral mise sur l'IA sur mesure pour concurrencer OpenAI et Anthropic dans l'entreprise

Mistral lance Mistral Forge, une plateforme permettant aux entreprises d'entraîner des modèles d'IA personnalisés à partir de zéro sur leurs propres données. Cette approche se distingue de celle d'OpenAI et Anthropic, qui misent davantage sur le fine-tuning et les méthodes basées sur la récupération d'information. Mistral positionne ainsi cette offre comme une alternative plus flexible et souveraine pour le marché enterprise.

UEMistral, entreprise française, renforce la souveraineté numérique européenne en proposant aux entreprises une alternative locale pour entraîner des modèles IA sur leurs propres données.

LLMsOutil

1 source

2VentureBeat AI

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

Moonshot AI, le laboratoire chinois à l'origine de la famille de modèles Kimi, a lancé Kimi K2.6, un modèle conçu spécifiquement pour les agents à exécution continue. Contrairement aux systèmes concurrents, Moonshot revendique des cas d'usage internes où des agents ont fonctionné en autonomie pendant plusieurs heures, et dans un cas documenté, cinq jours d'affilée, pour gérer de la surveillance d'infrastructure et de la réponse à des incidents. Le modèle est désormais disponible sur Hugging Face, via l'API Kimi, Kimi Code et l'application Kimi. Sa principale nouveauté technique réside dans une version améliorée des "Agent Swarms", capables de coordonner jusqu'à 300 sous-agents exécutant simultanément 4 000 étapes parallèles. À la différence de Claude Code d'Anthropic ou de Codex d'OpenAI, qui s'appuient sur des rôles prédéfinis pour orchestrer leurs agents, K2.6 laisse le modèle lui-même décider de l'orchestration en temps réel. Cette évolution met en lumière une fragilité structurelle dans l'écosystème des agents IA : les frameworks d'orchestration existants ont été conçus pour des agents qui s'exécutent en quelques secondes ou minutes, pas pour des processus qui durent des jours. Maintenir l'état d'un agent sur une longue durée pose des problèmes inédits, car l'environnement dans lequel il opère ne cesse d'évoluer pendant son exécution. L'agent doit appeler des outils, des API et des bases de données différents tout au long de sa vie, ce qu'aucun framework actuel n'a été conçu pour gérer proprement. Mark Lambert, directeur produit chez ArmorCode, souligne que le déficit de gouvernance dépasse déjà le rythme de déploiement : ces systèmes génèrent du code et des changements système plus vite que la plupart des organisations ne peuvent les examiner, corriger ou auditer. La course aux agents longue durée s'inscrit dans une compétition plus large entre fournisseurs de modèles, où la capacité d'orchestration est devenue un avantage concurrentiel à part entière. Anthropic, OpenAI et désormais Moonshot AI expérimentent tous des architectures multi-sessions et d'exécution en arrière-plan, mais aucun n'a encore résolu le problème fondamental : sans mécanisme de rollback clair, un agent autonome qui échoue après plusieurs heures d'exécution peut laisser des systèmes dans un état incohérent. Kunal Anand, directeur produit chez F5, résume le défi : l'industrie est passée des scripts aux services, puis aux agents, mais le saut architectural que représentent les agents à long horizon était loin d'être anticipé par la plupart des entreprises. Le praticien Maxim Saplin l'énonce clairement : l'orchestration reste fragile, et ce n'est pas en affinant les prompts qu'on réglera le problème, mais en repensant à la fois les produits et l'entraînement des modèles.

LLMsOpinion

1 source

3AI News

L'évolution des encodeurs : des modèles simples à l'IA multimodale

Les systèmes d'intelligence artificielle que nous utilisons chaque jour, des moteurs de recherche aux chatbots en passant par la détection de fraude bancaire, reposent tous sur une technologie rarement évoquée : les encodeurs. Ces composants agissent comme des traducteurs, convertissant l'information brute du monde réel (texte, images, sons) en représentations mathématiques que les machines peuvent traiter. Dans les années 1990 et 2000, cette conversion était entièrement manuelle : les développeurs décidaient eux-mêmes comment représenter chaque donnée. Un système de recommandation e-commerce pouvait catégoriser des chaussures de running comme "sport", mais ne pouvait établir de lui-même le lien avec les montres connectées ou les gourdes, sauf si ce lien avait été explicitement programmé. Les machines traitaient des chiffres, pas du sens. Tout a changé avec l'avènement des réseaux de neurones, qui ont permis aux encodeurs d'apprendre à partir des données plutôt que de suivre des règles fixes. Entraîné sur des milliers d'images de chats, un système identifie progressivement les oreilles, les moustaches, la queue, sans qu'aucun ingénieur ne lui ait décrit ces caractéristiques. Appliqué au langage, ce principe a conduit à la représentation des mots sous forme de vecteurs mathématiques capturant leur signification : c'est pourquoi Google comprend aujourd'hui que "vols pas chers" et "billets d'avion économiques" renvoient au même besoin. Une étape supplémentaire a été franchie avec les autoencodeurs, conçus pour comprimer l'information puis la reconstruire, forçant le modèle à identifier l'essentiel. Cette approche est désormais au cœur des systèmes anti-fraude des banques : un encodeur apprend ce qu'est une transaction "normale" et signale automatiquement toute anomalie, comme un achat à l'étranger inhabituellement élevé, sans avoir été programmé pour ce cas précis. La véritable rupture est venue avec les modèles Transformer, apparus à partir de 2017. Contrairement à leurs prédécesseurs qui traitaient l'information séquentiellement, ces architectures analysent la totalité d'une phrase ou d'une image en une seule passe, en pondérant dynamiquement quels éléments sont les plus pertinents. Face à l'ambiguïté de "Elle a vu l'homme avec le télescope", un encodeur Transformer analyse l'ensemble du contexte pour proposer l'interprétation la plus cohérente, là où les anciens modèles échouaient. Ces encodeurs alimentent aujourd'hui les assistants vocaux, les outils de traduction en ligne, les systèmes de recommandation de Netflix ou Spotify. L'étape suivante, déjà engagée dans des modèles comme CLIP ou Gemini, consiste à unifier texte, image, audio et vidéo dans un même espace de représentation : les encodeurs multimodaux, qui permettent à une IA de relier une photo, une description et un son comme le ferait un être humain.

LLMsPaper

1 source

4AWS ML Blog

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova

La startup Artificial Genius, en partenariat avec AWS, propose une architecture de "troisième génération" de modèles de langage qui combine la puissance générative d'Amazon Nova avec une couche déterministe brevetée, éliminant les hallucinations. Contrairement aux LLMs classiques qui génèrent des réponses de manière probabiliste, leur approche utilise le modèle de façon non-générative : le modèle comprend le contexte via interpolation, mais ne génère pas la réponse par prédiction de tokens. Cette solution, entraînée via Amazon SageMaker AI, vise spécifiquement les secteurs réglementés (finance, santé) où la reproductibilité et l'auditabilité des sorties sont des exigences non négociables.

LLMsOutil

1 source