Aller au contenu principal
LLMsVentureBeat AI26min· 2 min de lecture

Le stack de Trunk Tools réduit la révision de documents de 60 à 10 jours en abandonnant les modèles généralistes

Source originale ↗·

Trunk Tools, entreprise de gestion de projets de construction, a réduit son cycle de révision de documents de 60 jours à seulement 10 jours en abandonnant les modèles d'IA généralistes au profit d'une architecture propriétaire en trois couches : perception, sémantique et agents. Sarah Buchner, fondatrice et PDG de Trunk Tools et ancienne charpentière, explique que l'entreprise a entrepris de prendre les données dispersées de multiples systèmes, de les prétraiter, de les structurer via une ontologie dans un graphe de connaissances, puis d'entraîner des modèles d'IA sur cette base. Amrish Kapoor, directeur technique de Trunk, souligne que les documents de construction posent un problème particulier : la plupart des transformeurs sont des modèles probabilistes qui identifient un élément comme "probablement" ceci ou cela, une approche insuffisante pour l'interprétation symbolique de haute précision qu'exigent ces plans, où un symbole de 2 millimètres peut avoir une signification radicalement différente selon son emplacement.

Cette approche pourrait servir de modèle pour d'autres secteurs confrontés au même problème : les modèles génériques, entraînés pour être compétents sur tout, restent faibles sur les données spécialisées. Kriti Faujdar, cheffe de produit senior en infrastructure IA, note que les termes rares, le raisonnement propre à un domaine et le contexte implicite que tout professionnel connaît intuitivement échappent aux modèles généralistes. Le développeur Sébastien De Bollivier ajoute qu'un modèle de type GPT-4 comprend un contrat juridique français mais échoue à citer précisément les articles de loi requis par les praticiens. Par ailleurs, les données les plus précieuses des entreprises n'ont jamais figuré dans les corpus d'entraînement initiaux : elles restent enfermées dans des systèmes internes et des formats propriétaires, ce qui limite l'efficacité du RAG (génération augmentée par récupération), qui ne fait que fournir de meilleurs faits à un modèle incapable de raisonner correctement dans le domaine concerné.

Pour Faujdar, la solution passe par un pré-entraînement sur des données spécifiques au secteur, suivi d'un ajustement fin sur des exemples de tâches réelles et de l'élaboration d'évaluations maison, quelques milliers d'exemples issus de praticiens valant mieux que des millions de données brutes glanées en ligne. Les architectures hybrides combinant un modèle généraliste pour le raisonnement et l'orchestration avec un modèle plus petit et spécialisé pour l'extraction sectorielle représentent une piste prometteuse, tout comme les modèles à mélange d'experts qui permettent une spécialisation sans explosion des coûts d'inférence. Le bâtiment, le droit et la santé sont cités comme les secteurs où ce type de technique gagne le plus de terrain, en raison de l'enjeu élevé des erreurs combiné à des formats de documents standardisés. Un bémol toutefois : ces modèles spécialisés perdent souvent leur efficacité en dehors de leur domaine d'expertise, sauf à être ré-entraînés.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
1The Decoder 

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion
1 source
Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier
2VentureBeat AI 

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels. L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal. Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

LLMsOpinion
1 source
Apple présente la troisième génération de ses modèles de fondation
3Apple Machine Learning 

Apple présente la troisième génération de ses modèles de fondation

Apple a dévoilé la troisième génération de ses Apple Foundation Models (AFM), une famille de cinq modèles d'intelligence artificielle développés en collaboration avec Google. Ces modèles, présentés comme le coeur de la prochaine version d'Apple Intelligence, couvrent un spectre allant des modèles fonctionnant directement sur l'appareil jusqu'aux modèles hébergés sur des serveurs via l'infrastructure Private Cloud Compute. Ils alimenteront notamment une refonte complète de Siri ainsi qu'une série d'outils intelligents intégrés aux systèmes d'exploitation Apple. Ce partenariat avec Google marque un tournant stratégique pour Apple, qui avait jusqu'ici développé ses modèles en interne. L'enjeu est considérable : Apple doit rattraper son retard sur des concurrents comme OpenAI, Google et Microsoft dans la course aux assistants IA natifs. En distribuant le traitement entre l'appareil local et le cloud sécurisé, Apple cherche à offrir des capacités IA avancées sans sacrifier la confidentialité des données, un argument différenciateur central face à des services cloud classiques. Cette annonce s'inscrit dans la stratégie Apple Intelligence lancée en 2024, dont le déploiement progressif avait suscité des critiques sur la lenteur des livraisons. La collaboration avec Google est particulièrement significative : les deux entreprises, habituellement rivales sur les moteurs de recherche et les systèmes mobiles, s'associent ici sur la couche infrastructure IA. La famille de cinq modèles suggère une segmentation fine des cas d'usage, de la compréhension vocale embarquée aux tâches complexes nécessitant de la puissance serveur.

UEL'architecture vie-privée-first d'Apple (traitement local via Private Cloud Compute) s'aligne avec les exigences du RGPD, ce qui pourrait faciliter l'adoption d'Apple Intelligence par les entreprises et institutions européennes soucieuses de la souveraineté des données.

LLMsOpinion
1 source
Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)
4Latent Space 

Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)

Sarah Guo, investisseuse vedette connue pour son fonds Conviction et son positionnement précoce sur des startups comme Cognition, a publié un article remarqué sur son Substack dans lequel elle développe un cadre pour distinguer ce qui peut être reproduit par l'entraînement de ce qui ne le peut pas. Son analyse arrive dans un contexte agité : Anthropic vient de déployer ses modèles Fable et Mythos, accompagnés d'une polémique qui domine le fil Twitter tech depuis le 9 juin 2026. Des chercheurs et développeurs influents, parmi lesquels Nathan Lambert, Martin Casado, Fei-Fei Li, Salvatore Sanfilippo (antirez) et Clement Delangue, accusent Anthropic de dégrader silencieusement les performances de ses modèles sur les prompts liés à la recherche en IA, sans refus explicite ni communication transparente. Par ailleurs, Fable et Mythos embarquent une rétention des prompts et données sur 30 jours, sans option de désactivation dans certaines configurations, ce qui exclut de fait les environnements à zéro rétention et pose des problèmes immédiats de conformité en Europe. L'enjeu central est celui de la confiance. Quand un modèle dégrade ses réponses sans le signaler, il devient impossible de distinguer ce que le modèle sait faire de ce qu'il choisit de faire, ce qui compromet la reproductibilité des résultats et sape la valeur des évaluations internes. Plusieurs praticiens, dont David Bréunig et Omar Sanseviero, en tirent la même conclusion : les APIs frontier doivent être traitées comme des dépendances instables, et les équipes qui ne maintiennent pas une portabilité entre modèles et des harnesses d'évaluation continue prennent un risque stratégique. Sur le plan commercial, la rétention des données à 30 jours sans opt-out exclut immédiatement une partie significative des clients enterprise européens soumis au RGPD. Gergely Orosz et d'autres ont souligné l'opacité des changements de modèle comme vecteur de désengagement. Le cadre de Guo éclaire ces tensions avec précision. Elle distingue les "Model Labs", qui produisent les capacités brutes, des "Agent Labs", dont la valeur réside dans ce qu'elle appelle la "traduction" : l'intégration dans la réalité opérationnelle d'un client, l'outillage spécialisé, la maintenance continue, tout ce qui ne peut pas être répliqué par un simple nouvel entraînement. En 2024, les modèles open source étaient encore largement sous-estimés par l'industrie, une position que le podcast Latent Space défendait ; d'ici 2026, avec des pods consacrés à Cursor et Notion, la dynamique s'est inversée. Anthropic a d'ailleurs intégré FrontierCode comme benchmark officiel pour le lancement de Fable, illustration de la course aux métriques que Guo elle-même relativise : le score le plus cité de l'année, écrit-elle, est une carte d'un territoire sur le point de devenir obsolète. Ce qui reste irréductible, selon elle, c'est l'intention, la capacité à identifier ce qui vaut la peine d'être construit avant que les autres ne le voient, quelque chose qu'aucun modèle ne peut évaluer ni entraîner.

UELa rétention des données à 30 jours sans option de désactivation dans Fable et Mythos exclut de facto les entreprises européennes soumises au RGPD, créant un problème de conformité immédiat pour les équipes utilisant ces modèles en production.

💬 La polémique Anthropic valide exactement le cadre de Guo : quand un modèle dégrade ses réponses en silence, tu ne peux plus distinguer ce qu'il sait faire de ce qu'il refuse de faire, et là tu perds tout. Ajoute la rétention 30 jours sans opt-out, et c'est la moitié de tes clients enterprise européens qui partent chercher ailleurs. Ce qui me frappe, c'est que la valeur différenciante n'est plus dans le modèle lui-même, c'est dans la confiance qu'il inspire, et Anthropic vient de la brûler.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic