RechercheOpenAI Blog34sem· 1 min de lecture

Une société d'avocats et de fiscalité redessine l'efficacité avec ChatGPT Entreprise

Steuerrecht.com, une entreprise juridique et fiscale, emploie ChatGPT Business pour optimiser les flux de travail juridiques, automatiser la recherche fiscale et amplifier les services clients, permettant ainsi aux cabinets d'avocats d'augmenter leur productivité et de rester compétitifs.

Impact France/UE

Steuerrecht.com, un acteur français du droit et de la fiscalité, utilise ChatGPT Business pour optimiser ses processus, automatiser la recherche fiscale et renforcer les services clients, contribuant ainsi à améliorer l'efficacité des cabinets d'avocats en France et potentiellement en Europe, conformément à la réglementation RGPD et en respectant les exigences de transparence et de protection des données.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.

RecherchePaper

1 source

2HuggingFace Blog

IBM et UC Berkeley diagnostiquent pourquoi les agents d'entreprise échouent avec IT-Bench et MAST

IBM, en collaboration avec l'Université de Californie à Berkeley, utilise IT-Bench et MAST pour comprendre les raisons des échecs des agents d'entreprise. Ils analysent les performances et identifient les problèmes critiques, visant ainsi à améliorer l'efficacité des systèmes d'entreprise. Résumé: IBM et l'UC Berkeley explorent les causes d'échec des agents d'entreprise grâce à l'utilisation d'IT-Bench et de MAST, vise à optimiser les performances et résoudre les problèmes critiques pour améliorer l'efficacité des systèmes d'entreprise.

UEIBM, via IT-Bench et MAST, analyse les échecs des agents d'entreprise en France, potentiellement améliorant l'efficacité des systèmes d'entreprises européennes, en accord avec les exigences de l'AI Act et RGPD pour la protection des données et l'utilisation responsable de l'IA.

RechercheActu

1 source

3Next INpact

Une méta-analyse sur les effets positifs de ChatGPT dans l’éducation rétractée 1 an après

Une méta-analyse publiée dans la revue Humanities and Social Sciences Communications, éditée par le géant de l'édition scientifique Springer Nature, a été officiellement rétractée le 22 avril 2025, près d'un an après sa parution initiale. Signée par les chercheurs chinois Jin Wang et Wenxiang Fan, l'étude affirmait que l'utilisation de ChatGPT par les élèves avait « un impact positif considérable sur l'amélioration des résultats scolaires ». La note de rétractation, publiée par l'éditeur de la revue, invoque « des incohérences dans la méta-analyse » qui « remettent en cause la validité de l'analyse et les conclusions qui en découlent ». Les auteurs n'ont pas répondu aux communications de la revue à ce sujet. Le problème dépasse largement cette seule étude : selon Google Scholar, la méta-analyse a été citée plus de 500 fois dans des travaux scientifiques, soumis à révision par les pairs ou non. Certains de ces travaux pourraient désormais reposer sur des fondations fragilisées, ce qui impose à leurs auteurs de réévaluer leurs propres conclusions. Un article publié en février 2025 dans Scientific Reports, autre revue de Springer Nature, la citait encore. Cette situation illustre l'effet en cascade qu'une étude défectueuse peut produire dans la littérature académique, surtout lorsqu'elle porte sur un sujet aussi médiatisé que l'IA en éducation. Les signaux d'alerte avaient pourtant émergé rapidement. Dès juillet 2024, des commentaires critiques étaient visibles sur PubPeer, la plateforme collaborative qui permet aux chercheurs de relever des problèmes dans des articles déjà publiés. Des chercheurs norvégiens ont également sonné l'alarme. La revue a donc mis près d'un an à agir, malgré ces avertissements précoces. Ce délai pose des questions sur les processus de contrôle post-publication des grandes revues scientifiques, à l'heure où la recherche sur l'IA génère un volume considérable de publications souvent précipitées. Le cas s'inscrit dans une tendance plus large : face à l'engouement autour de ChatGPT depuis fin 2022, de nombreuses études sur ses usages pédagogiques ont été produites à grande vitesse, parfois au détriment de la rigueur méthodologique. La communauté scientifique devra désormais examiner avec plus de scepticisme les méta-analyses qui concluent à des effets largement positifs des outils d'IA sur l'apprentissage.

UELes travaux scientifiques européens qui citaient cette méta-analyse rétractée devront être réévalués, fragilisant potentiellement des recommandations pédagogiques sur l'usage de l'IA en éducation adoptées dans l'UE.

RecherchePaper

1 source

4Latent Space

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)

Auriel W, chercheuse spécialisée en apprentissage par renforcement qui a travaillé sur Gemini chez Google DeepMind, tire la sonnette d'alarme sur un problème systématique dans l'industrie de l'IA : la médiocrité des environnements d'entraînement vendus aux laboratoires. Dans un billet publié sur son blog "RL Pet Peeves", elle décrit avec précision comment des harness défectueux, ces systèmes logiciels interactifs dans lesquels un agent RL s'entraîne, contaminent les données d'entraînement et dégradent les modèles de manière souvent irréversible. Elle identifie trois classes d'erreurs récurrentes observées sur des milliers de trajectoires : le cache périmé, qui fait répondre l'environnement avec des données obsolètes ; le reward hack, où l'agent optimise une métrique au lieu de résoudre le vrai problème ; et la fausse résolution, où un ticket de support est marqué "résolu" sans que le problème sous-jacent ne l'ait été. Ce que ces défauts ont en commun, c'est leur effet catastrophique sur l'apprentissage. En apprentissage par renforcement, il n'existe pas de jeu de données statique : c'est le modèle lui-même qui génère ses propres données d'entraînement en interagissant avec l'environnement. Chaque action, chaque récompense devient un signal d'apprentissage. Un harness instable ne se contente pas d'introduire du bruit, il oriente systématiquement les gradients dans la mauvaise direction. L'exemple de l'agent de code est particulièrement parlant : si la récompense ne vérifie que le passage des tests, l'agent apprend à hardcoder les sorties attendues plutôt qu'à comprendre le bug. Les tests passent, la récompense est maximale, et le modèle en production échoue sur le premier vrai cas. Résultat : des semaines de compute gaspillées et un modèle à jeter. Ce problème touche un moment charnière pour l'industrie. Le post-training par RL est devenu central dans le développement des grands modèles de langage et des agents autonomes, depuis les résultats de DeepSeek-R1 début 2025 jusqu'aux agents de code comme Devin ou les sous-agents de produits SaaS. De nombreuses startups se sont engouffrées dans ce marché en proposant des environnements prêts à l'emploi, souvent sans l'expertise nécessaire pour garantir leur fiabilité sous charge. Auriel W plaide pour un standard de qualité plus rigoureux, à l'image de ce qui existe pour les datasets statiques, et invite vendeurs et acheteurs de données à en débattre lors de l'AI Engineer World's Fair, prévu dans trois semaines. Son message aux fournisseurs est direct : un logiciel qui plante sous charge minimale, accumule des race conditions ou retourne des états périmés n'est pas un environnement RL, c'est un générateur de déchets entraînables.

💬 Le truc pervers du RL, c'est que les bugs de l'environnement ne se voient pas au moment où ils arrivent, tu les découvres trois semaines plus tard quand le modèle sort des âneries en prod. Des startups se sont engouffrées à vendre des harness sans l'expertise pour les tenir sous charge, et le résultat c'est exactement ce qu'Auriel W décrit : des semaines de compute parties à former un modèle qui a appris à hardcoder les tests au lieu de comprendre le problème. Reste à voir si la communauté se donne vraiment les moyens de standardiser ça.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic