Gemini réfléchit désormais plus profondément (et…

Microsoft a désormais son propre modèle de raisonnement

53

1Next INpact

Microsoft a désormais son propre modèle de raisonnement

Lors de sa conférence BUILD, Microsoft a dévoilé MAI-Thinking-1, son premier modèle de raisonnement maison, marquant une rupture significative dans la stratégie IA de l'entreprise. Ce modèle de type Mixture of Experts (MoE) embarque 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l'équivalent d'environ 600 pages. Sur les benchmarks mathématiques AIME 2025 et 2026, il atteint respectivement 97 % et 94,5 %. Microsoft affirme qu'il égale Claude Opus 4.6 sur SWE-Bench Pro, un benchmark de codage, et qu'il a été préféré à Claude Sonnet 4.6 dans des évaluations indépendantes en aveugle conduites par Surge. CNBC rapporte même une démonstration affichant des résultats supérieurs à GPT-5.5 d'OpenAI, avec un coût dix fois inférieur sur des données McKinsey. Le modèle est actuellement en préversion privée via Microsoft Foundry, intégré à GitHub Copilot Enterprise, avec une version pour Azure Confidential Computing annoncée. La famille MAI s'enrichit également de six autres modèles : MAI-Image-2.5 et sa variante Flash pour la génération d'images (déployés dans PowerPoint et OneDrive), et MAI-Transcribe-1.5, présenté comme le meilleur modèle de transcription au monde. Jusqu'à présent, Microsoft occupait surtout le rôle de distributeur de modèles tiers, OpenAI via Copilot, Anthropic via ses assistants, sans disposer de sa propre capacité de raisonnement avancée. L'émergence de MAI-Thinking-1 change fondamentalement cette donne. Pour les entreprises utilisant Azure et GitHub Copilot Enterprise, cela signifie un accès à un modèle de raisonnement compétitif sans dépendre d'un fournisseur externe. Le fait que Microsoft insiste sur un entraînement "from scratch" à partir de données commercialement licenciées, sans distillation depuis d'autres modèles, est aussi un argument juridique et commercial fort pour les clients soucieux de conformité et de propriété intellectuelle. Ce pivot s'explique par une évolution du paysage des alliances. OpenAI, dans lequel Microsoft a investi plusieurs milliards de dollars, suit désormais sa propre trajectoire de manière nettement plus autonome. Anthropic, de son côté, a considérablement gagné en influence, notamment dans les usages développeurs. Pour Redmond, rester dans une position de simple relais devenait stratégiquement risqué. En développant sa propre gamme MAI, Microsoft affirme une indépendance technologique qui lui permet de négocier différemment avec ses partenaires LLM tout en proposant une offre intégrée de bout en bout. La prochaine étape sera la disponibilité générale du modèle et la publication de sa tarification complète sur les tokens de raisonnement, deux inconnues qui détermineront son adoption réelle face à des concurrents déjà bien établis.

UELes entreprises européennes utilisant Azure ou GitHub Copilot Enterprise pourront accéder à un modèle de raisonnement compétitif entraîné sur données commercialement licenciées, un argument de conformité pertinent face aux exigences de l'AI Act et du RGPD.

💬 Microsoft en simple distributeur d'OpenAI et d'Anthropic, ça ne pouvait pas durer. MAI-Thinking-1, c'est leur sortie de cette dépendance, et vu la trajectoire d'OpenAI ces derniers mois, on comprend le timing. Les benchmarks sont convaincants sur le papier (97% sur AIME, parité avec Claude Opus sur SWE-Bench), mais le vrai test, c'est la tarification complète et la sortie de preview.

LLMsOpinion

1 source

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

51

2Ars Technica AI

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

Google a lancé ce jeudi un nouveau modèle audio baptisé Gemini 3.1 Flash Live, conçu pour les conversations en temps réel. Le déploiement a démarré immédiatement dans certains produits Google, et les développeurs peuvent dès aujourd'hui l'intégrer dans leurs propres applications vocales. Selon Google, ce modèle produit une parole plus naturelle, avec un rythme et une intonation plus proches de ceux d'un humain. Sur les benchmarks publiés par l'entreprise, Gemini 3.1 Flash Live se distingue notamment sur le ComplexFuncBench Audio — test mesurant la capacité à enchaîner des tâches complexes en plusieurs étapes — et domine le classement du Big Bench Audio, une évaluation de raisonnement portant sur 1 000 questions audio. La principale promesse du modèle est de réduire la latence perçue dans les échanges vocaux avec une IA. Les chercheurs s'accordent généralement pour dire que 300 millisecondes représentent le seuil au-delà duquel une conversation commence à paraître artificielle ou laborieuse. Google ne communique pas de chiffre précis à ce sujet, mais affirme que le modèle atteint la vélocité nécessaire à un dialogue fluide. C'est un enjeu concret : une réponse trop lente ou une intonation robotique brise l'immersion et rend les interfaces vocales difficiles à utiliser au quotidien. Pour les développeurs qui construisent des assistants vocaux, des agents téléphoniques ou des outils d'accessibilité, cette amélioration peut significativement changer l'expérience utilisateur finale. La course à la naturalité de la voix synthétique s'intensifie depuis plusieurs années. Après avoir rendu les textes générés par IA de plus en plus difficiles à distinguer de l'écriture humaine, les grands laboratoires s'attaquent désormais à l'audio. OpenAI, ElevenLabs et d'autres acteurs avaient déjà franchi des paliers notables dans ce domaine. Avec Gemini 3.1 Flash Live, Google réaffirme ses ambitions sur ce terrain, où la frontière entre voix humaine et voix machine devient chaque jour plus ténue — ce qui soulève également des questions croissantes sur la transparence et la détection des agents IA dans les interactions quotidiennes.

UELes développeurs européens d'assistants vocaux et d'agents téléphoniques peuvent intégrer Gemini 3.1 Flash Live dès aujourd'hui via l'API Google, ouvrant la voie à des interfaces vocales IA plus naturelles sur le marché européen.

LLMsOpinion

1 source

51

3Le Big Data

Google temporise avec Gemini 3.5 Pro : le lancement aurait été repoussé

Google prendrait plusieurs mois de retard sur le lancement de Gemini 3.5 Pro, son modèle d'intelligence artificielle le plus avancé. Présenté officiellement lors de la conférence Google I/O en mai 2026, ce modèle devait initialement arriver dès le mois de juin. Deux mois plus tard, aucune sortie publique n'a eu lieu. Selon un rapport de Bloomberg publié le 16 juillet 2026 par les journalistes Davey Alba et Julia Love, les résultats obtenus pendant l'entraînement du modèle n'auraient pas satisfait les équipes internes, en particulier sur les tâches liées au codage informatique. Une source proche du dossier évoque des résultats jugés "décevants". Face à ce constat, Google aurait lancé fin juin une nouvelle phase d'entraînement accompagnée d'une mise à jour des données utilisées, revoyant ainsi une partie du développement entre la présentation de mai et la date de lancement initialement prévue. L'entreprise n'a pas confirmé publiquement ces informations, mais a reconnu tester Gemini 3.5 Pro ainsi qu'une version améliorée de Gemini Flash et d'autres modèles auprès de partenaires sélectionnés, sans communiquer de nouvelle date de sortie. Ce retard illustre à quel point le développement logiciel assisté par IA est devenu un terrain de bataille stratégique entre les grands acteurs du secteur. OpenAI multiplie les annonces autour de GPT-5.6, Anthropic avance avec Claude Fable 5, tandis que xAI et Mistral cherchent eux aussi à imposer leurs assistants de codage. Pour Google, l'enjeu est d'autant plus sensible que l'entreprise utilise déjà massivement l'IA en interne : en avril 2026, le PDG Sundar Pichai indiquait que près de 75 % du nouveau code produit par ses équipes était généré avec l'aide de l'IA, contre environ 50 % quelques mois plus tôt. Un lancement raté de Gemini 3.5 Pro sur le codage exposerait donc Google à une contradiction difficile à assumer face à ses concurrents comme face à ses propres usages internes. Ce paradoxe s'explique aussi par une organisation interne encore fragmentée. Plusieurs équipes développent leurs propres outils d'IA pour le code, notamment Google DeepMind, Vertex AI et Android Studio, et l'unification de ces solutions reste un chantier en cours. Certains ingénieurs maison resteraient par ailleurs prudents face à une dépendance excessive au code généré automatiquement. Dans ce contexte, retarder la sortie de Gemini 3.5 Pro peut décevoir les utilisateurs qui l'attendaient depuis mai, mais ce choix vise avant tout à éviter un lancement raté qui aurait fragilisé la position de Google dans la course à l'IA générative appliquée au développement logiciel.

💬 Google temporise avec Gemini 3.5 Pro parce que les résultats sur le codage n'étaient pas au niveau, et ça en dit long : quand un labo repousse son propre modèle phare deux mois après l'avoir présenté sur scène, c'est que le gap avec la concurrence sur le code s'est révélé plus large que prévu en interne. Pichai qui annonce 75% de code généré par IA chez Google, et son propre modèle de référence qui coince sur cette tâche précise, ça fait une drôle de dissonance. Bonne nouvelle quand même : ils testent en vrai avant de sortir un truc à moitié cuit, plutôt que de lâcher un Gemini 3.5 Pro à la Bard.

LLMsActu

1 source

38

4MarkTechPost

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto

1 source

Gemini réfléchit désormais plus profondément (et gratuitement)

À lire aussi

Microsoft a désormais son propre modèle de raisonnement

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

Google temporise avec Gemini 3.5 Pro : le lancement aurait été repoussé

Entraînement, alignement et déploiement des LLM : analyse technique approfondie