Aller au contenu principal
Gemini réfléchit désormais plus profondément (et gratuitement)
LLMsFrandroid2sem· 1 min de lecture

Gemini réfléchit désormais plus profondément (et gratuitement)

Source originale ↗·

Google a mis à jour son assistant Gemini pour y intégrer un paramètre baptisé « Niveau de réflexion », permettant aux utilisateurs d'ajuster la profondeur d'analyse du modèle selon la complexité de leurs requêtes. Initialement réservé aux abonnés payants lors de son lancement, ce réglage est désormais accessible à l'ensemble des utilisateurs, y compris ceux disposant d'un compte gratuit. La fonctionnalité s'appuie sur les capacités de raisonnement étape par étape du modèle Gemini, qui peut ainsi mobiliser davantage de ressources computationnelles pour les questions difficiles.

Cette ouverture au grand public représente un changement notable dans la stratégie de Google : les capacités de raisonnement avancé, jusqu'ici perçues comme un avantage premium, deviennent un outil standard. Pour les utilisateurs, cela signifie pouvoir obtenir des réponses plus rigoureuses sur des problèmes mathématiques, juridiques, techniques ou analytiques, sans débourser un abonnement. Pour l'industrie, c'est un signal fort : la course au raisonnement profond, longtemps réservée aux offres payantes, entre dans une phase de démocratisation.

Cette évolution s'inscrit dans la compétition intense entre les grands laboratoires d'IA. OpenAI avait popularisé le concept avec ses modèles o1 et o3, capables de « penser avant de répondre », forçant Google, Anthropic et d'autres à développer des approches similaires. Gemini Thinking, présenté fin 2024, constitue la réponse de Google à cette tendance. En l'élargissant aux comptes gratuits, Google cherche à élargir sa base d'utilisateurs actifs et à rivaliser plus directement avec ChatGPT sur le terrain de l'accessibilité.

Impact France/UE

Les utilisateurs européens et français peuvent désormais accéder gratuitement aux capacités de raisonnement avancé de Gemini, jusqu'ici réservées aux abonnés payants.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft a désormais son propre modèle de raisonnement
1Next INpact 

Microsoft a désormais son propre modèle de raisonnement

Lors de sa conférence BUILD, Microsoft a dévoilé MAI-Thinking-1, son premier modèle de raisonnement maison, marquant une rupture significative dans la stratégie IA de l'entreprise. Ce modèle de type Mixture of Experts (MoE) embarque 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l'équivalent d'environ 600 pages. Sur les benchmarks mathématiques AIME 2025 et 2026, il atteint respectivement 97 % et 94,5 %. Microsoft affirme qu'il égale Claude Opus 4.6 sur SWE-Bench Pro, un benchmark de codage, et qu'il a été préféré à Claude Sonnet 4.6 dans des évaluations indépendantes en aveugle conduites par Surge. CNBC rapporte même une démonstration affichant des résultats supérieurs à GPT-5.5 d'OpenAI, avec un coût dix fois inférieur sur des données McKinsey. Le modèle est actuellement en préversion privée via Microsoft Foundry, intégré à GitHub Copilot Enterprise, avec une version pour Azure Confidential Computing annoncée. La famille MAI s'enrichit également de six autres modèles : MAI-Image-2.5 et sa variante Flash pour la génération d'images (déployés dans PowerPoint et OneDrive), et MAI-Transcribe-1.5, présenté comme le meilleur modèle de transcription au monde. Jusqu'à présent, Microsoft occupait surtout le rôle de distributeur de modèles tiers, OpenAI via Copilot, Anthropic via ses assistants, sans disposer de sa propre capacité de raisonnement avancée. L'émergence de MAI-Thinking-1 change fondamentalement cette donne. Pour les entreprises utilisant Azure et GitHub Copilot Enterprise, cela signifie un accès à un modèle de raisonnement compétitif sans dépendre d'un fournisseur externe. Le fait que Microsoft insiste sur un entraînement "from scratch" à partir de données commercialement licenciées, sans distillation depuis d'autres modèles, est aussi un argument juridique et commercial fort pour les clients soucieux de conformité et de propriété intellectuelle. Ce pivot s'explique par une évolution du paysage des alliances. OpenAI, dans lequel Microsoft a investi plusieurs milliards de dollars, suit désormais sa propre trajectoire de manière nettement plus autonome. Anthropic, de son côté, a considérablement gagné en influence, notamment dans les usages développeurs. Pour Redmond, rester dans une position de simple relais devenait stratégiquement risqué. En développant sa propre gamme MAI, Microsoft affirme une indépendance technologique qui lui permet de négocier différemment avec ses partenaires LLM tout en proposant une offre intégrée de bout en bout. La prochaine étape sera la disponibilité générale du modèle et la publication de sa tarification complète sur les tokens de raisonnement, deux inconnues qui détermineront son adoption réelle face à des concurrents déjà bien établis.

UELes entreprises européennes utilisant Azure ou GitHub Copilot Enterprise pourront accéder à un modèle de raisonnement compétitif entraîné sur données commercialement licenciées, un argument de conformité pertinent face aux exigences de l'AI Act et du RGPD.

💬 Microsoft en simple distributeur d'OpenAI et d'Anthropic, ça ne pouvait pas durer. MAI-Thinking-1, c'est leur sortie de cette dépendance, et vu la trajectoire d'OpenAI ces derniers mois, on comprend le timing. Les benchmarks sont convaincants sur le papier (97% sur AIME, parité avec Claude Opus sur SWE-Bench), mais le vrai test, c'est la tarification complète et la sortie de preview.

LLMsOpinion
1 source
Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot
2Ars Technica AI 

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

Google a lancé ce jeudi un nouveau modèle audio baptisé Gemini 3.1 Flash Live, conçu pour les conversations en temps réel. Le déploiement a démarré immédiatement dans certains produits Google, et les développeurs peuvent dès aujourd'hui l'intégrer dans leurs propres applications vocales. Selon Google, ce modèle produit une parole plus naturelle, avec un rythme et une intonation plus proches de ceux d'un humain. Sur les benchmarks publiés par l'entreprise, Gemini 3.1 Flash Live se distingue notamment sur le ComplexFuncBench Audio — test mesurant la capacité à enchaîner des tâches complexes en plusieurs étapes — et domine le classement du Big Bench Audio, une évaluation de raisonnement portant sur 1 000 questions audio. La principale promesse du modèle est de réduire la latence perçue dans les échanges vocaux avec une IA. Les chercheurs s'accordent généralement pour dire que 300 millisecondes représentent le seuil au-delà duquel une conversation commence à paraître artificielle ou laborieuse. Google ne communique pas de chiffre précis à ce sujet, mais affirme que le modèle atteint la vélocité nécessaire à un dialogue fluide. C'est un enjeu concret : une réponse trop lente ou une intonation robotique brise l'immersion et rend les interfaces vocales difficiles à utiliser au quotidien. Pour les développeurs qui construisent des assistants vocaux, des agents téléphoniques ou des outils d'accessibilité, cette amélioration peut significativement changer l'expérience utilisateur finale. La course à la naturalité de la voix synthétique s'intensifie depuis plusieurs années. Après avoir rendu les textes générés par IA de plus en plus difficiles à distinguer de l'écriture humaine, les grands laboratoires s'attaquent désormais à l'audio. OpenAI, ElevenLabs et d'autres acteurs avaient déjà franchi des paliers notables dans ce domaine. Avec Gemini 3.1 Flash Live, Google réaffirme ses ambitions sur ce terrain, où la frontière entre voix humaine et voix machine devient chaque jour plus ténue — ce qui soulève également des questions croissantes sur la transparence et la détection des agents IA dans les interactions quotidiennes.

UELes développeurs européens d'assistants vocaux et d'agents téléphoniques peuvent intégrer Gemini 3.1 Flash Live dès aujourd'hui via l'API Google, ouvrant la voie à des interfaces vocales IA plus naturelles sur le marché européen.

LLMsOpinion
1 source
3MarkTechPost 

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto
1 source
Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable
4DeepMind Blog 

Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable

Google a annoncé Gemini 3.1 Flash Live, son dernier modèle vocal en temps réel, conçu pour rendre les interactions audio avec l'IA plus fluides, plus naturelles et plus fiables. Ce nouveau modèle se distingue par une précision améliorée et une latence réduite par rapport à ses prédécesseurs, deux paramètres critiques pour la qualité des conversations vocales automatisées. Ces améliorations ont un impact direct pour les développeurs qui intègrent des fonctionnalités vocales dans leurs applications, ainsi que pour les utilisateurs finaux qui interagissent avec des assistants conversationnels. Une latence plus basse signifie des échanges moins saccadés, tandis qu'une meilleure précision réduit les erreurs de compréhension — des points de friction majeurs qui freinent l'adoption de l'IA vocale dans les usages quotidiens et professionnels. La course aux modèles vocaux temps réel s'est intensifiée depuis que OpenAI a lancé le mode vocal avancé de GPT-4o et que des acteurs comme ElevenLabs ou Cartesia ont multiplié les solutions de synthèse et compréhension audio à faible latence. Google positionne ainsi la famille Flash — ses modèles rapides et économiques — comme une option compétitive pour les cas d'usage nécessitant des interactions vocales en continu, comme les agents téléphoniques, les assistants embarqués ou les interfaces conversationnelles en temps réel.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic