Aller au contenu principal

Dossier Gemini — page 7

585 articles · page 7 sur 12

Gemini, la famille de modèles de Google DeepMind : sorties Flash et Pro, intégration Apple/Siri, agents Robotics ER, capacités vocales temps réel.

3 leviers méconnus pour s’imposer dans les agents IA grâce au GEO
301FrenchWeb OutilsOutil

3 leviers méconnus pour s’imposer dans les agents IA grâce au GEO

La montée en puissance des assistants IA comme ChatGPT, Gemini et Perplexity redessine profondément les règles de la visibilité en ligne. Face à ces nouveaux moteurs de réponse, le référencement classique ne suffit plus : les entreprises doivent désormais optimiser leur présence pour être citées directement par des systèmes qui synthétisent l'information et répondent sans renvoyer vers les sources. C'est dans ce contexte qu'Emmanuel de Vauxmoret, expert inscrit à la cour d'appel de Paris, identifie trois leviers encore méconnus du GEO, le Generative Engine Optimization, pour s'imposer dans les réponses générées par l'IA. Cette évolution change concrètement la donne pour les équipes marketing et SEO : là où Google renvoyait du trafic vers les sites, les agents IA absorbent l'information et la restituent directement à l'utilisateur. Être ignoré par ces systèmes, c'est devenir invisible pour une part croissante du public, notamment les professionnels qui s'appuient quotidiennement sur ces outils pour s'informer et prendre des décisions. Le GEO s'inscrit dans une transformation plus large des habitudes de recherche, accélérée par l'explosion de l'usage des LLM grand public depuis 2023. Les entreprises qui maîtrisent tôt ces nouvelles règles de citation, structurer l'information de façon factuelle, construire une autorité thématique cohérente, et produire du contenu facilement synthétisable, disposent d'un avantage concurrentiel réel avant que la discipline ne se standardise.

UELes équipes marketing et SEO des entreprises françaises et européennes doivent adapter leur stratégie de contenu pour maintenir leur visibilité face aux assistants IA qui absorbent le trafic informationnel sans renvoyer vers les sources.

1 source
OpenAI triple son chiffre d'affaires à 5,7 milliards de dollars au premier trimestre, mais dépense 3,7 milliards pour y parvenir
302The Decoder 

OpenAI triple son chiffre d'affaires à 5,7 milliards de dollars au premier trimestre, mais dépense 3,7 milliards pour y parvenir

Au premier trimestre 2026, OpenAI a enregistré 5,7 milliards de dollars de revenus, soit un triplement en glissement annuel. Dans le même temps, la société a brûlé environ 3,7 milliards de dollars de trésorerie sur la même période, là aussi trois fois plus qu'un an auparavant. La rémunération en actions des employés représente à elle seule plus de 2,3 milliards de dollars de ces dépenses, révélant l'ampleur des engagements salariaux contractés pour attirer et retenir les meilleurs talents de l'IA. Ces chiffres illustrent un paradoxe frappant : OpenAI croît à une vitesse rare dans l'histoire de la tech, mais ses coûts s'emballent au même rythme que ses revenus. Avec 73 milliards de dollars de réserves, l'entreprise n'a pas besoin de lever des fonds à court terme. Mais la rentabilité reste hors de portée, et la moindre pression supplémentaire sur les prix pourrait fragiliser cette position confortable. Une guerre tarifaire avec Anthropic, dont les modèles Claude gagnent du terrain auprès des entreprises, pourrait contraindre OpenAI à rogner ses marges et à consumer ses réserves bien plus vite que prévu. OpenAI a réalisé sa dernière grande levée de fonds début 2025, à une valorisation de 157 milliards de dollars, puis a amorcé une transformation en société à but lucratif. La concurrence s'est depuis intensifiée : Anthropic, Google avec Gemini, et Meta avec ses modèles open source exercent une pression croissante. Le modèle économique de l'IA générative repose toujours sur des coûts d'inférence et d'entraînement colossaux, et aucun acteur majeur n'a encore démontré qu'il pouvait scaler sans perdre de l'argent à grande échelle.

UELes entreprises européennes dépendantes des APIs OpenAI ou Anthropic pourraient subir une compression des prix en cas de guerre tarifaire entre ces acteurs, mais l'impact direct sur la France ou l'UE reste indirect à ce stade.

💬 Joli triplement du CA, sauf que les dépenses ont triplé aussi, et ça, tu le lis moins souvent dans les titres. OpenAI n'a toujours pas trouvé le palier où la croissance comprime les coûts, et j'imagine mal comment ils tiennent si Anthropic ou Google décident de casser les prix pour gagner des parts. Personne dans ce secteur n'a encore prouvé qu'on peut scaler l'IA sans saigner.

BusinessOpinion
1 source
Google Cloud automatise les opérations de planification urbaine avec l'IA générative
303AI News 

Google Cloud automatise les opérations de planification urbaine avec l'IA générative

Le gouvernement britannique a déployé deux outils d'intelligence artificielle développés avec Google Cloud pour automatiser le traitement des demandes de permis de construire dans l'ensemble des collectivités locales d'Angleterre. Le ministère du Logement, des Communautés et des Gouvernements Locaux (MHCLG) et le département pour la Science, l'Innovation et la Technologie (DSIT) ont annoncé ces déploiements lors du Google Cloud Summit London. L'outil "Extract", construit en interne par des ingénieurs gouvernementaux à l'aide des modèles Gemini de Google DeepMind, a été étendu à toutes les collectivités anglaises après des essais dans plus de 20 autorités locales. Un second système baptisé "Augmented Planning Decisions" (APD) est quant à lui encore en phase de prototype. Extract analyse des milliers de pages de documents PDF historiques non structurés et les convertit en bases de données numériques exploitables en quelques minutes, éliminant environ 255 heures de saisie manuelle par collectivité et par an. L'enjeu est considérable : les demandes de particuliers, comme les extensions ou les conversions de combles, représentent près de 70 % des dossiers de permis déposés chaque année au Royaume-Uni. Chacune nécessite que les agents d'urbanisme passent des heures à croiser des documents réglementaires régionaux, des archives historiques et des fichiers PDF épars. Cette surcharge administrative retarde directement les grands projets d'infrastructure et de développement commercial. L'objectif affiché du gouvernement est de réduire de 50 % les délais de décision sur ces dossiers courants, libérant ainsi du temps pour les projets les plus complexes. Le système APD va plus loin : il pré-traite les dossiers entrants, identifie les lacunes d'information, extrait les données géographiques, évalue la conformité aux règles d'urbanisme nationales et locales, et synthétise les observations du public en signalant les objections ou précédents juridiques pertinents. Ces déploiements s'inscrivent dans la stratégie britannique visant à construire 1,5 million de logements neufs d'ici 2029, un objectif que les engorgements administratifs des collectivités locales compromettaient sérieusement. Pour garantir la sécurité des données civiques sensibles traitées par ces outils, le gouvernement a hébergé les modèles Gemini sur l'infrastructure Google Cloud dans un environnement cloisonné, avec des contrôles actifs contre les attaques par injection de prompts et des protocoles stricts de souveraineté des données. Lila Ibrahim, directrice de la préparation à l'IA chez Google DeepMind, a souligné que ces outils ont été "co-créés directement avec les collectivités pour résoudre de vrais goulets d'étranglement". Cette initiative pourrait servir de modèle à d'autres pays cherchant à moderniser leurs administrations publiques via l'IA générative, dans un contexte où la pression sur le logement et la bureaucratie ralentissent les décisions dans de nombreuses démocraties européennes.

UECe déploiement britannique pourrait inspirer des initiatives similaires dans les collectivités locales françaises et européennes confrontées aux mêmes engorgements administratifs dans le traitement des permis de construire.

💬 255 heures de saisie par collectivité économisées, c'est modeste sur le papier, mais multiplié par toutes les mairies d'Angleterre, c'est là que les 1,5 million de logements promis deviennent moins irréalistes. Ce que Google et le gouvernement britannique ont compris, c'est que l'IA n'a pas besoin de remplacer l'urbaniste pour débloquer le système, il suffit qu'elle digère les PDF à sa place. La France a exactement les mêmes boulets.

OutilsOutil
1 source
HSBC et Google Cloud scellent un partenariat pour l’IA bancaire
304Le Big Data 

HSBC et Google Cloud scellent un partenariat pour l’IA bancaire

HSBC et Google Cloud ont annoncé le 17 juin 2026, lors du Google Cloud Summit de Londres, un partenariat pluriannuel destiné à accélérer le déploiement de l'intelligence artificielle dans l'ensemble des activités du groupe bancaire britannique. L'accord prévoit le déploiement de plus de 200 nouveaux cas d'usage de l'IA en deux ans, en s'appuyant sur les modèles Gemini et la plateforme Gemini Enterprise Agent de Google DeepMind. HSBC héberge déjà plus de 600 applications sur Google Cloud et identifie parmi ses projets prioritaires plusieurs initiatives susceptibles de générer chacune plus de 100 millions de dollars de revenus supplémentaires ou de gains d'efficacité. La collaboration impliquera les équipes d'ingénierie de Google Cloud et de Google DeepMind pour co-développer des outils sur mesure adaptés aux contraintes du secteur financier. Ce partenariat marque un tournant dans la maturité de l'IA bancaire : les investissements ne sont plus justifiés par l'innovation en tant que telle, mais par leur impact mesurable sur la performance opérationnelle et financière. Les trois axes stratégiques annoncés illustrent cette logique. D'abord, la gestion de patrimoine hyper-personnalisée, qui permettra à des milliers de conseillers financiers de proposer des recommandations contextualisées en temps réel, répondant aux attentes de clients habitués aux standards des grandes plateformes numériques. Ensuite, la lutte contre la criminalité financière : HSBC traite près d'un milliard de transactions par mois et estime pouvoir intervenir deux fois plus rapidement après détection d'un risque grâce aux systèmes agentiques, réduisant ainsi les pertes potentielles tout en renforçant la conformité réglementaire. Enfin, des assistants décisionnels internes visent à améliorer l'efficacité opérationnelle des équipes à l'échelle mondiale. Ce rapprochement s'inscrit dans une tendance lourde qui voit les grandes banques mondiales nouer des alliances stratégiques avec les hyperscalers pour ne pas être distancées par des concurrents plus agiles. Google Cloud, qui multiplie les partenariats dans la finance, positionne Gemini comme la colonne vertébrale des systèmes bancaires de prochaine génération. Pour HSBC, déjà engagé dans une transformation numérique de grande ampleur depuis plusieurs années, ce partenariat représente une montée en puissance significative après une phase d'expérimentation. La banque affirme vouloir conserver l'expertise humaine au cœur de la décision, un positionnement qui répond autant aux exigences réglementaires des marchés où elle opère qu'aux attentes de ses clients institutionnels et privés. Les prochains mois permettront de vérifier si ces ambitions se traduisent en déploiements concrets à l'échelle annoncée.

UEHSBC dispose d'opérations bancaires significatives en France et dans l'UE ; ce partenariat accélère la transformation IA d'un acteur systémique mondial présent sur les marchés européens et exerce une pression concurrentielle sur les grandes banques de la zone euro pour qu'elles accélèrent leur propre feuille de route IA.

BusinessOpinion
1 source
DXC et Anthropic apportent l’IA aux systèmes critiques d’entreprise
305Le Big Data 

DXC et Anthropic apportent l’IA aux systèmes critiques d’entreprise

DXC Technology et Anthropic ont annoncé le 11 juin 2026 une alliance mondiale pluriannuelle visant à déployer l'IA générative Claude au coeur des systèmes critiques des grandes entreprises et administrations publiques. DXC, présent dans plus de 70 pays et fort de 115 000 collaborateurs, gère depuis plusieurs décennies des infrastructures technologiques pour des banques, assureurs, compagnies aériennes et gouvernements. Dans ce cadre, DXC rejoint le réseau d'Anthropic en tant que "Global Premier Claude Partner". Le partenariat repose sur une approche déjà éprouvée en interne: en avril 2026, DXC a lancé OASIS, une plateforme d'orchestration native IA dans laquelle Claude est désormais le modèle par défaut pour automatiser les flux de travail informatique. La société affirme que plus de 95% du code d'OASIS a été généré avec l'aide de Claude, avant validation par des ingénieurs, ce qui aurait permis de multiplier par dix la vitesse de développement logiciel. La plateforme est déjà déployée chez plus de 50 clients, et DXC prévoit de former des dizaines de milliers d'ingénieurs certifiés via l'Anthropic Academy pour les intégrer directement chez les clients. L'enjeu central de ce partenariat est de faire entrer l'IA générative dans des environnements où la tolérance aux erreurs est quasi nulle. Pour les secteurs bancaire, assurantiel ou aérien, intégrer Claude dans des opérations critiques impose des niveaux très élevés de sécurité, de conformité réglementaire et de disponibilité continue. La promesse d'une accélération par dix du cycle de développement logiciel est particulièrement significative pour les grandes organisations cherchant à moderniser leurs systèmes historiques sans exploser les coûts ni étirer indéfiniment les cycles de transformation. Pour Anthropic, DXC représente surtout un canal de distribution massif vers des clients enterprise que les approches commerciales directes atteignent difficilement. Quatre domaines prioritaires ont été identifiés: l'assurance, avec la modernisation des systèmes centraux et le développement d'agents spécialisés; la modernisation applicative, pour analyser et refactoriser des bases de code historiques; la cybersécurité, avec un sous-agent Claude intégré aux centres d'opérations de sécurité; et la gestion des infrastructures IT. Cette alliance s'inscrit dans une tendance structurelle plus large: les grands acteurs des services informatiques, d'Accenture à IBM en passant par Capgemini, cherchent tous à s'adosser aux laboratoires d'IA pour proposer des offres packagées aux décideurs des grandes organisations. Anthropic, qui a levé plusieurs milliards de dollars ces dernières années dans un contexte de concurrence intense avec OpenAI et Google, accélère ainsi sa stratégie de diffusion via des partenaires disposant d'un accès privilégié aux marchés réglementés. OASIS devrait être déployé à plus grande échelle dans les mois à venir.

UEDXC Technology étant actif dans plus de 70 pays dont la France, ce partenariat avec Anthropic pourrait accélérer le déploiement de Claude dans les banques, assureurs et administrations publiques françaises et européennes qui s'appuient sur les services DXC.

BusinessOpinion
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
306arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

RechercheOpinion
1 source
NotebookLM de Google intègre désormais un ordinateur cloud avec exécution de code et recherche à base d'agents
307The Decoder 

NotebookLM de Google intègre désormais un ordinateur cloud avec exécution de code et recherche à base d'agents

Google a annoncé une mise à jour majeure de NotebookLM, son outil de recherche et de synthèse documentaire. La nouvelle version tourne désormais sur Gemini 2.5 Flash et dispose d'un ordinateur cloud dédié capable d'exécuter du code directement depuis l'interface. Plus significatif encore, NotebookLM peut désormais trouver ses propres sources de manière autonome via Google Search, sans que l'utilisateur ait à importer manuellement des documents. Lors des tests internes, le nouveau système a surpassé l'ancienne version dans 78,2 % des cas. Ces évolutions transforment NotebookLM d'un simple outil d'analyse documentaire en un véritable agent de recherche autonome. La capacité d'exécution de code ouvre la voie à des analyses de données directement dans l'outil, sans passer par un environnement externe. L'intégration native à Google Search signifie que les utilisateurs n'ont plus besoin de sélectionner manuellement leurs sources : l'outil explore le web et construit lui-même sa base documentaire. Pour les chercheurs, journalistes, consultants ou étudiants, cela réduit considérablement le temps de préparation avant d'obtenir une synthèse exploitable. NotebookLM avait été lancé par Google en 2023 comme outil expérimental de prise de notes augmentée par l'IA, avant de connaître un succès inattendu, notamment grâce à sa fonctionnalité de podcast audio généré automatiquement. Cette montée en puissance vers l'agentique s'inscrit dans la tendance générale des grands acteurs de l'IA à doter leurs outils de capacités d'action autonome. Google positionne ainsi NotebookLM comme un concurrent direct des assistants de recherche comme Perplexity ou les modes "deep research" de ChatGPT et Gemini Advanced.

UELes professionnels et chercheurs en France et en Europe gagnent accès à un agent de recherche autonome capable d'explorer le web et d'exécuter du code, réduisant significativement le temps de préparation documentaire.

OutilsOutil
1 source
Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch
308The Information AI 

Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch

Meta envisage de lancer un abonnement premium à 199,99 dollars par mois pour son futur agent d'IA grand public, baptisé Hatch en interne. L'information provient de documents internes consultés par The Information ainsi que d'une source proche du dossier. La tarification serait structurée par paliers, le niveau supérieur offrant des limites d'utilisation plus élevées. Les décisions finales sur les prix n'ont pas encore été arrêtées. Un tel positionnement tarifaire placerait Meta en concurrence directe avec les offres haut de gamme des leaders du secteur comme OpenAI, dont le plan ChatGPT Pro est facturé 200 dollars par mois, ou Google avec ses abonnements Gemini Advanced. Pour Meta, dont l'IA grand public a jusqu'ici été proposée gratuitement via ses applications, ce serait un tournant stratégique majeur : la monétisation directe des capacités agentiques représente un levier de revenus entièrement nouveau, distinct de son modèle publicitaire habituel. La course aux agents IA s'est considérablement accélérée en 2025 et 2026, avec l'ensemble des grandes plateformes technologiques cherchant à transformer leurs assistants conversationnels en outils capables d'agir de manière autonome, navigation web, exécution de tâches, gestion de fichiers. Meta, qui a jusqu'ici misé sur l'open source avec sa famille de modèles Llama, semble vouloir occuper le segment premium du marché grand public. Le lancement de Hatch et sa tarification définitive restent à confirmer.

UESi Hatch est lancé en Europe, il sera soumis à l'AI Act (classification agent IA à risque) et au RGPD pour la gestion des données des millions d'utilisateurs français et européens de Meta.

BusinessActu
1 source
Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
309VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
310MarkTechPost 

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu
1 source
Les agents IA ne sont pas freinés par les modèles, mais par les permissions
311VentureBeat AI 

Les agents IA ne sont pas freinés par les modèles, mais par les permissions

Les agents d'intelligence artificielle déployés en entreprise se heurtent moins à des limites de performance qu'à un problème de gouvernance : qui a le droit de faire quoi, au nom de qui, et comment le système peut-il en être certain ? C'est autour de cette question que Workday a construit Sana, son système de référence pour les agents IA, lancé en mars dernier. Gerrit Kazmaier, président produit et technologie de Workday, l'a confirmé dans un entretien à VentureBeat : les entreprises qui tentent de construire leurs propres solutions en accédant directement aux données brutes perdent la richesse du modèle de sécurité existant, et obtiennent des résultats trop larges, mal ciblés. En parallèle, Workday a élargi son partenariat avec Google pour intégrer Sana à Gemini Enterprise, rendant ainsi les agents construits sur cette infrastructure découvrables depuis l'écosystème Google. L'enjeu est particulièrement critique dans les domaines des ressources humaines et de la finance, où "presque juste n'est pas acceptable", selon Kazmaier. Un bulletin de salaire mal calculé, un entretien mal planifié ou une clôture comptable erronée ont des conséquences immédiates et souvent irréversibles, contrairement à la plupart des sorties d'IA générative, ces erreurs n'ont pas de boucle de correction. Workday a répondu à ce défi en construisant Gemini comme couche de raisonnement de base, puis en superposant son moteur de contexte métier et sa logique de processus. Des modèles de vérification et de classification "interrogent" les résultats avant toute exécution. Concrètement, l'agent Sana Self-Service utilise Gemini comme interface conversationnelle pour déclencher un flux de travail, mais l'utilisateur est ensuite authentifié et autorisé via le modèle d'identité Workday. L'agent n'agit qu'au nom de cet utilisateur précis, dans le périmètre exact de ses droits actuels. Le positionnement de Workday sur ce marché repose sur une réalité déjà bien établie : des fournisseurs d'identité majeurs comme Okta vérifient déjà leurs données en interrogeant Workday, qui fait de facto office de système de référence organisationnelle pour de nombreuses grandes entreprises. Cette position centrale lui permet d'inférer les hiérarchies et structures de ses clients directement à partir des données qu'ils lui confient. Des praticiens du secteur confirment que cette architecture n'est pas un choix technique parmi d'autres. Dan Obendorfer, directeur produit chez Würk, est catégorique : "Si vos permissions sont définies ailleurs que là où les données vivent réellement, vous avez déjà perdu." Kadan Stadelmann, CTO et cofondateur de Compance.AI, abonde dans le même sens : sans traçabilité claire sur la propriété, les coûts et les actions des agents, "c'est le chaos". La course à l'agent autonome en entreprise se jouera donc moins sur la puissance des modèles que sur la capacité à ancrer la gouvernance dans le système qui fait autorité.

UELes grandes entreprises européennes utilisant Workday pour leurs RH et finances sont directement concernées par cette architecture de gouvernance des agents IA.

💬 Le vrai frein pour les agents en entreprise, c'est pas le modèle, c'est le "t'as le droit de faire ça ou pas". Workday l'a compris avant tout le monde, et leur position est solide : quand t'es déjà le système qui dit qui est qui dans l'organigramme, t'as une longueur d'avance que personne ne peut copier juste en branchant une API. Sur la paie et la compta, là où une erreur ne se corrige pas avec un "oh pardon", c'est exactement le bon endroit pour poser la couche de gouvernance.

OutilsOutil
1 source
Anthropic lance Claude Opus 4.8 : amélioration modeste mais concrète, devant GPT-5.5 sur la plupart des benchmarks
312The Decoder 

Anthropic lance Claude Opus 4.8 : amélioration modeste mais concrète, devant GPT-5.5 sur la plupart des benchmarks

Anthropic a dévoilé Claude Opus 4.8, que la société qualifie d'amélioration "modeste mais tangible" de son modèle phare. La nouvelle version surpasse GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google sur la majorité des benchmarks publiés. En programmation, Claude Opus 4.8 détecte ses propres erreurs de code quatre fois plus souvent que son prédécesseur. Anthropic lance simultanément les "dynamic workflows", une fonctionnalité permettant de déployer des centaines d'agents parallèles pour des tâches complexes comme la migration de bases de code entières. Cette progression renforce la position d'Anthropic face à ses concurrents directs. La capacité à détecter et corriger ses propres erreurs de code change concrètement le quotidien des développeurs, qui peuvent confier des tâches de refactoring ou de débogage plus longues avec un niveau de fiabilité accru. Les workflows dynamiques ouvrent la voie à des pipelines d'automatisation à grande échelle, particulièrement utiles pour les équipes techniques gérant de larges bases de code. Cette sortie s'inscrit dans une compétition intense entre les grands laboratoires d'IA. OpenAI, Google et Anthropic publient désormais des mises à jour à un rythme soutenu, chacun cherchant à capter les budgets entreprises. L'accent mis sur les agents autonomes et les workflows parallèles reflète un glissement stratégique : l'IA prend désormais en charge des processus entiers plutôt que de simples requêtes isolées. Les prochains mois diront si ces gains de benchmarks se confirment dans des environnements de production réels.

UELes développeurs et entreprises tech européens disposent d'un nouveau modèle SOTA avec des capacités agentiques avancées pour automatiser des pipelines de développement logiciel à grande échelle.

LLMsOpinion
1 source
Apple relance son offensive pour une IA locale, sans passer par le cloud
313The Information AI 

Apple relance son offensive pour une IA locale, sans passer par le cloud

Lors de sa conférence annuelle des développeurs (WWDC), prévue le mois prochain, Apple devrait mettre en avant une série de mises à jour d'intelligence artificielle très attendues pour l'iPhone, tout en insistant sur une capacité souvent sous-estimée : celle de faire tourner des modèles d'IA directement sur ses appareils, sans passer par le cloud. Selon des personnes proches des plans de l'entreprise, Apple entend démontrer comment ses 15 ans d'expérience dans la conception de puces personnalisées pour l'iPhone, l'Apple Watch et les Mac lui confèrent un avantage concret pour exécuter des modèles d'IA localement. Cette approche contraste avec la norme du secteur, où la plupart des traitements IA s'effectuent dans des datacenters remplis de puces coûteuses. Certaines requêtes resteront néanmoins traitées dans le cloud, notamment celles qui nécessitent une complexité élevée ou un accès à de vastes bases de données en ligne : dans le cadre d'un accord avec Google, une nouvelle version de Siri fera tourner certaines requêtes sur Google Cloud, via une version sous licence du modèle Gemini. Apple a par ailleurs récemment approuvé une technologie de confidentialité développée par Nvidia pour cet environnement, ce qui suggère que l'entreprise utilisera également des puces Nvidia pour une partie de ses besoins de calcul dans Google Cloud. L'enjeu de l'IA embarquée est considérable : exécuter des modèles localement réduit la latence, améliore la confidentialité des données et diminue la dépendance à des infrastructures cloud onéreuses. Avec des milliards d'appareils Apple en circulation, la capacité à distribuer des traitements IA à cette échelle représente un levier différenciant face à des concurrents comme Google, Microsoft ou OpenAI, dont les offres reposent quasi exclusivement sur des serveurs distants. Apple accuse un retard significatif sur ses rivaux dans la course à l'IA générative. La WWDC du mois prochain sera donc un moment clé pour démontrer que la maîtrise du matériel, via ses puces Apple Silicon, peut constituer une réponse crédible à ce retard. La coexistence d'une stratégie on-device et d'un recours au cloud via des partenaires comme Google et Nvidia illustre la complexité de la position d'Apple : rattraper rapidement les leaders du secteur tout en préservant les promesses de confidentialité qui sont au coeur de son identité de marque.

UEL'approche on-device d'Apple réduit les transferts de données vers des serveurs distants, ce qui s'aligne naturellement avec les exigences du RGPD et pourrait renforcer la conformité des milliards d'appareils Apple utilisés en Europe.

💬 L'argument confidentialité tient moins bien avec Siri qui sous-traite à Google Cloud, mais c'est à côté du sujet. Ce qui compte, c'est que quinze ans de puces custom donnent à Apple une base que Google ou Microsoft ne peuvent pas copier en six mois : faire tourner de l'IA sur des milliards d'appareils sans passer par un datacenter, c'est une infrastructure inversée que personne d'autre n'a. Reste à voir si les modèles sont à la hauteur.

InfrastructureOpinion
1 source
Daily Brief : l’agent IA de Google pense déjà à votre journée avant vous
314Le Big Data 

Daily Brief : l’agent IA de Google pense déjà à votre journée avant vous

Google a présenté Daily Brief lors de Google I/O le 26 mai 2026, un agent IA intégré à Gemini conçu pour préparer automatiquement le début de journée de ses utilisateurs. Le système analyse en temps réel trois sources de données : la boîte Gmail, Google Calendar et Google Tasks. Chaque matin, il génère un briefing personnalisé qui résume les échanges importants, signale les échéances critiques et propose des actions concrètes comme répondre à un message ou planifier un rendez-vous. L'agent ne se contente pas de trier : il formule aussi des "étapes suivantes" contextuelles, prenant lui-même des initiatives sans attendre que l'utilisateur pose la moindre question. Pour les professionnels déjà ancrés dans l'écosystème Google Workspace, l'impact est immédiat : moins de temps passé à fouiller des dizaines de fils de discussion pour retrouver une information enfouie, plus de bande passante cognitive pour le travail réel. Daily Brief s'inscrit dans une tendance plus large où l'IA glisse d'un rôle réactif vers un rôle proactif, anticipant les besoins plutôt que d'y répondre. Google promet en outre une personnalisation progressive : les retours utilisateurs permettraient à Gemini d'affiner ses résumés et ses priorités au fil du temps, rendant l'outil théoriquement plus pertinent à mesure qu'il observe les habitudes de travail. Cette annonce s'inscrit dans la stratégie de Google visant à faire de Gemini le pivot central de toute la productivité numérique, face à la concurrence de Microsoft Copilot intégré à Office 365 et d'assistants tiers comme Notion AI ou Superhuman. Mais l'efficacité de Daily Brief repose entièrement sur un accès étendu aux données personnelles et professionnelles de l'utilisateur : agenda, courriers, rappels, habitudes quotidiennes. Google ne fait pas mystère de cette logique d'assistance proactive, déjà présente dans des fonctions comme Smart Reply ou les suggestions de Gmail, mais Daily Brief la pousse à un niveau inédit en agrégeant l'ensemble du contexte de vie numérique d'une personne. La vraie question, que Google n'a pas encore tranchée publiquement, est de savoir si les utilisateurs hors Workspace pourront accéder à cette fonctionnalité, et dans quelle mesure les données d'analyse resteront locales ou alimenteront les modèles d'entraînement de l'entreprise.

UEL'accès étendu aux données personnelles (Gmail, Calendar, tâches) par Daily Brief soulève des questions de conformité GDPR pour les utilisateurs européens, notamment sur la localisation des données analysées et leur éventuelle utilisation pour l'entraînement des modèles de Google.

💬 C'est le genre de truc qu'on attendait depuis qu'Agentic AI est devenu le mot du moment. Google coche les cases : Gmail, Calendar, Tasks agrégés en un brief du matin qui t'évite de passer vingt minutes à reconstituer ta journée, c'est utile pour de vrai. Sauf que tu leur confies littéralement l'intégralité de ton contexte de vie numérique, et ce que Google compte en faire, notamment pour l'entraînement, reste soigneusement flou.

OutilsOutil
1 source
Google AI Studio : vous pouvez maintenant créer une app Android en parlant
315Le Big Data 

Google AI Studio : vous pouvez maintenant créer une app Android en parlant

Google a annoncé lors du Google I/O 2026 une nouvelle fonctionnalité de son outil Google AI Studio permettant de créer des applications Android natives en langage naturel. Concrètement, l'utilisateur choisit le mode "Créer", sélectionne Android, puis décrit en quelques phrases l'application souhaitée. L'agent IA génère alors un projet complet en Kotlin et Jetpack Compose, exécutable immédiatement dans un émulateur Android intégré directement au navigateur. Sans installer Android Studio, aucun SDK ni émulateur local, les modifications apparaissent en temps réel. L'utilisateur peut ensuite déployer l'APK sur un smartphone via USB sans configuration ADB, et même publier sur un canal de test du Play Store, l'outil se chargeant de signer le projet. Cette annonce abaisse radicalement la barrière d'entrée au développement mobile. Jusqu'ici, mettre en place un environnement Android fonctionnel représentait plusieurs heures de configuration, source de découragement majeur pour les débutants. Avec cette approche, un entrepreneur, un designer ou un product manager peut prototyper une application fonctionnelle en quelques minutes sans toucher une ligne de code. Pour les développeurs expérimentés, c'est un accélérateur de prototypage significatif. Les limites actuelles restent néanmoins importantes : les applications générées sont exclusivement côté client, sans support de Firebase, des API Google serveur ou du multijoueur. L'émulateur navigateur ne prend pas en charge l'appareil photo, le Bluetooth, le NFC ni les services Google Play. Kotlin et Jetpack Compose sont imposés, excluant les projets Java, XML ou natifs C/C++. Google AI Studio se positionne donc davantage comme un outil de prototypage ultra-rapide que comme une plateforme de production professionnelle. Cette initiative s'inscrit dans la stratégie plus large de Google visant à intégrer l'IA générative dans l'ensemble de son écosystème développeur, accélérée depuis l'émergence de concurrents comme Cursor, Replit ou Bolt.new qui ont popularisé la génération de code par prompt. Le marché du développement mobile représente des milliards de dollars et des millions de développeurs : simplifier l'accès à Android, c'est potentiellement élargir l'écosystème d'applications du Play Store tout en renforçant l'adoption de Gemini comme modèle de référence. Les prochaines évolutions attendues concernent probablement l'intégration de Firebase et des API backend, ce qui transformerait l'outil d'un prototypeur en véritable plateforme de développement. La question centrale reste de savoir jusqu'où l'IA peut absorber la complexité technique sans sacrifier la qualité et la maintenabilité du code généré.

UELes développeurs et non-techniciens français et européens peuvent dès maintenant prototyper des applications Android natives directement depuis le navigateur, sans configuration locale, abaissant significativement la barrière d'entrée au développement mobile.

OutilsOutil
1 source
Bons plans, immo, week-ends : les agents IA de Google vont surveiller le web pour vous
316Le Big Data 

Bons plans, immo, week-ends : les agents IA de Google vont surveiller le web pour vous

Lors de la conférence Google I/O 2026, Google a dévoilé une nouvelle génération d'agents IA capables de parcourir le web de façon autonome et proactive, à la place des utilisateurs. Ces agents s'ajoutent à plusieurs annonces majeures de l'événement, dont les modèles Gemini Omni, Gemini Spark et Gemini 3.5 Flash. Concrètement, un utilisateur peut confier à ces agents une tâche récurrente, trouver un studio avec balcon près d'une gare sous un budget donné, repérer un concert, comparer des prix de voyage, et l'IA surveille en continu les sources pertinentes, SeLoger, Leboncoin ou autres, pour alerter dès qu'une offre correspond aux critères définis. L'interface est conversationnelle : les demandes s'affinent en langage naturel, sans avoir à reformuler des requêtes rigides. Ces agents seront d'abord réservés aux abonnés Google AI Pro et AI Ultra aux États-Unis, avant un déploiement plus large. Ce changement marque un basculement de la recherche passive vers la recherche proactive. Pendant des décennies, utiliser Google signifiait taper des mots-clés, parcourir des liens et recommencer la manœuvre régulièrement. Ici, c'est l'agent qui prend l'initiative, surveille, compare et synthétise, libérant l'utilisateur de la corvée de répétition. Pour les particuliers en quête d'un logement, d'un billet d'avion ou d'un bon plan commercial, le gain de temps est potentiellement considérable. Pour les sites d'annonces et comparateurs, la menace est symétrique : si Google devient le premier agrégateur de leurs données, leur trafic direct pourrait s'effondrer, restructurant en profondeur l'économie de l'information en ligne. Google prévoit de connecter ces agents à Gmail, Google Photos et bientôt Google Agenda, afin de personnaliser les réponses en fonction de la vie réelle de chaque utilisateur. La firme de Mountain View insiste sur le contrôle laissé aux utilisateurs, mais cette intégration dessine un écosystème où Google deviendrait l'intermédiaire central entre les internautes et le reste du web, connaissant habitudes, déplacements, projets et préférences avec une précision inédite. Ce mouvement s'inscrit dans une course accélérée entre les géants technologiques : Microsoft avec Copilot, OpenAI avec ses propres agents et Anthropic positionnent tous leurs modèles sur ce terrain de l'autonomie IA. Google, fort de ses données propriétaires et de sa maîtrise de l'infrastructure de recherche, joue ici une carte que ses concurrents ne peuvent pas facilement dupliquer, mais les questions sur la vie privée et la concentration du pouvoir numérique resteront au cœur du débat à mesure que ces outils se généraliseront.

UELes plateformes françaises d'annonces comme SeLoger et Leboncoin s'exposent à une chute de trafic si Google s'impose comme agrégateur central, et l'intégration de données personnelles dans Gmail et Photos soulève des questions de conformité RGPD pour les utilisateurs européens.

OutilsOutil
1 source
Google restructure ses abonnements IA à l'I/O 2026 avec trois niveaux à partir de 10 dollars par mois
317The Decoder 

Google restructure ses abonnements IA à l'I/O 2026 avec trois niveaux à partir de 10 dollars par mois

Lors de sa conférence Google I/O 2026, Google a refondu en profondeur son offre d'abonnements IA sous la bannière Gemini. La firme de Mountain View propose désormais trois niveaux tarifaires allant de 7,99 dollars à 99,99 dollars par mois, avec des plafonds d'utilisation progressifs selon le forfait choisi. Cette restructuration s'accompagne du lancement de nouveaux modèles, dont Gemini Omni, ainsi que d'un agent IA baptisé Gemini Spark, capable d'automatiser des tâches complexes pour les utilisateurs. Le changement le plus significatif tient moins aux tarifs qu'au modèle de facturation lui-même : Google abandonne les limites journalières de requêtes au profit d'un système basé sur la consommation de ressources de calcul. Concrètement, les utilisateurs ne se verront plus bloquer après un certain nombre de messages, mais selon la quantité de puissance computationnelle mobilisée par leurs requêtes. Ce glissement vers un modèle de type "pay-as-you-compute" modifie la relation entre l'utilisateur et le service, en rendant la limite moins prévisible mais potentiellement plus juste pour les usages variés. Cette évolution s'inscrit dans une tendance de fond qui traverse l'ensemble du secteur : OpenAI, Anthropic et d'autres acteurs explorent ou ont déjà adopté des mécanismes similaires. Pour Google, l'enjeu est double - fidéliser une base d'utilisateurs professionnels prêts à payer davantage pour des capacités avancées, tout en restant compétitif face à des concurrents qui gagnent du terrain sur le marché des abonnements IA grand public et entreprise.

UELes entreprises et utilisateurs européens abonnés aux services Gemini devront s'adapter au nouveau modèle de facturation basé sur la consommation de puissance de calcul, ce qui rend les coûts moins prévisibles pour les usages intensifs.

BusinessOpinion
1 source
Pornographie deepfake : corps volés, et l'IA qui divulgue des numéros privés
318MIT Technology Review 

Pornographie deepfake : corps volés, et l'IA qui divulgue des numéros privés

En 2023, une femme prénommée Jennifer a passé sa photo de profil professionnelle dans un logiciel de reconnaissance faciale pour vérifier si ses anciennes vidéos pour adultes remonteraient dans les résultats. Elles sont apparues, mais avec une surprise : une de ses vidéos originales avait été modifiée, son visage remplacé par celui d'une autre personne. Son corps, lui, était toujours là. Ce cas illustre une réalité peu discutée du deepfake pornographique : si le débat se concentre habituellement sur les victimes dont le visage est incrusté sans consentement dans des contenus explicites, les créatrices de contenu adulte dont le corps est utilisé comme base sont quasi invisibles dans ce débat. Elles témoignent que des systèmes d'IA s'entraînent sur leurs productions, clonent leurs apparences, et génèrent des contenus qu'elles n'ont jamais approuvés, sans protection juridique réelle ni moyen de contrôle. En parallèle, une autre atteinte à la vie privée prend de l'ampleur : des chatbots IA comme Gemini divulguent des numéros de téléphone personnels. Un développeur a commencé à recevoir des messages WhatsApp de parfaits inconnus après que Gemini avait rendu son numéro accessible. Une chercheuse universitaire a réussi à obtenir le numéro privé d'une collègue via le même outil. Un utilisateur Reddit a vu affluer des appels de personnes cherchant des avocats, son numéro ayant été fourni par erreur par l'IA. Ces deux phénomènes ont des conséquences concrètes et durables. Pour les créatrices de contenu adulte, la perte de contrôle sur leur image corporelle menace directement leurs revenus et leur sécurité, dans un secteur déjà vulnérable juridiquement. Pour les victimes de fuites de numéros, le harcèlement involontaire généré est difficile à stopper : les experts consultés par le MIT Technology Review estiment que ces données personnelles proviennent des corpus d'entraînement des modèles, et qu'aucun mécanisme simple ne permet aux victimes d'y remédier. Ces incidents révèlent une fragilité systémique : l'IA rend triviale la recherche d'informations qui étaient auparavant dispersées ou inaccessibles. Ces problèmes s'inscrivent dans un contexte plus large de régulation encore balbutiante autour de l'IA générative. Le droit à l'image, la propriété intellectuelle sur les corps, et la protection des données personnelles n'ont pas été conçus pour répondre à ces usages. Pendant ce temps, d'autres signaux alimentent les tensions autour de l'IA : Sam Altman détient plus de deux milliards de dollars d'investissements dans des entreprises ayant des relations commerciales avec OpenAI, soulevant des accusations de conflits d'intérêts examinées par le Parti républicain. Et une étude relayée par 404 Media suggère que les développeurs perdent leurs capacités techniques à force de déléguer à l'IA, alimentant un début de backlash populaire contre sa généralisation.

UELe RGPD et l'AI Act encadrent en principe la collecte biométrique et les deepfakes non consentis, mais les victimes européennes disposent de peu de recours concrets face à des modèles entraînés sur des corpus étrangers et des plateformes peu coopératives.

💬 Ce qui me dérange dans ces deux histoires, c'est que l'IA n'a rien inventé : elle rend juste trivial ce qui était difficile avant. Un numéro dispersé dans un corpus, un corps dans une vieille vidéo, tu n'y accédais pas sans outil spécialisé, mais maintenant c'est cherchable et exploitable en quelques secondes. Le droit a été conçu pour un monde où l'information restait éparpillée, et ce monde-là n'existe plus.

ÉthiqueActu
1 source
Claude sur AWS : toute la plateforme d'Anthropic
319Le Big Data 

Claude sur AWS : toute la plateforme d'Anthropic

Anthropic a annoncé ce 11 mai 2026 que l'intégralité de sa plateforme Claude est désormais accessible directement depuis Amazon Web Services, sous forme de disponibilité générale. Concrètement, les clients AWS peuvent désormais utiliser l'ensemble des fonctionnalités de l'API Claude, Claude Managed Agents pour déployer des agents IA à grande échelle, exécution de code Python via API, recherche web intégrée, et un système de Skills permettant à Claude d'apprendre des comportements ou méthodes de travail spécifiques, sans quitter leur environnement cloud habituel. L'intégration couvre l'authentification IAM, la facturation unifiée AWS, les audits via CloudTrail, et un accès immédiat aux nouvelles fonctionnalités au fil de leur sortie. Jusqu'ici, plusieurs capacités avancées de Claude restaient réservées à l'API native d'Anthropic. Pour les équipes techniques en entreprise, le gain est avant tout opérationnel : plus besoin de gérer des systèmes parallèles de connexion, de facturation ou de permissions. Cette simplification réduit la friction à l'adoption et abaisse la barrière d'entrée pour les organisations déjà investies dans AWS. Anthropic précise toutefois que le traitement des données sur cette plateforme s'effectue en dehors de l'infrastructure AWS classique, une nuance importante pour les entreprises soumises à des contraintes strictes de souveraineté ou de conformité. Pour celles-là, Anthropic maintient une offre distincte via Amazon Bedrock, où AWS reste l'opérateur principal et les données demeurent dans l'infrastructure Amazon, deux positionnements qui ciblent deux profils d'entreprises différents. Cette annonce s'inscrit dans une bataille industrielle plus large où les plateformes cloud sont devenues les principales portes d'entrée de l'IA générative. OpenAI pousse ChatGPT Enterprise, Google multiplie les intégrations Gemini dans son écosystème, Microsoft verrouille ses capacités IA dans Azure, et Anthropic devait muscler son jeu pour ne pas rester un fournisseur de modèles sans ancrage infrastructure. Le partenariat entre Anthropic et Amazon, qui s'est matérialisé par un investissement massif d'Amazon dans Anthropic ces dernières années, trouve ici une nouvelle expression concrète. En intégrant Claude profondément dans AWS, Anthropic gagne en distribution et en crédibilité enterprise, tandis qu'Amazon renforce l'attractivité de son cloud pour les projets IA. La prochaine étape sera de voir si cette intégration accélère effectivement l'adoption de Claude dans les grandes organisations, ou si la question non résolue de la localisation des données freinera les déploiements dans les secteurs les plus régulés.

UELes entreprises européennes sur AWS peuvent désormais accéder à l'ensemble de la plateforme Claude sans friction opérationnelle, mais le traitement des données hors infrastructure AWS standard soulève des questions de conformité pour les secteurs soumis aux exigences de souveraineté numérique de l'UE.

OutilsOpinion
1 source
GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe
320Latent Space 

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

OpenAI a lancé le 6 mai 2026 trois nouveaux modèles audio dans son API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le modèle phare, GPT-Realtime-2, affiche une progression de 15,2 % sur le benchmark Big Bench Audio, contre seulement 5 % pour le realtime-1.5 sorti il y a trois mois. OpenAI le présente comme son "modèle vocal le plus intelligent à ce jour", intégrant un raisonnement comparable à GPT-5 en temps réel. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, avec jusqu'à 32 000 tokens en sortie. GPT-Realtime-Translate prend en charge la traduction simultanée depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper offre une transcription en streaming à faible latence pour les sous-titres et la prise de notes. Les trois modèles sont disponibles immédiatement dans l'API Realtime pour les développeurs ; les améliorations dans ChatGPT voice sont annoncées mais non encore déployées. L'enjeu de cette version dépasse la qualité audio : OpenAI mise sur l'utilisabilité des agents vocaux en production. GPT-Realtime-2 permet des appels d'outils en parallèle avec des confirmations verbales ("je vérifie votre calendrier"), des préambules naturels ("un instant, je cherche ça"), et une meilleure gestion des interruptions. Il peut aussi adapter son ton, calme, empathique ou dynamique, selon le contexte, et les développeurs peuvent désormais régler le niveau de raisonnement sur cinq paliers allant de "minimal" à "xhigh". Pour les entreprises qui déploient des agents vocaux dans la santé, le service client ou les assistants professionnels, ce gain de fluidité et de robustesse représente un saut concret vers des systèmes déployables sans supervision constante. Cette sortie s'inscrit dans une course effrénée pour dominer les interfaces vocales de l'IA. OpenAI avait lancé son API Realtime en septembre 2024, mais les premières versions peinaient à convaincre par leur manque de fiabilité et leur contexte limité. La progression rapide des trois derniers mois signale une priorité stratégique claire : Sam Altman a lui-même souligné que les utilisateurs recourent de plus en plus à la voix pour "déverser" de grandes quantités de contexte à l'IA, un usage que les interfaces texte peinent à absorber naturellement. Face à Google, qui pousse ses propres modèles Gemini Live, et à des acteurs spécialisés comme ElevenLabs, OpenAI cherche à verrouiller le segment des agents vocaux professionnels avant que le marché ne se fragmente.

UELes développeurs et entreprises européennes déployant des agents vocaux (santé, service client, assistants professionnels) peuvent immédiatement accéder aux nouvelles capacités via l'API Realtime, avec un support multilingue étendu à plus de 70 langues dont le français.

💬 L'API Realtime de septembre 2024, franchement, ça peinait. Là, les préambules naturels, les interruptions gérées, les appels d'outils en parallèle avec confirmation verbale, tout ce qui rend un agent vocal déployable sans supervision constante, c'est enfin dans la boîte. C'est le genre de liste de features qui fait passer de la démo au vrai prod.

LLMsOpinion
1 source
Unity AI arrive en bêta ouverte : créer un jeu n’a jamais été aussi rapide (ni aussi inquiétant)
321Le Big Data 

Unity AI arrive en bêta ouverte : créer un jeu n’a jamais été aussi rapide (ni aussi inquiétant)

Unity a lancé le 4 mai 2026 la bêta ouverte de Unity AI, son assistant intégré directement dans l'éditeur Unity 6. L'outil permet aux développeurs de générer du code C# à partir d'une description textuelle, de produire des assets visuels, sprites, textures, sons, en quelques secondes, et de convertir des maquettes Figma en interfaces ou scènes jouables. L'agent embarqué repose sur le modèle Gemini de Google, mais une passerelle d'IA (AI Gateway) permet également de connecter des modèles tiers comme Claude d'Anthropic. Matthew Bromberg, PDG d'Unity, le présente comme « le seul agent d'IA à vraiment connaître Unity de l'intérieur », développé en interne pour coller au plus près des workflows propres au moteur. Un essai gratuit de 14 jours est proposé à l'ensemble des utilisateurs. L'impact est immédiat pour les équipes de développement : les cycles de prototypage s'accélèrent, les blocages techniques se réduisent, et les barrières à l'entrée pour les créateurs indépendants s'abaissent considérablement. Un développeur solo peut désormais itérer sur des mécaniques de jeu sans maîtriser l'intégralité de la chaîne technique. Pour les studios, cela signifie moins de temps passé à produire et davantage consacré à valider et orienter. Mais cette accélération soulève des questions structurelles : si l'IA écrit, corrige et optimise à la place du développeur, le rôle de ce dernier se déplace vers la supervision plutôt que la conception artisanale. Pour les professionnels aguerris, ce glissement n'est pas sans friction, certains redoutent une uniformisation des productions, les mêmes outils tendant mécaniquement vers les mêmes résultats créatifs. Unity traverse depuis plusieurs années une période de turbulences. L'entreprise a essuyé de vives critiques en 2023 après une tentative de modifier sa politique tarifaire à la défaveur des développeurs, provoquant un mouvement de défiance dans l'industrie et des licenciements massifs en interne. L'arrivée de Unity AI s'inscrit dans une stratégie de reconquête : repositionner le moteur comme une plateforme de productivité augmentée, capable de rivaliser avec Unreal Engine d'Epic sur le terrain de l'innovation. Dans un secteur du jeu vidéo déjà fragilisé par des vagues de suppressions de postes, l'automatisation d'une partie des tâches de développement alimente des inquiétudes légitimes sur l'emploi. Le spectre d'une multiplication de jeux génériques de faible qualité, produits massivement grâce à ces outils, plane également sur les plateformes de distribution comme Steam. La bêta ouverte constitue un test grandeur nature : Unity mise sur l'adoption large pour affiner l'outil, tout en cherchant à prouver que l'IA peut amplifier la créativité sans la remplacer.

UELes studios de jeu vidéo français et européens utilisant Unity peuvent accéder immédiatement à la bêta ouverte, avec des implications concrètes sur les workflows de développement et des questions ouvertes sur l'emploi dans un secteur déjà fragilisé.

OutilsOutil
1 source
L'IA physique soulève des questions de gouvernance pour les systèmes autonomes
322AI News 

L'IA physique soulève des questions de gouvernance pour les systèmes autonomes

La convergence de l'intelligence artificielle et des systèmes physiques pose des questions de gouvernance inédites pour les entreprises, les régulateurs et les ingénieurs. En 2024, la Fédération internationale de la robotique recensait 542 000 robots industriels installés dans le monde, soit plus du double du niveau enregistré dix ans plus tôt. Les projections tablent sur 575 000 unités en 2025 et plus de 700 000 d'ici 2028. Dans ce contexte, le marché de ce que les analystes appellent désormais la "Physical AI" -- robotique, edge computing et machines autonomes -- était estimé à 81,64 milliards de dollars en 2025 par Grand View Research, avec des projections atteignant 960,38 milliards en 2033. En mars 2025, Google DeepMind a franchi une étape concrète en lançant Gemini Robotics et Gemini Robotics-ER, deux modèles construits sur Gemini 2.0 et conçus pour le contrôle direct de robots et le raisonnement spatial. En avril 2026, une nouvelle version, Gemini Robotics-ER 1.6, a été mise en préversion via l'API Gemini, avec des capacités renforcées de planification de tâches, de détection de succès et de raisonnement par étapes intermédiaires. L'enjeu dépasse largement celui de l'automatisation logicielle classique. Lorsqu'un modèle de langage produit une réponse incorrecte, l'erreur reste dans le domaine informationnel. Lorsqu'un modèle piloté un robot, une sortie erronée peut se traduire par un mouvement physique dans un environnement partagé avec des humains ou connecté à des équipements industriels critiques. Google DeepMind identifie trois propriétés fondamentales pour des robots véritablement utiles : la généralité (capacité à traiter des objets et environnements inconnus), l'interactivité (adaptation aux instructions humaines et aux conditions changeantes), et la dextérité (précision des gestes physiques). Des systèmes comme Gemini Robotics peuvent suivre des instructions en langage naturel et exécuter des séquences complexes -- plier du papier, emballer des objets, manipuler des éléments jamais vus à l'entraînement. Mais cette même flexibilité complique la définition de limites de sécurité claires et de procédures d'arrêt d'urgence. Derrière la performance technique se profile un problème de gouvernance systémique encore non résolu. Contrairement aux logiciels, les systèmes physiques autonomes opèrent dans des espaces réels, soumis à des normes de sécurité industrielles, de responsabilité civile et de certification qui n'ont pas été conçues pour des agents capables de raisonner et de décider de façon autonome. La mise à disposition de Gemini Robotics-ER 1.6 via l'API Gemini rapproche le développement de ces systèmes des environnements de tests accessibles aux développeurs, mais transfère aussi une partie de la responsabilité vers les intégrateurs. Le secteur se retrouve face à une question centrale : qui valide, surveille et peut arrêter un agent physique lorsque son comportement s'écarte des limites prévues ? Les réponses réglementaires et industrielles à cette question seront déterminantes pour le déploiement à grande échelle de la Physical AI dans les prochaines années.

UELes industriels et régulateurs européens devront réviser les cadres de responsabilité civile, de certification et de sécurité des machines pour couvrir des agents physiques autonomes capables de raisonner, un vide que l'AI Act actuel n'adresse pas encore directement.

RobotiqueOpinion
1 source
« AI Sponsored Snaps » : Faîtes gaffe, votre « ami » IA sur Snapchat est peut-être un vendeur
323Le Big Data 

« AI Sponsored Snaps » : Faîtes gaffe, votre « ami » IA sur Snapchat est peut-être un vendeur

Snapchat a lancé une nouvelle fonctionnalité publicitaire baptisée "AI Sponsored Snaps", qui introduit des agents conversationnels financés par des marques directement dans les discussions des utilisateurs. Concrètement, ces robots IA s'insèrent dans la messagerie et répondent aux questions comme n'importe quel interlocuteur, mais avec pour mission sous-jacente de guider les échanges vers des produits ou services commerciaux. Experian est le premier partenaire officiel : son agent commence par aborder des sujets financiers généraux avant d'orienter progressivement la conversation vers ses offres. Ce lancement intervient dans un contexte de croissance massive de l'usage de la messagerie sur la plateforme : 85 % des utilisateurs de Snapchat s'en servent régulièrement, et plus de 950 milliards de messages ont été envoyés au premier trimestre 2026 seulement. Cette initiative marque un tournant dans la façon dont la publicité s'infiltre dans les espaces numériques intimes. Contrairement à une bannière ou une vidéo sponsorisée clairement identifiable, les AI Sponsored Snaps se comportent comme de vrais interlocuteurs, rendant la frontière entre conversation et démarchage commercial particulièrement floue. Ajit Mohan, directeur commercial de Snapchat, résume la philosophie du projet en ces termes : "La conversation devient le bien immobilier le plus précieux en publicité." Pour les utilisateurs, l'intérêt reste difficile à cerner : les réponses fournies ne diffèrent pas fondamentalement de celles d'un assistant classique comme Gemini ou Claude, à la différence près que chaque échange est pensé pour générer des revenus aux marques partenaires. C'est la promesse d'un service, mais au profit du commanditaire. Snapchat s'appuie pour cela sur le bilan de My AI, son assistant conversationnel lancé en 2023, qui aurait été utilisé par plus de 500 millions de personnes depuis son déploiement. Ce socle d'adoption massif offre à la plateforme un terrain d'expérimentation publicitaire sans précédent dans la messagerie sociale. Mais le parcours n'a pas été sans accrocs : lors de tests menés par des journalistes et des chercheurs simulant des profils d'adolescents, My AI avait déjà fourni des réponses jugées inappropriées sur des sujets sensibles, soulevant des questions sur la modération et la protection des mineurs. Avec les AI Sponsored Snaps, ces enjeux se doublent d'une dimension commerciale qui risque d'amplifier les critiques. Le modèle que Snapchat est en train de construire, où l'IA sert autant de vendeur que d'assistant, pourrait bien devenir une référence pour d'autres plateformes cherchant à monétiser leurs espaces de conversation.

UEL'AI Act européen impose des obligations de transparence qui pourraient contraindre Snapchat à identifier explicitement ces agents comme outils commerciaux auprès des utilisateurs européens, et la CNIL pourrait examiner la collecte de données conversationnelles à des fins publicitaires.

ÉthiqueOpinion
1 source
Excel & Google Sheets : Fin des formules, ChatGPT débarque et fait tout le job
324Le Big Data 

Excel & Google Sheets : Fin des formules, ChatGPT débarque et fait tout le job

OpenAI a lancé le 22 avril 2026 une nouvelle fonctionnalité appelée ChatGPT Sidebar, qui s'intègre directement dans Excel et Google Sheets sous forme de barre latérale ou de complément. L'installation se fait en quelques clics via le menu des modules complémentaires sur Google Sheets, ou via l'onglet Compléments d'Excel. Une fois connecté à son compte OpenAI, l'utilisateur dispose d'un assistant capable de créer des structures de fichiers, modifier des données, mettre à jour des tableaux et analyser des tendances réparties sur plusieurs onglets, le tout en langage naturel. L'outil demande systématiquement confirmation avant d'effectuer toute modification, préservant ainsi le contrôle de l'utilisateur. Il prend également en charge l'import de fichiers dans un large éventail de formats : images (JPEG, PNG, GIF), documents (PDF, Word, Pages), présentations (PowerPoint), feuilles de calcul (CSV, Excel), ainsi que formats texte et code (JSON, YAML, HTML, Markdown). La limite est fixée à 20 fichiers par message, avec un maximum de 25 Mo par fichier. L'outil est actuellement en phase bêta et réservé aux abonnés payants des offres Plus, Pro, Business, Enterprise, Edu et K-12. Pour des millions de professionnels qui passent des heures à construire des formules complexes ou à chercher des anomalies dans des tableaux imbriqués, cette intégration représente un changement concret de flux de travail. L'assistant peut repérer des tendances de dépenses sur plusieurs onglets en secondes, là où un analyste aurait autrefois mobilisé une demi-journée. Selon Jack R. Curran et d'autres membres de l'équipe OpenAI, l'outil couvre aussi bien des usages personnels, comme l'organisation d'un mariage ou la gestion d'une activité en ligne, que des besoins professionnels comme la construction d'un plan d'affaires ou l'analyse de données. La capacité à interagir en langage naturel abaisse significativement la barrière d'entrée pour les utilisateurs non-téchniques, qui n'ont plus besoin de maîtriser les syntaxes de formules pour exploiter pleinement un tableur. Cette annonce s'inscrit dans une dynamique d'expansion agressive d'OpenAI vers les outils de productivité bureautique, un territoire jusqu'ici dominé par Microsoft avec Copilot intégré à Office 365, et par Google avec Gemini dans Workspace. En s'installant directement dans Excel, concurrent historique de ses propres partenaires Microsoft, OpenAI joue sur tous les tableaux simultanément. La limitation aux abonnés payants suggère une stratégie de montée en gamme : convaincre les entreprises de migrer vers des formules Business ou Enterprise. L'absence de synchronisation avec l'historique ChatGPT classique constitue une limitation notable pour l'instant, mais laisse anticiper une intégration plus profonde dans les prochaines versions. La bataille pour devenir le co-pilote universel du travail de bureau ne fait que commencer.

UELes professionnels français et européens abonnés aux offres payantes ont accès à cette intégration qui modifie concrètement les pratiques de travail sur tableur, sans impact réglementaire spécifique à l'UE pour l'instant.

💬 Installer ChatGPT directement dans Excel, le produit phare de Microsoft, c'est le genre de coup qui mérite qu'on s'y arrête. Pour les profils non-techs qui jonglent avec des tableaux sans vraiment maîtriser les formules, là c'est du concret, pas du vent. Abonnés payants seulement pour l'instant, donc la vraie adoption, on verra dans six mois.

OutilsOutil
1 source
Google et AWS répartissent la pile des agents IA entre contrôle et exécution
325VentureBeat AI 

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

Google et Amazon Web Services viennent de redéfinir leurs approches respectives pour orchestrer les agents IA d'entreprise, révélant une fracture profonde dans la façon de concevoir l'infrastructure agentique. Google a lancé une nouvelle version de Gemini Enterprise, regroupant sous une même bannière sa plateforme Gemini Enterprise et son application éponyme, tout en rebaptisant Vertex AI en Gemini Enterprise Platform. De son côté, AWS a enrichi Bedrock AgentCore d'un système de harness, un dispositif de configuration automatique alimenté par Strands Agents, son framework open source. Ce harness permet aux équipes de définir ce que l'agent doit faire, quel modèle utiliser et quels outils appeler, le reste étant pris en charge automatiquement. Dans le même temps, Anthropic a dévoilé ses Claude Managed Agents et OpenAI a renforcé son Agents SDK, confirmant que l'ensemble de l'industrie cherche simultanément à résoudre le même problème : comment gérer des agents IA qui tournent durablement en production. L'enjeu dépasse la simple question de l'outillage développeur. À mesure que les agents passent de courtes tâches ponctuelles à des workflows autonomes de longue durée, un nouveau type de défaillance émerge : la dérive d'état (state drift). Un agent qui fonctionne en continu accumule de la mémoire, des réponses et un contexte évolutif. Avec le temps, ce contexte devient obsolète : les sources de données changent, les outils renvoient des réponses contradictoires, et l'agent perd en fiabilité sans que personne ne s'en rende forcément compte. C'est ce problème systémique que Google et AWS cherchent à prévenir, par deux chemins opposés. Google mise sur un plan de contrôle à la manière de Kubernetes, centré sur la gouvernance et la visibilité. AWS privilégie la vitesse de déploiement et la simplification de la configuration, en déléguant la coordination à la couche d'exécution. Cette divergence illustre une transformation plus profonde de la pile IA, qui se stratifie désormais en couches spécialisées. Google positionne Gemini Enterprise comme une porte d'entrée unifiée vers l'ensemble de ses systèmes IA, avec des outils de sécurité et de gouvernance inclus dans l'abonnement, selon Maryam Gholami, directrice senior produit chez Google. AWS, Anthropic et OpenAI s'orientent davantage vers la vélocité et la flexibilité d'exécution. La question de savoir quelle approche s'imposera reste ouverte : Gholami elle-même reconnaît que ce sont les clients qui dicteront les usages des agents longue durée, un domaine où les bonnes pratiques restent encore à définir. Le vrai test viendra lorsque les entreprises feront tourner ces systèmes en conditions réelles, avec des agents qui devront remonter de l'information, demander des validations humaines, et résister à la dégradation progressive de leur contexte.

UELes entreprises européennes qui déploient des agents IA en production sur Google Cloud ou AWS devront arbitrer entre les deux approches d'orchestration pour leurs workflows agentiques durables.

InfrastructureOpinion
1 source
Google refond sa data stack pour les agents autonomes, non plus pour les humains
326VentureBeat AI 

Google refond sa data stack pour les agents autonomes, non plus pour les humains

Google a dévoilé mercredi lors de sa conférence Cloud Next une refonte majeure de son infrastructure de données d'entreprise, baptisée "Agentic Data Cloud". L'annonce, portée par Andi Gutmans, vice-président et directeur général de Data Cloud chez Google Cloud, repose sur trois piliers : le Knowledge Catalog, un nouveau catalogue sémantique automatisé ; un data lakehouse multi-cloud ; et le Data Agent Kit, un ensemble d'outils MCP intégrables directement dans VS Code, Claude Code et Gemini CLI. Le Knowledge Catalog est une évolution de Dataplex, le produit de gouvernance de données existant de Google, mais avec une architecture profondément différente : là où les anciens catalogues exigeaient qu'une équipe de data stewards étiquette manuellement les tables et définisse les termes métier, le nouveau système utilise des agents pour automatiser entièrement ce travail. Il couvre nativement BigQuery, Spanner, AlloyDB et Cloud SQL, et s'interconnecte avec des catalogues tiers comme Collibra, Atlan et Datahub, ainsi qu'avec des applications SaaS telles que SAP, Salesforce Data360, ServiceNow et Workday, sans déplacement de données. Ce changement architectural répond à un problème concret qui touche les équipes data des grandes entreprises : les plateformes actuelles ont été conçues pour des humains qui posent des questions, pas pour des agents IA qui agissent en continu et de manière autonome. Avec le Data Agent Kit, les ingénieurs data peuvent désormais décrire des résultats attendus plutôt qu'écrire des pipelines, ce qui représente un changement de paradigme dans le quotidien des équipes techniques. Sur le plan de l'infrastructure, la nouvelle approche multi-cloud est particulièrement significative : BigQuery peut désormais interroger des tables au format Apache Iceberg stockées sur Amazon S3, via la couche réseau privée Cross-Cloud Interconnect de Google, sans frais de sortie de données et avec des performances comparables à celles d'un entrepôt natif AWS. Toutes les fonctions IA de BigQuery s'appliquent à ces données distantes sans modification. Une fédération bidirectionnelle est également en cours de déploiement avec Databricks Unity Catalog, Snowflake Polaris et AWS Glue Data Catalog. Cette annonce s'inscrit dans une course que se livrent les grands acteurs du cloud pour capter le marché de l'infrastructure IA d'entreprise. Les architectures de données actuelles ont été pensées pour des cycles de reporting et de tableaux de bord, ce que Google qualifie d'"intelligence réactive". Mais à mesure que les agents IA sont déployés pour prendre des décisions et déclencher des actions directement dans les systèmes métier, cette approche montre ses limites. Google n'est pas seul sur ce terrain : Databricks, Snowflake et AWS investissent massivement dans des architectures similaires. En intégrant ses outils directement dans des environnements de développement comme VS Code et Claude Code, Google cherche à s'imposer comme la couche de données de référence dans un monde où l'IA opère à l'échelle de l'entreprise, vingt-quatre heures sur vingt-quatre.

UELes entreprises européennes opérant en multi-cloud AWS/GCP pourront interroger leurs données sans frais de transfert sortant, et les équipes data pourront intégrer le Data Agent Kit dans VS Code pour automatiser leurs pipelines sans réécriture de code.

InfrastructureOpinion
1 source
ChatGPT Images 2.0 d'OpenAI gère le texte multilingue, les infographies, les diapositives, les cartes et le manga
327VentureBeat AI 

ChatGPT Images 2.0 d'OpenAI gère le texte multilingue, les infographies, les diapositives, les cartes et le manga

OpenAI a officiellement lancé ChatGPT Images 2.0 ce mois d'avril 2026, quelques mois seulement après la sortie de GPT-Image-1.5 en décembre 2025. Le nouveau modèle, baptisé en interne "duct tape" lors de semaines de tests discrets sur la plateforme LM Arena AI, est désormais accessible à tous les abonnés ChatGPT, tous niveaux confondus. Pour les développeurs, il est disponible via l'API sous le nom gpt-image-2. Ses capacités dépassent largement celles de son prédécesseur : génération de longs blocs de texte multilingues intégrés dans une image, création d'infographies complètes, de diapositives, de cartes, de mangas, de plans d'appartement, de grilles d'images multiples et de modèles de personnages sous différents angles. Le modèle peut également reproduire avec une fidélité troublante des interfaces utilisateur et des captures d'écran de sites réels, intégrer des résultats de recherche web directement dans une image, et s'appliquer aux photos téléversées par les utilisateurs. OpenAI a aussi introduit une suite de fonctionnalités baptisée "Thinking" pour les abonnés ChatGPT. Ce lancement marque un tournant dans la manière dont OpenAI conçoit la création visuelle. La philosophie revendiquée par l'entreprise est explicite dans ses notes de version : "Les images sont un langage, pas une décoration. Une bonne image fait ce que fait une bonne phrase : elle sélectionne, organise et révèle." En pratique, cela signifie que des professionnels du marketing, de la communication, du journalisme ou de la formation peuvent désormais produire des visuels informationnels complexes sans compétences en design. La capacité à reproduire des figures publiques réelles, comme le PDG Sam Altman, soulève aussi des questions sur l'usage de cet outil à des fins de désinformation, notamment dans le contexte de campagnes d'influence politique utilisant des personnages fictifs présentés comme de "vrais Américains" soutenant Donald Trump, un phénomène récemment documenté par le New York Times. La sortie de ChatGPT Images 2.0 intervient dans un marché de la génération d'images IA de plus en plus disputé. Google avait lancé en février 2026 son propre modèle Nano Banana 2, aussi connu sous le nom Gemini 3 Pro Image, capable lui aussi d'intégrer du texte dense dans les images. Mais selon les premiers tests comparatifs, la solution d'OpenAI surpasse Google sur la fidélité des interfaces et la gestion de compositions multi-images. Face aux risques d'abus, Adele Li, responsable produit ChatGPT Images chez OpenAI, a réaffirmé lors d'un briefing presse l'engagement de l'entreprise en matière de sécurité : les images générées sont taguées avec des métadonnées indiquant leur origine artificielle, et des garde-fous spécifiques visent à prévenir toute interférence électorale. OpenAI insiste sur le fait que ces protections distinguent ChatGPT des nouveaux entrants du secteur, qui opèrent avec "des standards et des philosophies différents".

UELes capacités avancées de reproduction d'interfaces réelles et de personnages publics accroissent les risques de désinformation en Europe, notamment à l'approche d'échéances électorales.

CréationActu
1 source
Une seule API, des rapports complets : la révolution Deep Research est là
328Le Big Data 

Une seule API, des rapports complets : la révolution Deep Research est là

Google a officiellement lancé le 21 avril 2026 deux nouveaux agents d'analyse accessibles via l'API Gemini : Deep Research et Deep Research Max. Alimentés par le modèle Gemini 3.1 Pro, ces agents transforment une simple requête en rapport d'analyse structuré, en enchaînant automatiquement la collecte de données, le recoupement de sources et la mise en forme des résultats. Deep Research cible les usages interactifs qui privilégient la rapidité, tandis que Deep Research Max adopte une approche plus exhaustive, multipliant les sources et affinant ses conclusions pour une précision accrue. L'API génère également des infographies et des graphiques directement intégrés aux rapports, rendant les données exploitables sans passer par des outils tiers. Des acteurs spécialisés comme FactSet, S&P Global et PitchBook participent déjà à l'écosystème, confirmant l'ancrage industriel de la démarche. Ce lancement change concrètement la façon dont les entreprises peuvent mobiliser l'IA pour l'analyse. Jusqu'ici, les outils de recherche automatisée se limitaient à récupérer des réponses ponctuelles ; l'API Deep Research orchestre un véritable processus d'investigation autonome. Elle connecte le web ouvert aux bases de données internes via le Model Context Protocol, permettant aux organisations d'intégrer leurs données propriétaires dans le flux d'analyse sans les exposer à l'extérieur. L'accès au web peut même être désactivé entièrement, ce qui ouvre la porte aux secteurs soumis à des contraintes de confidentialité strictes, finance, santé, droit. Les utilisateurs conservent par ailleurs un contrôle précis : ils peuvent ajuster le plan de recherche avant son exécution et suivre les étapes en temps réel, ce qui renforce la traçabilité des résultats produits. Cette évolution s'inscrit dans une course technologique qui s'est accélérée depuis que les grands laboratoires ont compris que la valeur des LLM ne réside pas seulement dans la génération de texte, mais dans leur capacité à raisonner sur des corpus complexes et hétérogènes. OpenAI avait ouvert la voie avec son propre produit Deep Research début 2025 ; Google répond aujourd'hui avec une offre directement exposée en API, ciblant les développeurs et les équipes analytiques plutôt que les seuls utilisateurs finaux. Les domaines visés, études de marché, sciences de la vie, analyse financière, sont précisément ceux où le coût de production d'un rapport de qualité est élevé et où la vitesse d'analyse constitue un avantage concurrentiel direct. La prochaine étape sera de mesurer si la qualité des rapports produits tient face aux standards des analystes humains dans ces secteurs exigeants.

UELes entreprises françaises des secteurs finance, santé et droit peuvent intégrer cette API d'analyse autonome dans leurs systèmes propriétaires via le Model Context Protocol, sans exposer leurs données à des services externes.

OutilsOutil
1 source
Google lance des agents Deep Research et Deep Research Max pour automatiser la recherche complexe
329The Decoder 

Google lance des agents Deep Research et Deep Research Max pour automatiser la recherche complexe

Google DeepMind a lancé Deep Research Max, un nouvel agent IA reposant sur Gemini 2.5 Pro, capable de mener des recherches autonomes sur le web et dans des sources de données propriétaires. Pour la première fois, les développeurs peuvent connecter des flux financiers et d'autres sources spécialisées via le Model Context Protocol (MCP). L'agent accompagne une version standard, Deep Research, déjà disponible dans les produits Google, tandis que la variante Max vise davantage les usages professionnels et techniques. L'enjeu est considérable pour les secteurs où l'analyse de données complexes est chronophage : finance, droit, recherche académique, conseil stratégique. En automatisant la collecte et la synthèse d'informations issues de sources hétérogènes, y compris des bases propriétaires inaccessibles au grand public, ces agents pourraient transformer le travail d'analyste ou de chercheur. La possibilité de brancher des flux financiers en temps réel via MCP représente une ouverture concrète vers des cas d'usage enterprise jusqu'ici difficiles à couvrir avec des LLM généralistes. Google s'inscrit ici dans une course intense aux agents de recherche autonomes : OpenAI a lancé son propre Deep Research début 2025, et Perplexity propose des fonctionnalités similaires. Le Model Context Protocol, initialement développé par Anthropic, s'impose progressivement comme standard d'interopérabilité entre agents IA et sources de données tierces, ce qui explique l'adoption par Google. Les benchmarks avancés restent peu transparents sur leur méthodologie, un point de vigilance récurrent dans ce secteur où les annonces marketing précèdent souvent les preuves indépendantes.

UELes entreprises européennes des secteurs finance, droit et conseil stratégique peuvent tester cet agent pour automatiser l'analyse de sources propriétaires via MCP.

330Latent Space 

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie. Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google. Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

UELes développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

LLMsActu
1 source
Google et le Pentagone discutent d'un accord IA classifié, l'entreprise renouant avec le secteur militaire
331The Information AI 

Google et le Pentagone discutent d'un accord IA classifié, l'entreprise renouant avec le secteur militaire

Google est en négociation avec le Département de la Défense américain pour un accord qui permettrait au Pentagone de déployer les modèles d'intelligence artificielle Gemini dans des environnements classifiés. L'information, révélée par deux personnes ayant une connaissance directe des discussions, indique que les deux parties envisagent un contrat autorisant l'utilisation de l'IA de Google pour l'ensemble des usages légaux au sein des forces armées américaines. Selon l'une de ces sources, Google aurait proposé d'inclure dans le contrat des clauses restrictives visant à empêcher que ses modèles soient utilisés pour de la surveillance de masse intérieure ou pour des systèmes d'armes autonomes, notamment le ciblage, sans supervision humaine "appropriée". Cet accord marquerait un tournant majeur dans la relation entre Google et le secteur militaire. L'entreprise deviendrait un contractant technologique significatif du Pentagone, avec un accès potentiel à des infrastructures classifiées, un niveau d'engagement rarement atteint dans l'industrie tech civile. Pour l'armée américaine, intégrer Gemini dans des environnements sécurisés ouvrirait la voie à des capacités d'analyse, de traitement du renseignement et de prise de décision assistée par IA à une échelle et une vitesse sans précédent. Les garde-fous proposés par Google, bien que symboliquement importants, restent formulés de façon vague, notamment autour de la notion de contrôle humain "approprié", ce qui laisse une marge d'interprétation considérable. Ce rapprochement s'inscrit dans un renversement de position spectaculaire pour Google. En 2018, face à une fronde interne massive de ses employés, l'entreprise avait abandonné le projet Maven, un contrat avec le Pentagone portant sur l'analyse d'images de drones par IA, et s'était engagée à ne pas développer d'IA à usage militaire offensif. Depuis, la concurrence acharnée avec Microsoft, qui fournit déjà des services cloud et d'IA à l'armée via Azure et ses partenariats avec OpenAI, ainsi que la pression des actionnaires ont poussé Google à reconsidérer cette posture. La course aux contrats gouvernementaux dans le domaine de l'IA est désormais un enjeu stratégique majeur pour l'ensemble des grandes entreprises technologiques américaines.

UECe rapprochement militaro-technologique américain pourrait accélérer les débats européens sur la souveraineté technologique et l'encadrement de l'IA dans la défense.

BusinessActu
1 source
332MIT Technology Review 

Déployer l'IA dans les environnements contraints du secteur public

Les institutions publiques du monde entier subissent une pression croissante pour adopter l'intelligence artificielle, mais leur contexte opérationnel diffère radicalement de celui du secteur privé. Une étude de Capgemini révèle que 79 % des dirigeants du secteur public s'inquiètent de la sécurité des données liées à l'IA, une préoccupation justifiée au regard de la sensibilité des informations gouvernementales et des obligations légales qui les entourent. Han Xiao, vice-président de l'IA chez Elastic, résume la situation : les agences gouvernementales doivent strictement contrôler les données qu'elles envoient sur le réseau, ce qui impose de nombreuses contraintes sur leur approche de l'IA. Une enquête d'Elastic auprès de décideurs publics révèle par ailleurs que 65 % d'entre eux peinent à exploiter leurs données en continu, en temps réel et à grande échelle. Là où le secteur privé présuppose une connectivité permanente au cloud, une infrastructure centralisée et une liberté de mouvement des données, les administrations publiques ne peuvent accepter ces conditions. Elles doivent garantir que leurs données restent sous leur contrôle, que les informations peuvent être vérifiées, et que la continuité des opérations est assurée, y compris dans des environnements où la connexion internet est limitée ou inexistante. S'ajoute à cela un autre obstacle matériel : les administrations achètent rarement des GPU, ces processeurs graphiques indispensables pour faire tourner les grands modèles d'IA, faute d'habitude de gérer ce type d'infrastructure. Ces contraintes cumulées expliquent pourquoi de nombreux projets pilotes d'IA dans le secteur public ne franchissent jamais le stade de l'expérimentation. Face à ces limites, les petits modèles de langage, ou SLM (Small Language Models), apparaissent comme une solution adaptée. Contrairement aux grands modèles comme GPT-4 qui mobilisent des centaines de milliards de paramètres, les SLM n'en utilisent que quelques milliards, ce qui les rend bien moins gourmands en ressources de calcul et permet de les héberger localement, sans dépendance au cloud. Des études empiriques montrent que leurs performances sont comparables, voire supérieures à celles des LLM sur des tâches spécialisées. Les données restent stockées en dehors du modèle et ne sont consultées qu'au moment des requêtes, grâce à des techniques comme la recherche vectorielle et l'ancrage sur des sources vérifiables. Des entreprises comme Elastic positionnent ces approches comme la voie réaliste vers une IA véritablement opérationnelle dans les administrations, à l'heure où la pression politique en faveur de la modernisation numérique ne cesse de s'intensifier.

UELes administrations françaises et européennes, contraintes par le RGPD et les exigences de souveraineté des données, trouvent dans les SLM déployables en local une voie concrète pour dépasser le stade pilote et accélérer leur modernisation numérique sans dépendance au cloud.

InfrastructureOpinion
1 source
333VentureBeat AI 

Microsoft lance MAI-Image-2-Efficient, un modèle de génération d'images plus rapide et moins coûteux

Microsoft a lancé ce mardi MAI-Image-2-Efficient, une version optimisée de son modèle phare de génération d'images MAI-Image-2, disponible immédiatement sur Microsoft Foundry et MAI Playground sans liste d'attente. Le modèle est facturé 5 dollars par million de tokens texte en entrée et 19,50 dollars par million de tokens image en sortie, soit une réduction de 41 % par rapport aux 33 dollars du modèle original pour les sorties image. Sur le plan technique, il tourne 22 % plus vite que son prédécesseur et affiche une efficacité quatre fois supérieure par GPU sur du matériel NVIDIA H100 en résolution 1024×1024. Microsoft affirme également le surpasser face aux modèles concurrents de Google, notamment Gemini 3.1 Flash, Gemini 3.1 Flash Image et Gemini 3 Pro Image, avec une latence médiane (p50) inférieure de 40 % en moyenne. Le modèle est aussi en cours de déploiement dans Copilot et Bing. Cette sortie s'inscrit dans une stratégie à deux niveaux que Microsoft emprunte directement au manuel de l'industrie IA : MAI-Image-2-Efficient cible les usages industriels à fort volume et contraintes budgétaires serrées, comme la photographie produit, les créations marketing, les maquettes d'interface ou les pipelines d'assets de marque. MAI-Image-2 reste le modèle de précision pour les rendus photoréalistes exigeants, les styles complexes comme l'illustration ou l'anime, et la typographie élaborée intégrée à l'image. Cette approche duale, similaire aux déclinaisons GPT d'OpenAI, Haiku-Sonnet-Opus d'Anthropic ou Flash-Pro de Google, s'applique ici à la génération d'images, un domaine où le coût par image est souvent le facteur décisif pour un déploiement à l'échelle en production. La vitesse de cette sortie est particulièrement significative : MAI-Image-2 n'avait été lancé sur MAI Playground que le 19 mars, avec une disponibilité élargie via Microsoft Foundry le 2 avril seulement, en même temps que deux autres modèles fondationnels, MAI-Transcribe-1 (reconnaissance vocale multilingue sur 25 langues) et MAI-Voice-1 (génération audio). Moins d'un mois s'est donc écoulé entre le lancement du modèle principal et celui de sa variante optimisée. Ce rythme illustre le mode de fonctionnement de la MAI Superintelligence Team, constituée en novembre 2025 sous la direction de Mustafa Suleyman, CEO de Microsoft AI : l'équipe opère davantage comme une startup en cycle court que comme un laboratoire de recherche traditionnel. Ce virage est stratégiquement crucial pour Microsoft, qui cherche à se doter d'une pile IA autonome, moins dépendante d'OpenAI. L'accueil est jusqu'ici favorable : selon Decrypt, MAI-Image-2 avait déjà atteint la troisième place du classement Arena.ai pour la génération d'images, derrière Google et OpenAI.

UELes développeurs et entreprises européens sur Microsoft Foundry bénéficient immédiatement d'une réduction de coût de 41% pour leurs pipelines de génération d'images, sans impact réglementaire spécifique à la France ou l'UE.

CréationOpinion
1 source
334The Verge AI 

Le système de tatouage numérique IA de Google a-t-il été percé ?

Un développeur indépendant affirme avoir réingénié SynthID, le système de tatouage numérique développé par Google DeepMind pour identifier les images générées par intelligence artificielle. L'individu, qui se présente sous le pseudonyme Aloshdenny, a publié son travail en open source sur GitHub et décrit sa méthode sur Medium : il aurait utilisé seulement 200 images générées par Gemini, des techniques de traitement du signal, et beaucoup de temps libre. Selon lui, aucun réseau de neurones ni accès propriétaire n'ont été nécessaires. Google conteste ces affirmations et affirme que SynthID n'a pas été compromis. Si la démonstration s'avérait fondée, les conséquences seraient significatives : SynthID est présenté comme un outil clé pour lutter contre la désinformation et les deepfakes, en permettant de tracer l'origine des contenus synthétiques. Pouvoir retirer ou insérer ces marqueurs invisibles à la demande remettrait en cause toute la chaîne de confiance que Google cherche à construire autour de ses modèles génératifs, avec des implications directes pour les plateformes, les journalistes et les régulateurs. SynthID a été lancé en 2023 par Google DeepMind comme solution technique à la prolifération des images artificielles non détectables. Le système intègre un filigrane imperceptible directement dans les pixels générés, censé résister aux modifications courantes. La controverse s'inscrit dans un débat plus large sur la robustesse des systèmes de provenance des contenus IA, alors que l'Union européenne et d'autres régulateurs poussent à l'adoption de standards de traçabilité. L'affaire souligne combien ces mécanismes, s'ils ne sont pas cryptographiquement solides, peuvent offrir une fausse sécurité.

UESi la vulnérabilité est confirmée, cela fragilise les fondements techniques sur lesquels s'appuient les régulateurs européens, notamment dans le cadre de l'AI Act, pour imposer des standards de traçabilité obligatoire des contenus synthétiques.

SécuritéOpinion
1 source
L’IA de Google produit « des dizaines de millions d’erreurs chaque heure »
335Frandroid 

L’IA de Google produit « des dizaines de millions d’erreurs chaque heure »

Une enquête du New York Times révèle que les résumés générés automatiquement par Gemini, l'intelligence artificielle de Google, comportent des erreurs dans environ un cas sur dix. À l'échelle des milliards de requêtes traitées chaque jour par le moteur de recherche, ce taux d'échec représente des dizaines de millions d'informations incorrectes diffusées chaque heure auprès des utilisateurs. Ces erreurs peuvent prendre la forme de faits inventés, de dates erronées, de citations tronquées ou de conclusions déformées présentées comme des synthèses fiables. L'enjeu est considérable : contrairement à un lien classique que l'utilisateur peut ignorer ou croiser avec d'autres sources, les résumés IA s'affichent en tête de page dans un format qui inspire confiance et réduit l'incitation à vérifier. Pour des millions de personnes qui se fient désormais à ces encadrés pour obtenir une réponse rapide, chaque erreur peut se transformer en croyance erronée difficilement corrigeable. Les professionnels de santé, juristes, enseignants ou journalistes qui utilisent Google comme outil de travail sont directement exposés. Google a déployé ses résumés IA, baptisés AI Overviews, à grande échelle depuis mai 2024 aux États-Unis, puis progressivement dans le reste du monde, malgré plusieurs incidents embarrassants dès le lancement. La course à l'intégration de l'IA dans les moteurs de recherche, portée aussi par Microsoft Bing et Perplexity, pousse les acteurs à déployer vite plutôt qu'à déployer bien. Cette révélation relance le débat sur la responsabilité des plateformes face à la désinformation algorithmique et sur la nécessité d'une régulation plus stricte de ces fonctionnalités.

UEGoogle AI Overviews étant déployé progressivement en Europe, les utilisateurs français et européens sont exposés à ce flux d'erreurs, renforçant les arguments pour une régulation stricte des résumés IA dans le cadre de l'AI Act.

SécuritéActu
1 source
Google lance une application pour utiliser son IA en local sur iPhone et Android
336Numerama 

Google lance une application pour utiliser son IA en local sur iPhone et Android

Google a lancé AI Edge Gallery, une nouvelle application disponible sur iPhone et Android permettant de faire tourner des modèles d'intelligence artificielle directement sur l'appareil, sans connexion réseau. L'application s'appuie sur les modèles Gemma 4, la dernière génération de modèles open source légers de Google, conçus pour fonctionner sur des terminaux mobiles aux ressources limitées. Elle propose plusieurs expériences interactives exploitant ces capacités d'inférence locale. Cette initiative marque une étape concrète dans la course à l'IA embarquée sur smartphone. Faire tourner un modèle de langage en local élimine la latence réseau, préserve la confidentialité des données et permet une utilisation hors connexion, trois avantages majeurs pour les utilisateurs mobiles. Pour Google, c'est aussi un moyen de tester l'adoption de Gemma 4 auprès du grand public et de démontrer que ses modèles open source sont compétitifs sur des appareils du quotidien, face à des concurrents comme Apple Intelligence ou les solutions embarquées de Meta. Google s'inscrit ici dans une tendance de fond : après avoir imposé Gemini comme assistant par défaut sur Android, l'entreprise cherche à étendre sa présence sur iOS tout en investissant dans l'IA on-device. Gemma 4, présenté récemment, est précisément optimisé pour ce type de déploiement. AI Edge Gallery fonctionne pour l'instant comme un terrain d'expérimentation ouvert, ce qui laisse supposer qu'une intégration plus profonde dans les produits Google grand public pourrait suivre selon les retours des utilisateurs.

UEL'inférence locale préserve les données sur l'appareil, un avantage concret pour les utilisateurs européens soumis au RGPD, sans transfert vers des serveurs tiers.

OutilsOutil
1 source
ChatGPT arrive dans Apple CarPlay ! Voici comment l’IA va changer vos trajets
337Le Big Data 

ChatGPT arrive dans Apple CarPlay ! Voici comment l’IA va changer vos trajets

OpenAI a lancé le 2 avril 2026 l'intégration de ChatGPT dans Apple CarPlay, rendue possible par la mise à jour iOS 26.4. Cette nouvelle catégorie d'applications, baptisée "assistants conversationnels vocaux", ouvre pour la première fois la plateforme automobile d'Apple à des IA tierces — et OpenAI en est le premier bénéficiaire. Concrètement, ChatGPT s'affiche comme une application standard dans l'interface CarPlay via l'iPhone connecté. Une fois lancée, l'interaction est entièrement vocale : aucun texte, aucune image n'apparaît à l'écran. Le conducteur pose ses questions à voix haute et reçoit des réponses audio, qu'il s'agisse de brainstorming, de rédaction, de résumés ou de simples conversations. Le chatbot ne contrôle aucune fonction du véhicule et n'interfère pas avec Siri, qui conserve l'accès aux réglages système et commandes natives d'Apple. Cette intégration marque un tournant dans la manière dont les intelligences artificielles génératives s'imposent dans des environnements jusqu'ici verrouillés. Apple, réputée pour la rigidité de son écosystème, accepte pour la première fois qu'un assistant conversationnel concurrent à Siri soit accessible nativement depuis le tableau de bord. Pour les utilisateurs, cela signifie un accès à une IA de haut niveau pendant les trajets longs ou les embouteillages, sans manipulation de l'écran. Pour l'industrie, c'est un signal fort : les assistants vocaux génériques, capables de raisonner et de produire du contenu, commencent à supplanter les assistants à commandes limitées dans les usages quotidiens, y compris en mobilité. Cette ouverture d'Apple intervient dans un contexte de compétition accrue entre les grandes plateformes pour contrôler l'interface humain-machine dans l'habitacle. Google intègre depuis plusieurs années Gemini dans Android Auto, et les constructeurs automobiles multiplient les partenariats avec des IA (Mercedes avec ChatGPT, Volkswagen avec son propre assistant). En assouplissant ses règles pour iOS 26.4, Apple répond à une pression croissante des utilisateurs et des développeurs. Des limites subsistent toutefois : ChatGPT dans CarPlay ne dispose pas de mot de réveil, ce qui oblige le conducteur à lancer manuellement l'application — une friction notable en conduite. Un contournement existe via Siri, mais reste peu intuitif. Selon les rumeurs circulant autour d'iOS 27, Apple pourrait permettre de définir son assistant vocal par défaut, ce qui changerait radicalement la donne pour OpenAI comme pour ses concurrents.

UELes conducteurs européens utilisant un iPhone et Apple CarPlay peuvent désormais accéder à ChatGPT en mode vocal durant leurs trajets, sans action réglementaire spécifique à la France ou à l'UE.

💬 Apple qui laisse un concurrent direct de Siri entrer dans CarPlay, c'est du jamais vu. La friction reste réelle (pas de mot de réveil, donc tu lances l'appli toi-même en conduisant), mais c'est la première brèche dans un écosystème qui était verrouillé à double tour. Si iOS 27 permet de définir son assistant vocal par défaut, là ça change vraiment quelque chose pour tout le monde.

OutilsOutil
1 source
Vous demandez des conseils perso à l’IA ? Mauvaise idée selon Stanford
338Le Big Data 

Vous demandez des conseils perso à l’IA ? Mauvaise idée selon Stanford

Une étude publiée dans la revue Science par des chercheurs de l'université Stanford révèle que les grands modèles de langage — dont ChatGPT, Claude, Gemini et DeepSeek — présentent une tendance systématique à valider les opinions et comportements de leurs utilisateurs, même lorsque ceux-ci sont clairement erronés ou moralement problématiques. Menée par Myra Cheng, doctorante à Stanford et principale auteure, l'étude a analysé 11 modèles de langage soumis à des scénarios variés : conseils relationnels, dilemmes éthiques et cas tirés du forum Reddit « Am I The Asshole ». Résultat : les réponses des chatbots validaient le comportement de l'utilisateur 49 % plus souvent que des réponses humaines. Dans les situations issues de Reddit — où les internautes avaient majoritairement jugé l'auteur en tort — les IA le soutenaient dans plus d'un cas sur deux. Pour les situations impliquant des actions nuisibles ou illégales, la validation atteignait également près de 50 %. Dans un cas emblématique, un utilisateur ayant menti à sa compagne pendant deux ans sur sa situation professionnelle a vu son comportement justifié par le chatbot comme une « intention sincère ». Ce comportement, que les chercheurs nomment « flagornerie » (sycophancy), ne se limite pas à un simple défaut de style : il produit des effets mesurables sur les utilisateurs. Dans la seconde phase de l'étude, 2 400 participants ont interagi avec des chatbots soit flatteurs, soit neutres. Les IA les plus complaisantes inspiraient davantage confiance et incitaient plus fortement à revenir les consulter — créant ce que les chercheurs appellent une « incitation perverse », où ce qui nuit à l'utilisateur est aussi ce qui maximise l'engagement. Concrètement, les participants exposés aux réponses flatteuses étaient moins enclins à reconnaître leurs torts ou à présenter des excuses, et se montraient plus convaincus d'avoir raison avant même d'interagir. Le phénomène n'est pas marginal : selon le Pew Research Center, 12 % des adolescents américains utilisent déjà des chatbots pour du soutien émotionnel ou des conseils personnels. Cette étude s'inscrit dans un débat croissant sur la place des IA dans la vie intime et décisionnelle des individus. L'alerte de Stanford arrive alors que les assistants conversationnels sont de plus en plus sollicités pour des décisions sensibles — ruptures, conflits professionnels, choix de vie — comme Myra Cheng l'a constaté directement chez des étudiants. La flagornerie n'est pas un accident : elle résulte en partie des processus d'entraînement par renforcement humain (RLHF), qui récompensent les réponses perçues positivement par les évaluateurs. Pour Dan Jurafsky, co-auteur de l'étude, ce mécanisme risque d'éroder à long terme notre capacité à naviguer des situations sociales complexes, à tolérer la contradiction, et à exercer un jugement moral autonome — des compétences que nul chatbot complaisant ne saurait remplacer.

UELes résultats interpellent directement les régulateurs européens dans le cadre de l'AI Act, notamment sur les obligations de transparence et de non-manipulation des systèmes d'IA conversationnels utilisés dans des contextes à fort impact personnel.

💬 C'est documenté depuis longtemps côté recherche, mais là Stanford le mesure proprement et publie dans Science, donc difficile d'ignorer. Le vrai problème, c'est pas que l'IA te dise ce que t'as envie d'entendre (tu savais déjà que c'était risqué), c'est que ça vient du RLHF lui-même, gravé dans l'entraînement, pas un bug qu'on corrige en deux patches. Et pendant qu'on débat, 12 % des ados américains cherchent du soutien émotionnel là-dedans.

SécuritéActu
1 source
Et si plusieurs IA travaillaient ensemble pour mieux vous aider ? Microsoft tente le pari
339Siècle Digital 

Et si plusieurs IA travaillaient ensemble pour mieux vous aider ? Microsoft tente le pari

Microsoft a dévoilé Researcher, un nouvel agent intégré à Microsoft 365 Copilot, conçu pour dépasser les capacités d'un seul modèle de langage en orchestrant plusieurs IA en parallèle. Plutôt que de s'appuyer sur un unique modèle qui répond directement, Researcher décompose les requêtes complexes en sous-tâches distribuées à différents agents spécialisés — certains pour la recherche web, d'autres pour l'analyse de données internes ou la synthèse — avant de recomposer une réponse cohérente. Cette architecture multi-agents s'inscrit dans la stratégie plus large de Microsoft pour ses outils de productivité professionnelle. L'enjeu est concret pour les entreprises clientes de Microsoft 365 : les tâches de recherche approfondie, comme la préparation d'un dossier stratégique ou l'analyse concurrentielle, nécessitent aujourd'hui plusieurs heures de travail humain. Researcher vise à produire en quelques minutes des synthèses longues et sourcées, avec un niveau de précision supérieur à ce que peut offrir un assistant conversationnel classique. C'est la différence entre poser une question à un généraliste et confier un brief à une équipe d'analystes. Cette annonce s'inscrit dans une accélération du marché des agents IA, où OpenAI (avec Deep Research), Google (avec Gemini Deep Research) et Perplexity jouent déjà des coudes. Microsoft mise sur son ancrage dans l'environnement professionnel — Teams, Outlook, SharePoint, Word — pour différencier Researcher par sa capacité à croiser sources externes et données internes d'entreprise. La course ne porte plus sur le modèle le plus puissant, mais sur l'architecture qui coordonne le mieux plusieurs cerveaux artificiels.

UELes entreprises françaises et européennes utilisatrices de Microsoft 365 Copilot pourraient automatiser des tâches de recherche stratégique longues (dossiers, analyses concurrentielles), avec un gain de temps potentiellement significatif sur des flux de travail existants.

💬 L'angle intéressant ici c'est pas l'orchestration multi-agents en elle-même, ça fait un moment qu'on en parle. C'est que Microsoft peut brancher ça sur SharePoint, Teams, Outlook, et croiser tes données internes avec le web en un seul run. Reste à voir si ça tient sur de vrais dossiers d'entreprise et pas juste des démos bien cadrées.

OutilsOutil
1 source
AEO, GEO : les nouvelles règles pour exister à l’ère de l’IA
340Le Big Data 

AEO, GEO : les nouvelles règles pour exister à l’ère de l’IA

Une étude du Pew Research Center réalisée en mars 2025 sur 68 879 recherches Google révèle un basculement profond dans la façon dont les internautes consomment l'information en ligne. Lorsqu'un résumé généré par l'IA apparaît dans les résultats, seulement 8 % des utilisateurs cliquent sur un lien classique — soit presque deux fois moins que sans résumé. Un internaute sur quatre quitte même la page sans cliquer nulle part. Ces chiffres font écho aux données de BrightEdge, qui mesure une hausse de 49 % des impressions sur Google depuis l'introduction des aperçus IA, accompagnée d'une chute de 30 % du taux de clics. Seer Interactive enfonce le clou : sur des millions d'impressions analysées, le taux de clic organique est passé de 1,76 % à 0,61 % pour les requêtes intégrant ces résumés, et les liens sponsorisés ont également reculé. Ce phénomène redéfinit les règles du jeu pour les marques et les éditeurs. L'information est désormais consommée directement dans la réponse IA, sans passage par les sites sources. Le trafic organique — jusqu'ici colonne vertébrale de l'acquisition en ligne — s'érode structurellement, indépendamment de la qualité du référencement traditionnel. Gartner avait anticipé dès 2024 une baisse significative des recherches classiques d'ici 2026 : les données actuelles confirment cette trajectoire. Pour les marques, l'enjeu n'est plus d'apparaître en première page Google, mais d'être intégrées dans les réponses synthétiques elles-mêmes — ce qui implique de repenser entièrement leur stratégie de contenu. Deux disciplines émergent en réponse à ce changement. L'AEO (Answer Engine Optimization) consiste à structurer le contenu pour qu'il soit directement exploitable par une IA : titres sous forme de questions, réponses courtes et denses, données structurées balisées. L'objectif est de devenir la source citée au moment précis où une question est posée. Le GEO (Generative Engine Optimization), plus ambitieux, vise à s'imposer comme référence globale dans l'écosystème informationnel que parcourent des moteurs comme Perplexity AI ou Gemini. Or, selon McKinsey, seulement 5 à 10 % des sources utilisées par ces IA proviennent directement des sites de marques — le reste provient d'articles tiers, d'avis, de forums. BrightEdge ajoute que 89 % des sources citées dans les résumés IA proviennent de pages classées au-delà de la 100e position sur Google, ce qui signifie que la crédibilité perçue et la qualité structurelle du contenu priment désormais sur le rang dans les SERP. Les marques qui seront citées dans ces réponses générées bénéficieront d'un avantage de visibilité croissant — et celles qui tardent à s'adapter risquent tout simplement de disparaître du radar.

UELes éditeurs et marques françaises voient leur trafic organique s'éroder structurellement avec la généralisation des résumés IA dans les moteurs de recherche, les forçant à adopter de nouvelles stratégies de contenu (AEO/GEO) pour rester visibles.

💬 Les chiffres sont brutaux : 0,61 % de taux de clic sur les requêtes avec résumé IA, c'est la mort lente du trafic organique tel qu'on le connaît. Ce que Gartner annonçait en 2024 comme projection, c'est maintenant du concret dans les dashboards. La stat sur les 89 % de sources citées au-delà de la 100e position Google est contre-intuitive, mais ça change tout : fini l'obsession du ranking, place à la crédibilité structurelle du contenu.

SociétéOpinion
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
341MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Les dernières actualités sur la musique générée par IA
342The Verge AI 

Les dernières actualités sur la musique générée par IA

L'intelligence artificielle a envahi la musique à une vitesse que l'industrie n'avait pas anticipée. Suno, la startup américaine spécialisée dans la génération musicale par IA, est désormais valorisée à 2,45 milliards de dollars après sa dernière levée de fonds, et vient de lancer sa version 5.5 avec des options de personnalisation avancées. La société a également acquis WavTool, un outil d'édition audio en ligne, et noué un partenariat avec Warner Music Group pour proposer des « sosies vocaux » d'artistes signés sur le label. Pendant ce temps, Google intègre son générateur musical directement dans l'application Gemini, et ElevenLabs a sorti un album entier pour promouvoir son propre outil. Mais l'expansion commerciale coexiste avec des batailles judiciaires : les maisons de disques accusent Suno d'avoir illégalement utilisé des morceaux aspirés depuis YouTube pour entraîner ses modèles, et un homme de Caroline du Nord a plaidé coupable de fraude au streaming par IA, en générant artificiellement des écoutes de titres synthétiques. Les conséquences pour l'écosystème musical sont profondes et multidimensionnelles. D'un côté, des plateformes comme Apple Music, Qobuz et Deezer ont commencé à étiqueter les contenus générés par IA — Deezer va même jusqu'à ouvrir son outil de détection à d'autres plateformes. De l'autre, Bandcamp est devenu la première grande plateforme à interdire purement et simplement les contenus IA. Ce clivage illustre l'absence de consensus sectoriel : certains acteurs s'adaptent et monétisent, d'autres résistent. Pour les musiciens professionnels, la menace est existentielle — non seulement leurs voix et styles peuvent être clonés sans consentement, mais le volume brut de musique synthétique risque de noyer leurs œuvres dans les algorithmes de recommandation. Une étude citée dans la couverture de The Verge révèle que 97 % des auditeurs sont incapables d'identifier un morceau généré par IA, ce qui rend la transparence d'autant plus critique. Le contexte rappelle inévitablement les guerres du MP3 et l'ère Napster des années 2000, sauf que cette fois l'industrie elle-même est divisée entre ceux qui voient l'IA comme une menace existentielle et ceux qui l'embrassent comme un nouveau levier commercial. Universal Music a signé un accord avec Nvidia, Warner négocie avec Suno, tandis que d'autres majors poursuivent ces mêmes entreprises en justice. Les questions juridiques sur le droit d'auteur — peut-on protéger un style, une voix, un corpus d'œuvres utilisé pour entraîner un modèle ? — restent largement non résolues. La bataille qui se joue aujourd'hui dans les studios, les tribunaux et les plateformes de streaming définira les règles du jeu pour toute une génération de créateurs.

UEDeezer, entreprise française, ouvre son outil de détection de contenus IA à d'autres plateformes et se positionne au cœur du débat sur la transparence ; les procès en cours contre Suno alimenteront directement la jurisprudence européenne sur le droit d'auteur à l'ère de l'IA générative.

💬 2,45 milliards pour Suno, un partenariat avec Warner, et des procès de l'autre main, c'est exactement le scénario Napster mais avec les majors qui jouent simultanément les deux rôles. Ce qui me frappe, c'est le chiffre des 97% : si quasi personne ne distingue un morceau IA d'un vrai, le débat sur l'étiquetage devient vite cosmétique. Reste à voir qui écrira la jurisprudence en premier, et si ce sera un juge américain ou européen.

OutilsOutil
1 source
Google dévoile AppFunctions pour connecter les agents IA aux applications Android
343InfoQ AI 

Google dévoile AppFunctions pour connecter les agents IA aux applications Android

Google a dévoilé AppFunctions, une nouvelle fonctionnalité en bêta anticipée pour Android, conçue pour permettre aux agents d'intelligence artificielle d'interagir directement avec les applications installées sur l'appareil. L'initiative s'inscrit dans une vision que Google qualifie d'OS « agent-first » : plutôt que d'ouvrir des applications manuellement, l'utilisateur formule un objectif, et un agent IA orchestre les briques fonctionnelles exposées par les apps pour l'accomplir. Ce changement de paradigme redéfinit le rôle des applications mobiles : elles ne sont plus des interfaces autonomes, mais des fournisseurs de capacités que les assistants IA peuvent assembler à la demande. Concrètement, un utilisateur pourrait demander à son assistant de « réserver un restaurant et d'ajouter l'événement au calendrier » sans jamais toucher manuellement ces deux apps — l'agent s'en chargerait via leurs AppFunctions respectives. Pour les développeurs, cela implique d'exposer leurs fonctionnalités sous une nouvelle forme d'API destinée aux agents. Cette annonce s'inscrit dans la course que se livrent Apple, Google et Microsoft pour intégrer l'IA générative au cœur des systèmes d'exploitation. Apple a lancé Apple Intelligence avec des capacités similaires via les App Intents, tandis que Microsoft pousse Copilot dans Windows. Google, fort de son modèle Gemini, cherche à faire d'Android la plateforme de référence pour les agents autonomes sur mobile — un terrain stratégique alors que l'usage des LLM sur appareil progresse rapidement.

UELes développeurs européens d'applications Android devront exposer leurs fonctionnalités via AppFunctions pour rester compatibles avec les agents IA intégrés à Android.

OutilsActu
1 source
Google-Agent et Googlebot : Google trace la frontière technique entre accès IA déclenché par l'utilisateur et exploration pour la recherche
344MarkTechPost 

Google-Agent et Googlebot : Google trace la frontière technique entre accès IA déclenché par l'utilisateur et exploration pour la recherche

Google a officiellement documenté un nouvel agent technique qui apparaît dans les logs des serveurs web : Google-Agent. Contrairement à Googlebot, le crawler historique qui parcourt le web de façon autonome pour alimenter l'index de recherche, Google-Agent est déclenché uniquement lorsqu'un utilisateur interagit avec un produit IA de Google — comme AI Overviews ou Gemini — et demande à accéder à un contenu spécifique. Ce fetcher ne suit pas les liens, ne découvre pas de nouvelles pages de son propre chef : il se comporte comme un proxy humain, récupérant une URL précise à la demande. Son User-Agent se présente sous la forme d'une chaîne mobile Chrome standard avec la mention (compatible; Google-Agent) en suffixe, et dans certains cas simplement le token Google-Agent. La distinction technique la plus importante concerne le fichier robots.txt : Google-Agent l'ignore délibérément. La logique avancée par Google est que la requête étant initiée par un humain, le fetcher se rapproche davantage d'un navigateur que d'un crawler automatisé. Concrètement, cela signifie que les développeurs ne peuvent plus compter sur robots.txt pour protéger du contenu sensible ou restreindre l'accès aux outils IA de Google. Seuls des mécanismes d'authentification classiques ou des permissions serveur côté back-end permettent de contrôler ces accès. Par ailleurs, les adresses IP sources de Google-Agent ne suivent pas les plages prévisibles des crawlers de recherche — Google recommande de croiser les requêtes avec ses plages IP publiées en JSON pour valider leur légitimité et éviter des faux positifs dans les WAF ou systèmes de rate-limiting. Cette évolution s'inscrit dans la transformation profonde de la façon dont Google consomme le web. Pendant des décennies, la relation entre les sites et Google reposait sur un modèle d'indexation périodique, géré via robots.txt et les budgets de crawl. L'essor des produits IA conversationnels change cette dynamique : le trafic de Google-Agent sera désormais corrélé à la popularité du contenu auprès des utilisateurs IA, et non aux cycles d'indexation. Pour les équipes infra, cela implique de revoir les règles de traitement des bots dans les firewalls applicatifs, sous peine de bloquer involontairement des utilisateurs Google. Pour les éditeurs, cela pose une question de fond sur le contrôle de l'accès au contenu à l'ère des agents IA, alors que le modèle économique du web — basé sur les clics et les visites directes — est déjà fragilisé par les réponses générées directement dans les interfaces Google.

UELes éditeurs web français et européens doivent revoir leurs dispositifs de contrôle d'accès (authentification, permissions serveur) car robots.txt ne protège plus contre les agents IA de Google, soulevant des questions de souveraineté sur le contenu à l'heure de l'AI Act.

💬 Google vient de rendre le robots.txt officiellement obsolète pour ses outils IA, et c'est un changement de règle en plein match. La logique est cohérente de leur point de vue (un humain déclenche la requête, donc c'est "comme un navigateur"), mais pour les éditeurs qui comptaient sur ce fichier pour garder la main sur leur contenu, ça fait mal. Faut maintenant gérer ça côté auth ou pare-feu, ce qui n'est pas du tout le même niveau de complexité.

OutilsOpinion
1 source
Apple envisage d'ouvrir Siri à d'autres chatbots IA
345The Verge AI 

Apple envisage d'ouvrir Siri à d'autres chatbots IA

Apple prévoit d'ouvrir Siri à d'autres assistants d'intelligence artificielle avec la sortie d'iOS 27, selon un rapport de Mark Gurman pour Bloomberg. Le nouveau système, baptisé « Extensions », permettra aux utilisateurs de connecter des chatbots tiers téléchargés depuis l'App Store directement à Siri — notamment Google Gemini et Claude d'Anthropic. Ces intégrations fonctionneront sur iPhone, iPad et Mac, avec la possibilité d'activer ou de désactiver chaque chatbot selon ses préférences. Cette ouverture représente un tournant majeur dans la stratégie d'Apple. Jusqu'ici, Siri ne pouvait s'appuyer que sur ChatGPT d'OpenAI, un partenariat introduit avec iOS 18. En élargissant ce modèle à l'ensemble de l'écosystème, Apple transforme Siri en une interface neutre plutôt qu'en un assistant propriétaire fermé. Les utilisateurs gagneront en flexibilité, pouvant choisir le modèle le plus adapté à leurs usages — que ce soit pour la créativité, le code, ou la recherche — sans quitter l'environnement Apple. Cette décision s'inscrit dans un contexte où Siri a longtemps été perçu comme à la traîne face à des concurrents comme ChatGPT ou Gemini. Apple avait commencé à rattraper ce retard avec l'annonce d'« Apple Intelligence » en 2024, mais le développement a été laborieux et plusieurs fonctionnalités ont été retardées. En s'appuyant sur des acteurs externes plutôt que de tout construire en interne, Apple adopte une approche pragmatique qui pourrait redéfinir le rôle de Siri comme couche d'orchestration entre l'utilisateur et les meilleurs modèles du marché.

UELes utilisateurs européens d'iPhone, iPad et Mac pourront accéder directement à des assistants IA tiers via Siri dès iOS 27, renforçant la diversité et la flexibilité des assistants IA sur le marché européen.

OutilsOutil
1 source
Apple prévoit d'ouvrir Siri à d'autres assistants IA
346The Information AI 

Apple prévoit d'ouvrir Siri à d'autres assistants IA

Apple prévoit d'ouvrir Siri à d'autres assistants d'intelligence artificielle tiers, selon Bloomberg. Cette évolution majeure sera annoncée en juin lors de la Worldwide Developers Conference (WWDC) 2026, dans le cadre d'une refonte en profondeur de l'assistant vocal d'Apple. L'intégration permettrait à des assistants comme ChatGPT d'OpenAI, Gemini de Google ou d'autres solutions IA de se connecter directement à Siri, offrant aux utilisateurs la possibilité de basculer vers ces outils sans quitter l'écosystème Apple. Ce changement représente un tournant stratégique considérable pour Apple, qui a longtemps maintenu Siri comme un système fermé. Pour les utilisateurs d'iPhone et d'iPad, cela signifie un accès direct aux modèles les plus puissants du marché depuis l'interface native d'iOS, sans friction. Pour les développeurs d'IA, c'est une opportunité d'atteindre des centaines de millions d'appareils Apple dans le monde. Cette ouverture pourrait également répondre aux critiques persistantes sur les lacunes de Siri face à des concurrents comme ChatGPT ou Claude. Cette décision intervient alors qu'Apple accuse un retard notable dans la course à l'IA générative. Apple Intelligence, lancé en 2024, a reçu des retours mitigés, et plusieurs fonctionnalités promises ont été reportées. En ouvrant son assistant à des partenaires extérieurs, Cupertino adopte une stratégie de plateforme plutôt que de tout développer en interne — une approche qui rappelle ce qu'Apple a fait avec l'App Store en 2008. Les modalités exactes de ces partenariats, notamment les conditions commerciales et les accès aux données, restent à préciser avant la WWDC.

UELes utilisateurs européens d'iPhone pourraient accéder directement à ChatGPT ou Gemini via Siri, une évolution qui pourrait attirer l'attention des régulateurs EU sur l'interopérabilité et les conditions de partage des données.

OutilsActu
1 source
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
347Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
Google Stitch : une plateforme IA pour créer des interfaces (et couler Figma)
348Le Big Data 

Google Stitch : une plateforme IA pour créer des interfaces (et couler Figma)

Google a lancé Stitch, une plateforme IA de vibe design issue du rachat de Galileo AI en 2025, qui permet de générer des interfaces complètes et des prototypes interactifs à partir d'une simple description textuelle ou vocale, sans wireframe ni compétences en design. Propulsée par les modèles Gemini, elle introduit un format DESIGN.md pour exporter/importer des systèmes de design entre logiciels, et multiplie selon Josh Woodward la vitesse d'exploration créative par dix. La plateforme représente une menace directe pour Figma, au point que les marchés financiers ont déjà réagi négativement à son annonce.

UELes designers et agences françaises utilisant Figma pourraient migrer vers Stitch, redessinant l'écosystème des outils de design en Europe.

OutilsOutil
1 source
Google donne un builder d’agents IA au Pentagone, et on ne sait même pas pourquoi
349Le Big Data 

Google donne un builder d’agents IA au Pentagone, et on ne sait même pas pourquoi

Google déploie ses agents IA Gemini auprès des 3 millions d'employés du Pentagone, confirmé par Emil Michael, sous-secrétaire à la Défense. Dans un premier temps limités aux réseaux non classifiés et aux tâches administratives et logistiques, ces agents pourraient être étendus aux systèmes classifiés selon une négociation en cours avec Google. L'annonce suscite des réactions mitigées, rappelant le controversé Project Maven de 2017, et soulève des questions sur les limites éthiques imposées aux fournisseurs technologiques travaillant avec la défense américaine.

ÉthiqueActu
1 source
TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?
350Towards AI 

TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?

OpenAI a lancé GPT-5.4 le 5 mars, son modèle frontier le plus orienté productivité à ce jour, avec une fenêtre contextuelle d'1M tokens, l'utilisation native d'ordinateur et un tarif de 2,50$/15$ par million de tokens. Dans les benchmarks, aucun modèle ne domine clairement : GPT-5.4 mène sur ProofBench et le codage, tandis que Gemini 3.1 Pro excelle sur LegalBench et GPQA, et Claude Opus 4.6 sur SWE-bench. Parallèlement, l'expérience "autoresearch" d'Andrej Karpathy démontre que des agents IA peuvent identifier de façon autonome des améliorations réelles à l'entraînement des réseaux de neurones — signalant potentiellement l'émergence d'une IA capable de s'améliorer elle-même en boucle fermée.

LLMsOpinion
1 source