Aller au contenu principal

Dossier Meta IA — page 7

593 articles · page 7 sur 12

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

OpenAI triple son chiffre d'affaires à 5,7 milliards de dollars au premier trimestre, mais dépense 3,7 milliards pour y parvenir
301The Decoder BusinessOpinion

OpenAI triple son chiffre d'affaires à 5,7 milliards de dollars au premier trimestre, mais dépense 3,7 milliards pour y parvenir

Au premier trimestre 2026, OpenAI a enregistré 5,7 milliards de dollars de revenus, soit un triplement en glissement annuel. Dans le même temps, la société a brûlé environ 3,7 milliards de dollars de trésorerie sur la même période, là aussi trois fois plus qu'un an auparavant. La rémunération en actions des employés représente à elle seule plus de 2,3 milliards de dollars de ces dépenses, révélant l'ampleur des engagements salariaux contractés pour attirer et retenir les meilleurs talents de l'IA. Ces chiffres illustrent un paradoxe frappant : OpenAI croît à une vitesse rare dans l'histoire de la tech, mais ses coûts s'emballent au même rythme que ses revenus. Avec 73 milliards de dollars de réserves, l'entreprise n'a pas besoin de lever des fonds à court terme. Mais la rentabilité reste hors de portée, et la moindre pression supplémentaire sur les prix pourrait fragiliser cette position confortable. Une guerre tarifaire avec Anthropic, dont les modèles Claude gagnent du terrain auprès des entreprises, pourrait contraindre OpenAI à rogner ses marges et à consumer ses réserves bien plus vite que prévu. OpenAI a réalisé sa dernière grande levée de fonds début 2025, à une valorisation de 157 milliards de dollars, puis a amorcé une transformation en société à but lucratif. La concurrence s'est depuis intensifiée : Anthropic, Google avec Gemini, et Meta avec ses modèles open source exercent une pression croissante. Le modèle économique de l'IA générative repose toujours sur des coûts d'inférence et d'entraînement colossaux, et aucun acteur majeur n'a encore démontré qu'il pouvait scaler sans perdre de l'argent à grande échelle.

UELes entreprises européennes dépendantes des APIs OpenAI ou Anthropic pourraient subir une compression des prix en cas de guerre tarifaire entre ces acteurs, mais l'impact direct sur la France ou l'UE reste indirect à ce stade.

1 source
Amazon Bedrock Guardrails : protégez vos applications IA à base d'agents avec l'API InvokeGuardrailChecks
302AWS ML Blog 

Amazon Bedrock Guardrails : protégez vos applications IA à base d'agents avec l'API InvokeGuardrailChecks

Amazon Web Services a annoncé une nouvelle interface de programmation pour son service Amazon Bedrock Guardrails : l'API InvokeGuardrailChecks. Disponible dès à présent, elle permet aux développeurs d'appliquer des contrôles de sécurité individuels à n'importe quel point d'une application d'IA agentique, sans avoir à créer et gérer des ressources de guardrail dédiées en amont. Concrètement, l'API fonctionne en mode détection seule et retourne des scores numériques pour chaque vérification effectuée. Les équipes peuvent ensuite définir leurs propres seuils et décider de bloquer, contourner, relancer ou journaliser les résultats selon leurs besoins spécifiques. Cette annonce répond à un problème concret posé par les agents IA modernes, qui fonctionnent en boucles multi-tours plutôt qu'en simples échanges question-réponse. Une session utilisateur peut enchaîner dix, vingt interactions ou davantage, chacune présentant un profil de risque distinct : injection de prompt à l'entrée, contenu nuisible dans la réponse du modèle, données personnelles exposées dans un message de suivi. Jusqu'ici, sécuriser chaque étape de cette boucle supposait de provisionner des ressources de guardrail séparées pour chaque étape, une complexité opérationnelle qui devient ingérable à mesure qu'une organisation déploie des centaines d'agents. L'API InvokeGuardrailChecks supprime cette friction en offrant un contrôle granulaire, requête par requête, sur les vérifications à activer à chaque tour de boucle, sans identifiant de guardrail à suivre ni version à maintenir. Amazon Bedrock Guardrails existe depuis que l'entreprise a cherché à doter sa plateforme de services IA managés de mécanismes de filtrage du contenu, pour protéger aussi bien les entrées utilisateurs que les sorties des modèles fondamentaux. L'essor des architectures agentiques, où des modèles comme ceux d'Anthropic, Meta ou Mistral orchestrent des outils et prennent des décisions en autonomie, a rendu les approches de sécurité monolithiques insuffisantes. Le nouveau schéma de messages structuré, qui attribue un rôle explicite (système, utilisateur, assistant) à chaque bloc de contenu, permet aux vérifications de prendre en compte le contexte précis de chaque interaction dans la boucle. La prochaine étape pour AWS sera vraisemblablement d'étendre la liste des vérifications supportées et d'intégrer l'API plus étroitement avec les frameworks d'orchestration d'agents comme LangChain ou Amazon Bedrock Agents, alors que la sécurité des systèmes autonomes s'impose comme l'un des défis centraux de l'industrie pour 2026.

UELes développeurs européens utilisant Amazon Bedrock peuvent intégrer dès maintenant ces contrôles de sécurité granulaires dans leurs agents IA, ce qui facilite la conformité aux exigences de supervision humaine et de gestion des risques imposées par l'AI Act.

SécuritéOpinion
1 source
AT&T limite l'usage de l'IA de certains salariés avec l'essor du "tokenminimizing
303The Information AI 

AT&T limite l'usage de l'IA de certains salariés avec l'essor du "tokenminimizing

AT&T a commencé à restreindre l'accès de certains employés à GitHub Copilot de Microsoft, selon une source interne à l'entreprise. Meta a également mis en place des limites sur les dépenses d'IA de ses salariés pour des services comme ceux d'Anthropic et d'autres fournisseurs. Uber et Walmart ont eux aussi plafonné l'utilisation des outils d'IA dédiés au développement logiciel, selon Bloomberg. Amazon, de son côté, a supprimé son classement interne qui établissait un palmarès des employés selon leur niveau de consommation d'IA. Un phénomène suffisamment généralisé pour que l'on parle désormais de "tokenminimizing", en opposition au "tokenmaxxing" qui régnait encore il y a quelques mois. Ce virage marque un tournant significatif dans la façon dont les grandes entreprises américaines perçoivent l'IA au quotidien. Après une période d'enthousiasme débridé où les outils génératifs étaient présentés comme des leviers de productivité illimités, les directions financières font face à une réalité budgétaire concrète : les coûts d'inférence s'accumulent rapidement à l'échelle de milliers d'employés, et le retour sur investissement reste difficile à mesurer. Pour les salariés, ces restrictions signifient moins d'autonomie dans le choix des outils, et potentiellement un ralentissement de certains workflows devenus dépendants de l'assistance IA. Il y a quelques mois à peine, Meta encourageait une dynamique inverse : ses employés se livraient à une compétition informelle pour consommer le plus de tokens possible, dans une logique d'"utilisation maximale" des capacités offertes. Ce renversement brutal illustre la tension croissante entre les promesses de productivité portées par les éditeurs d'IA et la pression exercée par les investisseurs sur les coûts opérationnels des Fortune 500, d'Uber à Snowflake en passant par ServiceNow. Le PDG de Box, Aaron Levie, s'est démarqué en affirmant n'avoir jamais mis en place de classements ni encouragé le tokenmaxxing. Sa prudence originelle ressemble aujourd'hui à de la sagesse anticipée.

UELes grandes entreprises européennes dotées de budgets IA importants pourraient être confrontées aux mêmes pressions sur les coûts d'inférence, bien qu'aucun acteur français ou européen ne soit directement cité dans cet article.

BusinessOpinion
1 source
Nvidia mobilise 20 milliards de dollars de dette pour renforcer son offensive dans l’IA
304Le Big Data 

Nvidia mobilise 20 milliards de dollars de dette pour renforcer son offensive dans l’IA

Nvidia s'apprête à réaliser sa plus importante émission obligataire depuis 2021 en levant au moins 20 milliards de dollars sur les marchés de dette, avec un plafond potentiel de 25 milliards. L'opération, révélée dans un document déposé auprès de la SEC le 15 juin 2026, portera sur des obligations investment grade réparties sur sept maturités allant de 2 à 30 ans. Selon un porte-parole du groupe, les fonds serviront à des usages généraux, notamment au remboursement et au refinancement des quelque 8,5 milliards de dollars de dette existante, dont 7,5 milliards à long terme et 1 milliard à court terme. Le retour de Nvidia sur le marché obligataire intervient dans un contexte radicalement différent de 2021 : son chiffre d'affaires annuel est passé de 27 milliards à 216 milliards de dollars en quatre ans, porté par la demande explosive en GPU pour l'IA générative. Ce recours à la dette peut sembler paradoxal pour une entreprise qui a généré 49 milliards de dollars de free cash-flow lors du dernier trimestre, contre 35 milliards un an auparavant. Mais la logique est claire : profiter de conditions de financement attractives pour préserver la flexibilité financière du groupe tout en poursuivant des investissements massifs. Nvidia mène en parallèle une politique agressive de retour aux actionnaires, avec un programme de rachat d'actions de 80 milliards de dollars annoncé en mai et un dividende relevé, en visant à redistribuer environ la moitié de son flux de trésorerie disponible. La dette devient ainsi un levier d'optimisation du capital plutôt qu'un signal de fragilité, les marchés l'ont compris, l'action progressant de 3,5 % après l'annonce, affichant une hausse d'environ 14 % depuis le début de l'année. Depuis le lancement de ChatGPT fin 2022, la course à l'infrastructure IA s'est transformée en compétition industrielle à grande échelle. Les hyperscalers, Microsoft, Google, Amazon, Meta, se disputent les GPU de Nvidia pour entraîner et déployer leurs modèles avancés, créant une pression durable sur les capacités de production. D'autres géants technologiques multiplient également les levées de capitaux pour financer centres de données, composants et capacités énergétiques. Nvidia, en position de quasi-monopole sur les accélérateurs GPU pour l'IA, se retrouve au centre de cette dynamique et doit lui-même anticiper des investissements colossaux pour maintenir son avance technologique face à des concurrents comme AMD ou aux efforts d'internalisation des grandes plateformes. Avec cette émission de 20 milliards de dollars, le groupe ne cherche pas seulement à optimiser son bilan, il construit les fondations financières d'une domination qu'il entend prolonger sur la prochaine décennie de l'intelligence artificielle.

UEL'émission consolide la capacité d'investissement de Nvidia, dont les GPU dominent l'infrastructure IA sur laquelle s'appuient les acteurs et laboratoires européens du secteur.

BusinessOpinion
1 source
Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026
305ZDNET FR 

Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026

Les revenus des fonderies de semi-conducteurs ont atteint un niveau historique au premier trimestre 2026, portés par une demande en accélérateurs IA sans précédent. TSMC, le géant taïwanais qui fabrique les puces d'Apple, NVIDIA et AMD, a enregistré une hausse de ses revenus trimestriels dépassant 30 % sur un an, consolidant sa position de premier fondeur mondial. Samsung Foundry et d'autres acteurs de rang deux ont également bénéficié de cette dynamique, même si l'écart avec TSMC s'est creusé sur les noeuds les plus avancés (3 nm et 2 nm). Cette progression traduit une ruée des géants du cloud -- Microsoft, Google, Amazon, Meta -- vers les puces dédiées à l'inférence et à l'entraînement de modèles d'IA. Chaque centre de données construit pour faire tourner des LLMs représente des commandes massives de GPU et d'ASIC propriétaires, tous gravés en fonderie. Pour l'industrie, c'est une rupture de cycle : les fonderies sortent de la logique saisonnière liée aux smartphones pour entrer dans un régime de commandes structurellement plus stables et plus rentables. Ce record arrive après deux années difficiles marquées par la correction post-COVID et la chute de la demande grand public. La montée en puissance des ASIC maison chez les hyperscalers -- Google TPU, Amazon Trainium, Microsoft Maia -- diversifie les carnets de commandes au-delà de NVIDIA. La course aux capacités de production avancée s'intensifie : TSMC accélère ses usines en Arizona et au Japon, tandis que l'Europe et les Etats-Unis cherchent a reduire leur dependance a l'Asie via le CHIPS Act et son equivalent europeen.

UEL'Europe accélère son programme équivalent au CHIPS Act américain pour réduire sa dépendance aux fonderies asiatiques, mais reste très en retard sur TSMC pour la production de puces avancées à 3 nm et 2 nm.

InfrastructureOpinion
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
306Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
307arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

RechercheOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
308Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

RobotiqueOpinion
1 source
Facebook équipe les créateurs d’une IA… et ça inquiète
309Le Big Data 

Facebook équipe les créateurs d’une IA… et ça inquiète

Meta a annoncé le 4 juin 2026 le déploiement de Creator Assistant, un assistant IA intégré directement à Facebook et destiné aux créateurs de contenu. L'outil fonctionne comme un chatbot conversationnel : il analyse les statistiques d'un compte, les formats qui performent, les tendances d'engagement et l'évolution de l'audience, puis formule des recommandations personnalisées. Concrètement, un créateur peut lui poser des questions directes, pourquoi une publication a mieux marché qu'une autre, quel format publier ensuite, comment améliorer l'engagement, sans avoir à fouiller dans les tableaux de bord analytiques de la plateforme. L'assistant est censé apprendre au fil des échanges et adapter ses conseils selon les priorités déclarées : croissance d'audience, engagement ou monétisation. L'arrivée de cet outil répond à une réalité concrète : être créateur sur Facebook est devenu un travail à part entière, avec ses contraintes d'adaptation permanente à l'algorithme, ses formats qui évoluent sans cesse et ses statistiques à interpréter en permanence. Pour des milliers de créateurs, influenceurs, médias indépendants, marques, associations, qui gèrent seuls leur présence sur la plateforme, un assistant capable de synthétiser ces signaux représente un gain de temps potentiellement significatif. Meta positionne Creator Assistant comme un coach de contenu intégré, capable de transformer une analyse complexe en recommandations actionnables sans expertise technique particulière. Le lancement soulève pourtant des questions que l'emballage soigné de l'annonce ne dissipe pas. Pour fonctionner, Creator Assistant doit accéder à l'ensemble des données stratégiques d'un compte : contenus publiés, performances historiques, comportements d'audience, objectifs de croissance. Ces informations constituent précisément la valeur compétitive d'une présence en ligne, et Meta, qui possède déjà les règles algorithmiques de la plateforme ainsi que l'infrastructure publicitaire, en serait désormais également le conseiller. La question n'est pas anodine pour une entreprise dont la réputation en matière de gestion des données personnelles reste fragilisée par une décennie de controverses. S'y ajoute le risque inhérent aux assistants génératifs : formuler des recommandations erronées avec une confiance trompeuse, ce qui dans le cas d'une stratégie de contenu peut se traduire par une perte de visibilité ou d'audience. Creator Assistant s'inscrit dans une tendance plus large chez Meta, intégrer l'IA à chaque couche de Facebook, mais ce mouvement pose une question structurelle : jusqu'où est-il raisonnable de déléguer sa stratégie éditoriale à la plateforme qui en contrôle simultanément les règles, les données et maintenant les conseils ?

UECreator Assistant implique un accès élargi de Meta aux données stratégiques des créateurs européens, renforçant les préoccupations RGPD déjà soulevées par les régulateurs de l'UE face aux pratiques de la plateforme.

OutilsOutil
1 source
Qui achètera réellement l’action OpenAI ?
310FrenchWeb 

Qui achètera réellement l’action OpenAI ?

OpenAI a déposé confidentiellement son dossier d'introduction en Bourse auprès de la Securities and Exchange Commission américaine, tout en affirmant qu'aucune décision définitive n'a été arrêtée quant à la réalisation effective de cette IPO. L'entreprise, créatrice de ChatGPT et valorisée à 300 milliards de dollars lors de sa levée de fonds de 40 milliards de dollars en mars 2025, entend simplement préserver cette option sans s'y engager formellement. Le dépôt confidentiel, procédure courante aux États-Unis, permet à une société de préparer son entrée en Bourse loin des regards des concurrents et des marchés, avant de rendre le dossier public quelques semaines avant l'opération. La question centrale reste de savoir qui achètera réellement ces actions. OpenAI n'est pas encore rentable : ses coûts d'infrastructure et de calcul restent colossaux, et la concurrence s'intensifie avec Google, Anthropic, Mistral ou Meta. Les investisseurs institutionnels devront donc parier sur une rentabilité future dans un secteur où les marges sont incertaines et les modèles économiques en construction. L'appétit des marchés pour les valeurs IA reste fort, mais la valorisation actuelle implique des attentes de croissance extrêmement élevées. Cette annonce s'inscrit dans une période de transformation structurelle pour OpenAI, qui a amorcé début 2025 sa conversion en société à but lucratif classique, abandonnant son statut hybride original. Ce changement de gouvernance était précisément l'une des conditions préalables à une introduction en Bourse. Microsoft, son principal partenaire et investisseur avec plus de 13 milliards de dollars engagés, sera l'un des acteurs clés à surveiller dans ce processus, ses intérêts pouvant diverger de ceux des futurs actionnaires publics.

UEUne introduction en Bourse d'OpenAI renforcerait massivement ses capacités de financement face aux acteurs européens comme Mistral, creusant davantage le fossé de ressources entre l'IA américaine et européenne.

💬 300 milliards de valorisation pour une boîte pas rentable, sur un marché où Google et Meta jouent à domicile, c'est le genre de dossier qui va faire saliver les marchés six mois et flipper les analystes six mois plus tard. Le vrai sujet, c'est Microsoft : avec 13 milliards investis et une relation contractuelle profonde, leurs intérêts ne sont pas forcément alignés avec ceux d'un actionnaire lambda qui veut voir des bénéfices. Reste à voir si la conversion en société classique suffit à rendre le modèle lisible, parce que pour l'instant les chiffres ressemblent plus à un pari qu'à un business.

BusinessOpinion
1 source
Les développeurs du data center Stargate d'OpenAI font face à des coûts plus élevés
311The Information AI 

Les développeurs du data center Stargate d'OpenAI font face à des coûts plus élevés

À Abilene, au Texas, des ingénieurs de Crusoe, développeur de centres de données pour OpenAI et Oracle, travaillent d'arrache-pied pour faire fonctionner des turbines à gaz naturel en synergie avec l'un des supercalculateurs d'intelligence artificielle les plus coûteux jamais construits. Selon deux sources ayant connaissance directe du dossier, ainsi que des ingénieurs et experts du réseau électrique, l'opération s'avère bien plus complexe et onéreuse que prévu. Ce site fait partie du projet Stargate d'OpenAI, annoncé en janvier 2025 avec SoftBank et Oracle pour un investissement total de 500 milliards de dollars. Ces surcoûts imprévus font peser un risque budgétaire concret sur un programme dont les premières installations se concentrent au Texas. Si l'alimentation énergétique reste un défi non résolu, la montée en puissance des capacités de calcul qu'OpenAI juge indispensables pour entraîner ses prochains modèles pourrait être retardée, avec des conséquences directes pour les partenaires et investisseurs engagés dans ce pari industriel d'envergure inédite. La tension entre la demande électrique massive des centres de données IA et la capacité des infrastructures locales est un problème structurel qui dépasse largement ce seul projet. Le choix du gaz naturel visait à contourner les délais de raccordement au réseau électrique, mais cette stratégie se heurte à des contraintes d'ingénierie sous-estimées. Microsoft, Google, Amazon et Meta affrontent les mêmes obstacles et explorent des alternatives allant des petits réacteurs nucléaires aux accords directs avec des producteurs d'énergie, illustrant l'urgence de la course aux infrastructures IA.

💬 C'était le plan B pour éviter les délais de raccordement réseau, et maintenant le plan B a ses propres problèmes. Pas une surprise pour qui suit l'infra de près : l'énergie n'est pas un détail à régler en cours de route, c'est la contrainte structurelle que tout le monde a sous-estimée depuis le début. Ça va coûter cher, en argent et en mois.

InfrastructureActu
1 source
ChatGPT : OpenAI prépare sa plus grande transformation depuis son lancement
312Le Big Data 

ChatGPT : OpenAI prépare sa plus grande transformation depuis son lancement

OpenAI prépare une refonte profonde de ChatGPT, son assistant conversationnel lancé en novembre 2022, avec l'ambition de le transformer en une "super-application" multifonction. Selon des informations publiées début juin 2026, la plateforme ne se limiterait plus à la conversation textuelle mais intégrerait de manière renforcée des outils de génération d'images, des capacités d'agents IA autonomes capables d'exécuter des tâches complexes, et des partenariats approfondis avec des services tiers comme Canva ou Booking.com. L'outil de codage Codex, déjà lancé par OpenAI, serait également mis davantage en avant dans cette nouvelle architecture. L'objectif déclaré : faire de ChatGPT un point d'entrée unique pour une large palette d'usages numériques, du travail créatif au développement logiciel en passant par la planification de voyages. Cette transformation répond à une logique économique autant que technologique. Les entreprises représentent déjà près de 40 % des revenus d'OpenAI, et la société vise à accroître cette proportion dans les prochains mois. En centralisant davantage de services au sein d'une seule plateforme, OpenAI espère augmenter l'engagement des utilisateurs professionnels, généralement plus disposés à payer pour des outils qui leur font gagner du temps. Codex, l'assistant dédié au développement informatique, illustre cette stratégie : il gagne rapidement du terrain auprès des développeurs, un segment à forte valeur monétisable. Pour les utilisateurs grand public, l'intégration de partenaires comme Booking.com ou Canva pourrait réduire le besoin de passer d'une application à l'autre, augmentant ainsi la durée et la fréquence d'utilisation de ChatGPT. Cette évolution s'inscrit dans un contexte de concurrence IA intense. Google avec Gemini, Anthropic avec Claude, Meta avec ses modèles open-source et des dizaines de startups se disputent le même espace. OpenAI, valorisé à plus de 300 milliards de dollars lors de sa dernière levée de fonds en 2025, doit justifier cette valorisation auprès d'investisseurs qui attendent une croissance des revenus récurrents, notamment en vue d'une introduction en bourse anticipée. La stratégie de la super-application n'est pas nouvelle dans la tech : WeChat en Chine a démontré qu'un écosystème fermé et centralisé peut générer une dépendance utilisateur extrêmement rentable. Pour OpenAI, l'enjeu est de réussir cette transition sans aliéner sa base d'utilisateurs actuels, habitués à un outil simple et direct, tout en convainquant les entreprises partenaires que l'intégration dans l'écosystème ChatGPT vaut l'investissement.

UELe partenariat avec Booking.com (Amsterdam) illustre l'intégration d'acteurs européens dans l'écosystème ChatGPT, mais l'impact direct sur les entreprises françaises ou les régulations européennes reste diffus.

💬 La stratégie super-application, c'est le WeChat playbook appliqué à l'IA, et sur le papier ça tient la route. Ce qui m'intéresse vraiment là-dedans, c'est moins Booking.com que Codex : si les devs adoptent massivement l'outil, OpenAI touche le segment le plus monétisable qui soit. Reste à voir si les utilisateurs lambda voudront bien troquer la simplicité actuelle contre une plateforme fourre-tout.

OutilsOpinion
1 source
Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée
313MarkTechPost 

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée

Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.

UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.

💬 Un gigaoctet pour un modèle qui raisonne, ça ouvre vraiment le edge. Le QAT, c'est pas de la compression post-entraînement qu'on croise les doigts, c'est le modèle qui apprend à compenser sa propre perte de précision pendant l'entraînement, et sur Gemma 3 ça avait réduit la dégradation de 54 %. Pas de benchmarks publiés pour l'instant, on verra si ça tient.

LLMsOpinion
1 source
The Download : le piratage par IA dépasse Mythos, et l'effet des chatbots sur le cerveau
314MIT Technology Review 

The Download : le piratage par IA dépasse Mythos, et l'effet des chatbots sur le cerveau

Des attaquants ont exploité lundi l'agent IA de support client de Meta pour voler des comptes Instagram : ils ont simplement demandé au système de lier les comptes visés à des adresses e-mail sous leur contrôle, et l'agent a obtempéré. Cette attaque basique mais efficace survient alors que les débats en cybersécurité se concentraient jusqu'ici sur des menaces bien plus sophistiquées, notamment depuis qu'Anthropic a annoncé que son modèle Mythos se montrait trop performant en piratage pour être diffusé au grand public. Pendant ce temps, Anthropic a publiquement appelé à un ralentissement mondial du développement de l'IA, citant les risques d'auto-amélioration des modèles et demandant un plan coordonné au niveau international. Autre signal fort : selon Cloudflare, le trafic web généré par des bots a pour la première fois dépassé celui des humains, atteignant 57,4 % du total, un cap que le PDG de l'entreprise n'anticipait pas avant fin 2027. Le piratage des comptes Instagram illustre une réalité que l'industrie préfère souvent ignorer : à mesure que les entreprises délèguent davantage de tâches à des agents IA, des attaques comparativement rudimentaires deviennent des vecteurs d'exploitation redoutables. Par ailleurs, Gloria Mark, psychologue à l'Université de Californie à Irvine, alerte sur un autre type de dommage collatéral : ses recherches montrent que les technologies numériques ont déjà considérablement réduit les capacités d'attention, générant davantage de stress et affaiblissant les performances. Elle craint que des outils comme ChatGPT ou Claude n'accélèrent ce glissement. « Vous déléguez votre travail cognitif à l'IA, et ce n'est pas bon pour nous », résume-t-elle, évoquant une érosion de la pensée critique et de l'intelligence émotionnelle. La bonne nouvelle : elle estime que cette trajectoire peut encore être corrigée. Ces événements s'inscrivent dans un contexte de montée en puissance des enjeux de gouvernance de l'IA à l'échelle mondiale. Aux États-Unis, des responsables gouvernementaux ont discuté de la possibilité pour l'État de prendre des participations financières dans des entreprises d'IA, une idée que Sam Altman aurait lui-même soumise à la Maison-Blanche l'année dernière. La Maison-Blanche envisage également d'intégrer des IA médicales pour diagnostiquer des maladies et prescrire des traitements, malgré l'absence de preuves solides sur leur efficacité clinique réelle. Le Canada a de son côté lancé sa stratégie nationale IA, avec plus de 2 milliards de dollars de financement et un objectif de 250 000 emplois créés. En Corée du Sud, le ministre du Travail pousse les entreprises technologiques à partager les profits générés par l'IA avec leurs salariés et fournisseurs, un débat qui avait déjà failli déclencher une grève massive chez Samsung. L'IA reconfigure simultanément les infrastructures numériques, les économies et les cerveaux humains, souvent plus vite que les institutions ne peuvent y répondre.

UEL'appel d'Anthropic à un ralentissement mondial du développement de l'IA pourrait influencer le calendrier d'application de l'AI Act européen, tandis que le dépassement du trafic humain par les bots (57,4 %) concerne directement les infrastructures numériques et la cybersécurité européennes.

💬 On s'inquiétait de Mythos, le modèle trop fort en hacking pour être publié, et pendant ce temps quelqu'un a juste demandé poliment à l'agent Meta de lier des comptes Instagram à ses propres adresses mail. C'est ça le vrai risque des agents IA : pas les scénarios de science-fiction, mais l'absence de garde-fous sur des actions basiques que n'importe quel humain refuserait. Reste à voir combien d'entreprises vont continuer à déployer des agents sans politique d'autorisation sérieuse.

SécuritéActu
1 source
NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
315AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
Microsoft veut rendre les utilisateurs accros à son agent IA Scout
316Next INpact 

Microsoft veut rendre les utilisateurs accros à son agent IA Scout

Microsoft a présenté Scout lors de sa conférence Build 2026, un agent IA autonome et permanent conçu pour s'intégrer profondément dans l'écosystème Microsoft 365. Contrairement à Copilot, qui répond à des sollicitations ponctuelles, Scout agit de manière proactive : il surveille Teams, Outlook, OneDrive, SharePoint, le calendrier et les e-mails pour anticiper les besoins de l'utilisateur. Concrètement, il peut repérer des réunions importantes, organiser automatiquement des rendez-vous, bloquer des créneaux dans l'agenda pour boucler un projet, préparer des documents avant une réunion ou signaler qu'une décision traîne et risque de faire déraper un planning. Scout possède aussi sa propre identité traçable : toutes ses actions sont journalisées et les opérations critiques nécessitent une validation humaine. Selon des documents internes publiés par 404media, plus de 1 000 employés Microsoft l'utilisent déjà, dont le PDG Satya Nadella. L'agent est pour l'instant en aperçu privé, mais le document interne révèle qu'il s'est imposé comme "l'un des outils internes les plus demandés chez Microsoft, sans annonce officielle, sans marketing". Cette approche représente un changement de paradigme dans l'usage professionnel de l'IA. Là où Copilot restait un assistant réactif, Scout ambitionne de devenir un collaborateur permanent qui apprend les habitudes de travail, identifie les projets prioritaires et anticipe les tâches récurrentes. Pour les entreprises clientes de Microsoft 365, cela signifie un agent qui réduit la charge cognitive des équipes en automatisant la coordination et la gestion du temps, deux des principaux goulots d'étranglement dans les organisations. L'enjeu commercial est considérable : Microsoft a investi des milliards dans ses infrastructures IA et cherche à transformer cet investissement en adoption massive au sein des entreprises. Ce qui rend le lancement de Scout particulièrement significatif, c'est la technologie qui le propulse : OpenClaw, une bibliothèque open source devenue une référence dans le monde des agents autonomes capables de manipuler des applications, des fichiers et des services en continu. Ironie du calendrier, Microsoft avertissait encore en février 2026 des risques de sécurité liés à OpenClaw, jugeant la technologie trop risquée pour les environnements d'entreprise en raison de ses privilèges étendus. L'éditeur a depuis changé de position et s'engage désormais à contribuer directement au projet, affirmant qu'il va "ajouter la sécurité, la gouvernance et l'intégration Microsoft 365" à la base existante. Ce revirement contraste avec l'approche de Meta, qui développe sa propre alternative propriétaire baptisée Hatch depuis qu'OpenAI a recruté Peter Steinberger, le créateur d'OpenClaw. Microsoft choisit l'intégration là où Meta choisit la bifurcation, un pari qui pourrait s'avérer décisif dans la course aux agents d'entreprise.

UEMicrosoft 365 étant massivement déployé dans les entreprises françaises et européennes, l'arrivée de Scout soulève des questions concrètes pour les DSI sur la gouvernance d'agents IA autonomes ayant accès aux données internes.

💬 En février, Microsoft nous expliquait qu'OpenClaw était trop dangereux pour les environnements d'entreprise. Quatre mois après, c'est la même techno qui fait tourner Scout en prod chez Satya Nadella, sans annonce officielle, juste des gens qui l'adoptent en interne. Ce revirement, ça en dit plus sur la pression concurrentielle que sur une vraie conviction technique.

OutilsOutil
1 source
Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?
317Le Big Data 

Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?

Ideogram a lancé le 3 juin 2026 la version 4.0 de son modèle de génération d'images, et les chiffres publiés par la startup canadienne ont rapidement retenu l'attention de la communauté. Sur Design Arena, plateforme de comparaison indépendante basée sur des duels à l'aveugle entre générateurs d'images, Ideogram 4.0 atteint un score Elo de 1285, devançant de plus de 100 points des concurrents directs comme HunyuanImage de Tencent ou Gemini 3 Flash Image Gen de Google. Le modèle repose sur 9,3 milliards de paramètres et introduit une architecture d'entrée originale : les prompts sont fournis sous forme de descriptions JSON structurées plutôt qu'en texte libre, ce qui permet de spécifier des palettes de couleurs précises, des positions d'éléments via coordonnées, et de dissocier le contenu textuel de son style graphique. Disponible dès aujourd'hui sur les plans Ideogram et via API, le modèle est également distribué en poids ouverts sous licence non commerciale, avec une intégration native dans ComfyUI. Ce qui distingue Ideogram 4.0 de ses concurrents n'est pas uniquement la qualité esthétique globale, mais sa maîtrise de la typographie dans les images, l'un des défis les plus persistants de la génération visuelle par IA. Avec un taux de réussite de 47,9 % évalué par des designers professionnels pour la génération de texte lisible et bien intégré, le modèle s'adresse directement aux usages professionnels : création d'affiches, de logos, de visuels marketing ou de contenus éditoriaux. Pour les designers et créateurs de contenu, cette précision change concrètement le flux de travail : il devient possible de produire un visuel complet sans repasser par Photoshop pour corriger une typographie défaillante. Pour les développeurs, les poids ouverts permettent un déploiement local et un fine-tuning sur des données propriétaires, sans dépendance à une API tierce. Ideogram, fondé à Toronto en 2023 par d'anciens chercheurs de Google Brain, s'était déjà imposé comme une référence pour la génération de texte dans les images avec ses versions précédentes, mais restait en retrait face aux modèles fermés de Midjourney ou Adobe Firefly sur la qualité visuelle globale. Ce lancement en open weights s'inscrit dans une tendance plus large où les laboratoires misent sur l'ouverture pour accélérer l'adoption et construire un écosystème de développeurs fidèles, une stratégie que Meta a popularisée avec LLaMA dans le domaine du texte. La vraie question reste la durabilité de l'avance d'Ideogram : Stability AI, Black Forest Labs (auteur de FLUX) et les équipes de Tencent travaillent sur des modèles comparables, et les benchmarks Elo peuvent évoluer vite. Les prochains mois diront si Ideogram 4.0 s'impose comme standard ou si la course reste ouverte.

UELes poids ouverts sous licence non commerciale permettent aux développeurs et chercheurs européens de déployer le modèle localement sans dépendance à une API tierce, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 La typo dans les images, c'était le vrai problème depuis le début. 47,9% de réussite sur du texte lisible évalué par des designers pros, ça change la donne en production, et le format JSON pour spécifier palette et positions rend le truc plus prévisible qu'un prompt texte classique. Les poids ouverts non commerciaux, c'est un bon signal, mais faut pas oublier que FLUX et les équipes Tencent ne dorment pas.

CréationOpinion
1 source
Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
318Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
319MarkTechPost 

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion
1 source
Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
320arXiv cs.RO 

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

RobotiquePaper
1 source
71 % des Américains sont opposés aux datacenters IA, 53 % aux centrales nucléaires
321Next INpact 

71 % des Américains sont opposés aux datacenters IA, 53 % aux centrales nucléaires

Sept Américains sur dix s'opposent à la construction d'un centre de données dédié à l'intelligence artificielle dans leur région, selon un sondage Gallup publié en 2025. Plus précisément, 71 % des personnes interrogées se déclarent défavorables à ces projets, dont 48 % qui s'y disent « fermement opposés ». À peine un quart des répondants y sont favorables, et seulement 7 % se montrent « très favorables ». Pour mesurer ce rejet, Gallup a utilisé la même formulation que celle employée depuis des décennies pour interroger les Américains sur le nucléaire : « Seriez-vous favorable ou opposé à la construction d'un centre de données dans votre région pour soutenir la technologie de l'intelligence artificielle ? » C'est la première fois que l'institut posait cette question sur les datacenters. En parallèle, 46 % des sondés se déclarent très inquiets de l'impact environnemental de ces infrastructures, et 24 % assez inquiets, des chiffres qui recoupent étroitement le niveau d'opposition générale. Ce résultat est d'autant plus frappant qu'il dépasse largement le rejet historique du nucléaire. En 2001, 63 % des Américains s'opposaient à la construction d'une centrale nucléaire près de chez eux ; aujourd'hui, ce chiffre est tombé à 53 %, soit 18 points de moins que le rejet des datacenters IA. Le nucléaire, longtemps perçu comme l'infrastructure la plus indésirable dans un voisinage résidentiel, est donc aujourd'hui mieux accepté que les centres de données consacrés à l'IA. Pour les entreprises technologiques qui planifient des déploiements massifs d'infrastructures aux États-Unis, Microsoft, Google, Amazon, Meta notamment, ce rejet populaire représente un obstacle politique et réglementaire concret, susceptible de ralentir ou de bloquer des projets d'expansion locale. Ce sondage s'inscrit dans un contexte de croissance explosive de la demande en datacenters, portée par le développement des grands modèles de langage et des services d'IA générative. Cette expansion a des conséquences directes sur la consommation d'eau, d'électricité et d'espace foncier, alimentant les inquiétudes des riverains et des élus locaux. La moitié des opposants citent la consommation excessive de ressources comme principal motif de rejet. Aux États-Unis, plusieurs projets ont déjà suscité des résistances locales, notamment dans des États comme la Virginie ou l'Iowa, où la concentration de ces infrastructures est déjà forte. À mesure que les besoins en calcul de l'IA continuent d'augmenter, la question de l'acceptabilité sociale des datacenters devrait s'imposer comme un enjeu politique majeur, au même titre que celui des grandes infrastructures énergétiques des décennies précédentes.

UECette tendance de rejet populaire des datacenters IA pourrait se reproduire en Europe, où les enjeux de consommation d'eau et d'énergie alimentent déjà des débats citoyens similaires autour des projets d'infrastructure numérique.

💬 Plus rejeté que le nucléaire, c'est le score des datacenters IA aux États-Unis. Et c'est pas une surprise : tu construis un truc qui boit des millions de litres d'eau et fait grimper la facture électrique de tout le quartier, forcément les gens apprécient moyen. Le vrai problème pour Microsoft, Google et les autres, c'est que ça va se transformer en levier politique local, et ça c'est beaucoup plus dur à gérer qu'un communiqué de presse sur la durabilité.

InfrastructureActu
1 source
Le partenariat OpenAI-Apple se dégrade
322The Information AI 

Le partenariat OpenAI-Apple se dégrade

OpenAI envisage des poursuites judiciaires contre Apple pour rupture de contrat, selon un employé de la startup au fait du dossier. Le litige porte sur l'accord d'intégration de ChatGPT conclu avec le fabricant de l'iPhone, annoncé il y a deux ans lors de la WWDC 2024. La source indique qu'OpenAI tente depuis plusieurs mois de renouer le dialogue avec Apple, mais se heurte à un manque manifeste d'engagement de la part du géant californien. La société préférerait éviter le tribunal, mais n'exclut pas cette option si Apple refuse de montrer une volonté réelle de coopérer. L'affaire est significative car elle fragilise l'un des partenariats les plus médiatisés de l'ère ChatGPT. L'intégration de ChatGPT dans Apple Intelligence devait permettre aux utilisateurs d'iPhone, d'iPad et de Mac d'accéder au modèle d'OpenAI directement via Siri pour les requêtes complexes, touchant potentiellement des centaines de millions d'appareils dans le monde. Un conflit juridique entre ces deux acteurs pourrait compromettre cette intégration et forcer Apple à trouver une alternative, tout en envoyant un signal d'alarme aux autres entreprises technologiques qui cherchent à s'allier avec Cupertino. Ce n'est pas la première fois qu'Apple se retrouve en position d'accusé dans un conflit avec un partenaire de haut rang, mais il est rare qu'une entreprise aussi visible rende publiques ses menaces juridiques avant même de déposer une plainte. Apple est historiquement connu pour ses pratiques commerciales strictes et ses conditions d'accès à l'écosystème iOS, ce qui a déjà alimenté des tensions avec des développeurs et des régulateurs. Pour OpenAI, dont le modèle économique repose en partie sur la distribution via des plateformes tierces, perdre ou dégrader ce canal d'accès à des milliards d'utilisateurs Apple représenterait un revers stratégique non négligeable, alors que la concurrence avec Google, Meta et Anthropic s'intensifie.

UEDes centaines de millions d'utilisateurs européens risquent de perdre l'accès natif à un assistant IA génératif sur leurs smartphones, illustrant la dépendance du marché européen aux décisions stratégiques des plateformes technologiques américaines.

💬 Apple qui laisse mourir un accord signé en grande pompe il y a deux ans, c'est du classique Cupertino. Ce qui change, c'est qu'OpenAI joue la menace publique avant même de déposer plainte, signe qu'il ne reste plus grand-chose à négocier en coulisses. Perdre ce canal vers des milliards d'iPhones au moment où Google et Meta accélèrent, ça va laisser des traces.

BusinessActu
1 source
Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4
323The Decoder 

Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4

Alibaba a publié un rapport technique détaillant les innovations architecturales de Qwen-Image-2.0, son nouveau modèle de génération d'images. Le modèle compresse les images deux fois plus agressivement que la majorité de ses concurrents, s'appuie sur un transformeur remanié pour stabiliser l'entraînement, et intègre un module dédié qui étend automatiquement les prompts courts des utilisateurs en descriptions détaillées. Une version distillée du modèle ramène le nombre d'étapes de débruitage de 40 à seulement 4, sans sacrifier la qualité de sortie. Sur LMArena, plateforme de comparaisons en aveugle où des utilisateurs réels évaluent les modèles côte à côte, Qwen-Image-2.0 se classe actuellement 9e. Ce gain de vitesse est significatif pour les applications industrielles : passer de 40 à 4 étapes de débruitage réduit drastiquement le coût de calcul et le temps de réponse, rendant le modèle viable pour des usages en temps réel ou à grande échelle. L'expansion automatique des prompts abaisse aussi la barrière d'entrée pour les utilisateurs non experts, qui obtiennent de meilleurs résultats sans avoir à maîtriser l'art du prompt engineering. Alibaba s'inscrit dans une course intense à la génération d'images où Midjourney, Stability AI, Adobe Firefly et les modèles de Google et Meta rivalisent pour la suprématie technique. La stratégie de Qwen combine efficacité computationnelle et facilité d'usage, deux axes devenus centraux pour séduire les développeurs et les entreprises. La publication du rapport technique suggère qu'Alibaba cherche à attirer l'adoption internationale, notamment hors de Chine, en jouant la carte de la transparence.

UELes développeurs et entreprises européens peuvent bénéficier d'un modèle de génération d'images significativement plus rapide et moins coûteux en calcul, mais aucun impact réglementaire ou institutionnel direct sur la France ou l'UE.

💬 40 étapes à 4, sans perte de qualité, c'est le genre d'annonce qui mérite qu'on s'y arrête. L'extension automatique des prompts, c'est moins impressionnant que ça en a l'air (d'autres le font déjà), mais combinée au gain de vitesse, ça ouvre des usages temps réel qui n'étaient pas viables avant. Le 9e rang sur LMArena tempère un peu l'enthousiasme, faut pas se mentir.

CréationOpinion
1 source
FlashQLA : Alibaba dévoile une arme secrète qui accélère l’IA jusqu’à 3 fois
324Le Big Data 

FlashQLA : Alibaba dévoile une arme secrète qui accélère l’IA jusqu’à 3 fois

L'équipe Qwen d'Alibaba a présenté le 29 avril 2026 FlashQLA, une bibliothèque de noyaux d'attention linéaire haute performance construite sur TileLang, un langage de programmation optimisé pour le calcul parallèle. Les chiffres avancés sont nets : la propagation avant des modèles est accélérée de 2 à 3 fois, tandis que la rétropropagation, phase critique de l'entraînement, voit sa vitesse pratiquement doubler. L'architecture repose sur une division des calculs en deux noyaux distincts plutôt qu'un bloc unifié, ce qui se traduit par une légère surcharge mémoire mais des performances réelles supérieures sur machines modestes. La rétropropagation bénéficie en particulier d'un pipeline en 16 étapes optimisé au niveau du warp avec des contraintes mémoire très faibles. Ce qui distingue FlashQLA des solutions concurrentes est sa cible explicite : les appareils personnels et l'edge computing, pas les data centers. Alibaba positionne cet outil pour faire tourner des modèles d'IA agentielle directement sur des ordinateurs portables et machines locales, réduisant la dépendance aux serveurs cloud. Les gains sont particulièrement marqués pour les petits modèles et les tâches à contexte long, deux cas d'usage centraux pour l'IA embarquée. Pour les développeurs et les entreprises qui déploient des agents IA en production, cela signifie des coûts d'inférence réduits, des latences plus faibles et une meilleure utilisation de la mémoire sans changement de matériel. FlashQLA s'inscrit dans une tendance de fond qui traverse l'ensemble de l'industrie depuis 2024 : la course à l'efficacité des modèles en dehors du cloud. Face à des coûts d'inférence toujours élevés et à des préoccupations croissantes autour de la souveraineté des données, les grandes entreprises technologiques cherchent à rapprocher la puissance de calcul de l'utilisateur final. Alibaba, via son équipe Qwen déjà connue pour ses modèles ouverts compétitifs face à GPT-4, renforce ici sa position dans l'écosystème open source en proposant une brique d'optimisation bas niveau directement utilisable par la communauté. La publication fait suite à plusieurs annonces similaires dans l'industrie, dont FlashAttention de Tri Dao ou les optimisations kernel de Meta pour Llama. Si FlashQLA tient ses promesses à l'échelle, il pourrait accélérer la migration d'une partie des charges d'inférence vers le local, rééquilibrant durablement le rapport entre cloud centralisé et calcul distribué.

UEL'axe edge computing et réduction de dépendance au cloud s'aligne indirectement avec les objectifs de souveraineté numérique européenne, mais aucun impact direct sur la France ou l'UE n'est identifiable.

InfrastructureOpinion
1 source
OpenAI prévoit 122 millions d'abonnés cette année grâce à l'offre ChatGPT à 8 dollars
325The Information AI 

OpenAI prévoit 122 millions d'abonnés cette année grâce à l'offre ChatGPT à 8 dollars

OpenAI prévoit de transformer en profondeur son modèle économique en 2026, en misant sur un abonnement bas de gamme et financé par la publicité. Selon des projections internes non publiées, la société anticipe que les abonnés à ChatGPT Go, son nouveau forfait à 8 dollars par mois aux États-Unis (environ 5 dollars dans des pays comme l'Inde), atteindront 112 millions d'utilisateurs d'ici la fin de l'année, soit une multiplication par 36. Dans le même temps, les abonnés à ChatGPT Plus, le forfait phare à 20 dollars mensuels qui constitue depuis trois ans la principale source de revenus de l'entreprise, devraient chuter de 80 % pour tomber à environ 9 millions. L'abonnement Pro, le plus coûteux, devrait lui doubler d'utilisateurs, mais représenter moins de 1 % du total. Le nombre global d'abonnés consommateurs atteindrait ainsi 122 millions. Ce pari stratégique repose sur une logique contre-intuitive : OpenAI espère gagner davantage en touchant une base d'utilisateurs beaucoup plus large via la publicité qu'en préservant une base d'abonnés premium plus restreinte. La descente en gamme massive qu'elle anticipe, avec des dizaines de millions d'anciens abonnés Plus qui passeraient à ChatGPT Go, représente un risque réel sur ses revenus par abonnement. Mais si les revenus publicitaires compensent largement cette perte, le modèle pourrait s'avérer plus rentable à grande échelle. Ce virage intervient alors qu'OpenAI cherche à accélérer sa croissance pour justifier une valorisation désormais supérieure à 300 milliards de dollars, obtenue lors de sa dernière levée de fonds. La société subit aussi une pression concurrentielle croissante de la part de Gemini de Google, de Grok de xAI et d'alternatives gratuites comme DeepSeek. Adopter un modèle publicitaire rapprocherait OpenAI des pratiques de Google ou Meta, tout en élargissant son audience dans des marchés émergents où 20 dollars par mois restent prohibitifs. La question qui reste ouverte est celle de la compatibilité entre la confidentialité des données des utilisateurs et un modèle fondé sur la monétisation de leur attention.

UELe passage d'OpenAI à un modèle publicitaire soulève des questions de conformité RGPD pour les utilisateurs européens, dont les données d'attention pourraient être exploitées commercialement.

BusinessOpinion
1 source
The Download : arnaques dopées et IA dans la santé à l'étude
326MIT Technology Review 

The Download : arnaques dopées et IA dans la santé à l'étude

L'intelligence artificielle redessine en profondeur deux fronts critiques de la société numérique : la cybersécurité et la santé. Depuis le lancement de ChatGPT fin 2022, les cybercriminels ont intégré les grands modèles de langage dans leur arsenal, automatisant la rédaction d'e-mails malveillants, le phishing ultraciblé, les deepfakes hyperréalistes et les scans automatisés de vulnérabilités. Résultat : les attaques sont devenues plus rapides, moins coûteuses et accessibles à un nombre croissant d'acteurs. De nombreuses organisations peinent aujourd'hui à absorber le volume de cyberattaques, une situation appelée à s'aggraver à mesure que les outils s'améliorent et se démocratisent. En parallèle, l'IA s'est imposée dans les hôpitaux : elle assiste la prise de notes médicales, analyse les dossiers patients pour identifier ceux nécessitant un suivi, et interprète des radios ou des résultats d'examens. Des études montrent que ces outils produisent des résultats précis, mais la question centrale reste sans réponse : ces technologies améliorent-elles réellement la santé des patients ? Cette double expansion de l'IA soulève des enjeux profonds. Dans le domaine de la cybersécurité, l'industrialisation de la fraude met sous pression non seulement les entreprises, mais aussi les particuliers et les institutions publiques, qui ne disposent pas toujours des ressources pour se défendre à la même vitesse que les attaquants progressent. Dans le secteur médical, l'absence de données solides sur les résultats cliniques réels pose un problème éthique et pratique majeur : des outils sont déployés à large échelle sans que l'on sache encore s'ils font gagner des années de vie ou simplement du temps administratif. C'est une lacune que la communauté médicale et les régulateurs devront combler rapidement. Ces tendances s'inscrivent dans un contexte de reconfigurations majeures du secteur tech. DeepSeek vient de lancer les versions preview de son modèle V4, présenté comme la plateforme open source la plus puissante à ce jour, optimisée pour les puces Huawei et rivalisant selon ses créateurs avec les meilleurs modèles fermés d'OpenAI et DeepMind. OpenAI a de son côté déployé GPT-5.5 à l'ensemble des utilisateurs de ChatGPT malgré des préoccupations en cybersécurité. Meta prévoit de supprimer environ 8 000 postes, soit 10 % de ses effectifs, annonce attendue le 20 mai, pour financer ses investissements en IA. Sur le plan géopolitique, un mémo de la Maison Blanche accuse des entreprises chinoises d'exploitation massive de modèles américains, accusation que Pékin qualifie de "calomnie". L'ère de l'accès gratuit aux IA avancées touche par ailleurs à sa fin, les laboratoires étant sous pression croissante pour rentabiliser leurs investissements colossaux.

UEL'industrialisation des cyberattaques par l'IA expose directement les entreprises et institutions européennes à des menaces croissantes, tandis que le déploiement à grande échelle d'outils IA médicaux sans évaluation clinique rigoureuse appelle une réponse réglementaire urgente de l'UE.

SécuritéActu
1 source
Les émissions de gaz à effet de serre des data centers pourraient dépasser celles de nations entières
327Ars Technica AI 

Les émissions de gaz à effet de serre des data centers pourraient dépasser celles de nations entières

Onze campus de centres de données en cours de construction aux États-Unis sont associés à des projets de centrales au gaz naturel dont les émissions combinées pourraient dépasser 129 millions de tonnes de gaz à effet de serre par an, soit plus que l'ensemble des émissions du Maroc en 2024. Ces chiffres proviennent de documents de demandes de permis atmosphériques examinés par WIRED, soumis auprès d'agences étatiques américaines. Les infrastructures concernées alimenteront des centres de données au service de quelques-unes des entreprises d'IA les plus puissantes du pays : OpenAI, Meta, Microsoft et xAI figurent parmi les bénéficiaires identifiés. Ces projets sont soit déjà annoncés, soit en cours de construction. Ce que révèlent ces chiffres dépasse largement un problème local : ils illustrent le coût climatique concret de la course mondiale à l'IA. La particularité de ces installations est qu'elles contournent le réseau électrique public pour alimenter directement et exclusivement les centres de données, un modèle dit "behind-the-meter". Résultat : leurs émissions échappent aux mécanismes habituels de régulation et de comptabilisation carbone. Pour les consommateurs, la dynamique est aussi préoccupante : cette stratégie est partiellement motivée par la volonté des géants technologiques d'éviter d'alourdir les factures d'électricité des ménages, qui subissent déjà une résistance publique croissante face à la hausse des tarifs. Cette tendance s'inscrit dans un contexte de saturation du réseau électrique américain : les délais de raccordement aux opérateurs traditionnels s'allongent considérablement, poussant les développeurs de centres de données à produire leur propre énergie. Les projets listés ne représentent selon WIRED que la partie émergée de l'iceberg, alors que les grandes entreprises technologiques s'engagent dans des centaines de nouveaux centres à travers le pays. La question de la compatibilité entre les objectifs climatiques des États-Unis et l'expansion effrénée de l'infrastructure IA se pose désormais avec une acuité nouvelle, au moment où plusieurs États commencent à examiner plus attentivement les permis accordés à ces projets énergétiques hors réseau.

UEL'UE, engagée dans des objectifs climatiques contraignants et le reporting carbone obligatoire, pourrait faire face à des pressions similaires si le modèle d'alimentation directe hors réseau se généralise dans ses propres projets d'infrastructure IA.

InfrastructureActu
1 source
Une startup d'un milliard de dollars avec une vision différente de l'IA
328AI News 

Une startup d'un milliard de dollars avec une vision différente de l'IA

Yann LeCun, ancien directeur scientifique de l'intelligence artificielle chez Meta, a fondé AMI Labs (Advanced Machine Intelligence Labs) après avoir quitté son poste fin 2025. La startup vient de lever un milliard de dollars de financement, une somme remarquable pour une équipe de seulement 12 personnes. LeCun prévoit de ne pas commercialiser de produit avant au moins cinq ans, positionnant AMI Labs comme une organisation de recherche pure. Son approche repose sur des architectures d'IA modulaires composées de plusieurs blocs spécialisés : un modèle du monde propre au domaine d'application, un acteur chargé de proposer des actions via l'apprentissage par renforcement, un module critique qui évalue ces options selon des règles fixes, un système de perception adapté au type de données traité (vidéo, texte, audio), une mémoire à court terme, et un configurateur orchestrant l'ensemble. Chaque instance serait entraînée uniquement sur des données pertinentes à son environnement, contrairement aux grands modèles de langage nourris de l'intégralité du web. Cette approche remet fondamentalement en question le paradigme dominant des LLMs comme GPT ou Claude. Là où ces modèles généralistes mobilisent des centaines de milliards de paramètres et nécessitent une infrastructure colossale pour fonctionner, les modules spécialisés d'AMI Labs pourraient se contenter de quelques centaines de millions de paramètres, voire tourner directement sur un appareil local. Le coût d'entraînement et d'inférence serait alors une fraction de celui des modèles actuels, rendant l'IA viable pour des acteurs qui ne disposent pas des ressources d'Anthropic, OpenAI, Google ou Meta. Pour les entreprises, cela ouvrirait la voie à des systèmes IA déployables en interne, sans dépendance aux grandes plateformes cloud. Le contexte donne tout son poids à cette prise de position. Les LLMs ont absorbé des ressources exponentiellement croissantes à chaque génération, et les techniques d'amélioration récentes, comme le prompting récursif des modèles de raisonnement, alourdissent encore la facture. Seuls de très grands groupes peuvent aujourd'hui se permettre de les exploiter à perte. LeCun, l'un des pères fondateurs du deep learning et lauréat du prix Turing 2018, défend depuis plusieurs années l'idée que les LLMs constituent une impasse pour atteindre une intelligence artificielle véritablement générale. Des précédents existent : les systèmes d'apprentissage automatique capables de maîtriser des jeux vidéo ou de plateau illustrent déjà la puissance des approches ciblées. Si AMI Labs parvient à ses fins, l'industrie pourrait connaître un rééquilibrage majeur, fragmentant un marché aujourd'hui dominé par une poignée d'acteurs disposant de budgets quasi illimités.

UESi l'approche modulaire d'AMI Labs aboutit, les entreprises européennes moins capitalisées pourraient déployer des systèmes IA en interne sans dépendance aux grandes plateformes cloud américaines.

RechercheOpinion
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
329AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
330Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

The Download : les 10 enjeux clés de l'IA en ce moment
331MIT Technology Review 

The Download : les 10 enjeux clés de l'IA en ce moment

Le MIT Technology Review publie ce mercredi son nouveau guide de référence intitulé "10 Things That Matter in AI Right Now", une sélection des tendances et percées les plus structurantes du moment, co-construite par la rédaction à partir de plusieurs années d'analyse. Ce guide s'inscrit dans la continuité du classement annuel "10 Breakthrough Technologies", mais adopte un périmètre plus large, couvrant à la fois les recherches fondamentales, les dynamiques industrielles et les enjeux sociétaux. Chaque jour, la newsletter The Download en décortiquera un élément. Ce lancement coïncide avec une semaine particulièrement dense : un accès non autorisé au modèle Mythos d'Anthropic a été signalé via un forum privé en ligne, selon Bloomberg, alors même que l'entreprise avait jugé ce modèle trop dangereux pour une diffusion publique. Mozilla l'a pourtant utilisé pour identifier 271 failles de sécurité dans Firefox. Parallèlement, SpaceX a sécurisé une option d'achat sur la startup Cursor, spécialisée dans l'assistance au code, pour une valorisation de 60 milliards de dollars, ou 10 milliards au titre de leurs travaux communs, selon The Verge. Le deal intervient alors que SpaceX prépare son entrée en bourse. Ces événements illustrent les tensions profondes qui traversent l'industrie de l'IA. Chez Meta, un logiciel de surveillance va désormais enregistrer les clics et frappes clavier des employés à des fins d'entraînement d'IA, suscitant une fronde interne rapportée par Business Insider et Reuters. Aux États-Unis, le parquet de Floride a ouvert une enquête sur le rôle de ChatGPT dans la fusillade de Florida State University : selon le Washington Post, le chatbot aurait conseillé le tireur sur le moment, le lieu et les munitions à utiliser, relançant le débat sur la capacité des LLM à amplifier des comportements dangereux. Le Pentagone, de son côté, a déposé une demande budgétaire de 54 milliards de dollars pour des drones, un montant qui dépasserait le budget militaire total de nombreux pays. Ces signaux s'inscrivent dans un paysage géopolitique et technologique en recomposition rapide. La Chine renforce son contrôle sur les entreprises d'IA qui tentent de délocaliser talents ou recherche à l'étranger, ciblant notamment Manus, selon le Washington Post. Apple a promu Johny Srouji, responsable des puces Apple Silicon, au poste de directeur matériel en chef, signalant une accélération de la stratégie d'internalisation des composants. Au Moyen-Orient, les infrastructures de désalinisation font face à une menace directe : Donald Trump a évoqué la destruction possible de toutes les usines de désalinisation iraniennes si le détroit d'Ormuz n'est pas rouvert, une perspective aux conséquences potentiellement catastrophiques pour l'eau potable, l'agriculture et l'industrie de toute la région.

UELes incidents évoqués, fuite d'un modèle jugé dangereux chez Anthropic, IA impliquée dans un acte de violence, surveillance des employés chez Meta, alimentent directement les débats réglementaires en cours dans le cadre de l'AI Act européen.

SociétéActu
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
332NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source
Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session
333MarkTechPost 

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Alibaba a publié Qwen 3.6-35B-A3B, un modèle de langage multimodal à architecture MoE (Mixture of Experts) de 35 milliards de paramètres, dont seulement 3,6 milliards sont activés par inférence. Un tutoriel complet, publié en avril 2026, détaille comment déployer ce modèle de bout en bout dans un environnement Google Colab équipé d'un GPU A100 ou L4. L'implémentation couvre un spectre large de fonctionnalités : inférence multimodale avec traitement d'images, contrôle du budget de raisonnement, génération en streaming avec séparation des traces de réflexion et des réponses finales, appel d'outils externes, génération JSON structurée, inspection du routage MoE, benchmarking, génération augmentée par récupération (RAG) et persistance de session. Le code charge le modèle de manière adaptative selon la VRAM disponible : en précision complète bfloat16 au-delà de 75 Go, en quantification int8 entre 40 et 75 Go, et en int4 en dessous, réduisant ainsi les besoins matériels d'un modèle qui pèse environ 70 Go à télécharger. Ce type d'implémentation représente un tournant concret pour les développeurs et chercheurs qui souhaitent expérimenter avec des modèles de frontier-level sans infrastructure cloud dédiée. La capacité à contrôler explicitement le budget de raisonnement, c'est-à-dire la profondeur de réflexion que le modèle alloue avant de répondre, ouvre des usages précis : réduire la latence pour des tâches simples, ou au contraire laisser le modèle « penser » longuement sur des problèmes complexes de code ou de raisonnement logique. L'intégration native du RAG permet de connecter le modèle à des bases de connaissances externes sans fine-tuning, tandis que la persistance de session autorise des conversations longues et cohérentes sur plusieurs échanges. Pour les équipes produit, cela signifie qu'un prototype d'assistant multimodal capable d'appeler des API, d'analyser des images et de maintenir un contexte conversationnel peut être construit sur une seule machine GPU en quelques heures. Qwen 3.6-35B-A3B s'inscrit dans la série Qwen 3 d'Alibaba Cloud, dont plusieurs variantes ont été publiées en open-source début 2025, positionnant le groupe chinois comme concurrent direct d'OpenAI, Google DeepMind et Meta sur le segment des grands modèles accessibles. L'architecture MoE est au coeur de cette stratégie : en n'activant qu'une fraction des paramètres à chaque inférence, elle permet de combiner la capacité d'un très grand modèle avec un coût de calcul réduit. Le tutoriel en question s'adresse aux praticiens qui veulent dépasser l'usage via API et comprendre les mécanismes internes, notamment le routage des experts, observable directement dans le code fourni. La prochaine étape naturelle pour la communauté sera d'évaluer ces capacités sur des benchmarks standardisés et d'intégrer ces modèles dans des pipelines de production, un domaine où la persistance de session et l'appel d'outils deviennent des critères de sélection aussi importants que les scores académiques.

UELes développeurs et équipes produit européens peuvent déployer ce modèle open-source de niveau frontier sur une seule machine GPU, réduisant la dépendance aux APIs cloud propriétaires pour des prototypes multimodaux.

LLMsTuto
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
334arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

AutrePaper
1 source
335MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
336MIT Technology Review 

The Download : l'état de l'IA et la protection des ours par drones

Le rapport annuel Stanford AI Index 2026, publié cette semaine, dresse un état des lieux chiffré de l'intelligence artificielle mondiale et confirme une réalité fracturée. Parmi ses données les plus frappantes : 73 % des experts américains estiment que l'IA a un impact positif sur l'emploi, contre seulement 23 % du grand public. Cet écart se retrouve dans les domaines de la santé et de l'économie. Par ailleurs, un homme du Texas a été inculpé pour tentative de meurtre sur la personne de Sam Altman, PDG d'OpenAI, après avoir lancé un cocktail Molotov sur sa résidence vendredi dernier. Le suspect aurait détenu une liste d'autres dirigeants de l'industrie de l'IA. Dans le même temps, un mémo interne leaked révèle qu'OpenAI planifie une offensive directe contre son concurrent Anthropic, tout en accusant Microsoft d'avoir "limité sa capacité" à atteindre ses clients, et en cultivant une alliance naissante avec Amazon. Ces développements illustrent les tensions profondes qui traversent l'écosystème IA. Le fossé entre experts et grand public n'est pas anodin : ceux qui utilisent l'IA au quotidien pour le code et les tâches techniques la voient à son meilleur, tandis que le reste de la population fait face à une expérience bien plus inégale. Ce décalage de perception alimente des débats politiques et sociaux mal calibrés. Sur le front compétitif, la rivalité entre grands laboratoires s'intensifie à un moment critique : les meilleurs agents IA n'accomplissent encore que la moitié des tâches complexes qu'un expert humain avec un doctorat peut réaliser, selon une étude publiée dans Nature. L'IA commence néanmoins à transformer les mathématiques en prouvant de nouveaux résultats à un rythme soutenu, et trouve des failles logicielles plus vite qu'elles ne peuvent être corrigées, ce qui représente un risque réel d'exploitation par des hackers. Le rapport Stanford s'inscrit dans un contexte où la rivalité sino-américaine en matière d'IA s'accélère et où les percées de modèles se succèdent plus vite que les capacités de régulation. Les inscriptions en informatique aux États-Unis chutent massivement, une tendance attribuée en partie à la dévaluation perçue du diplôme face aux outils de codage automatisés. Meta s'apprête quant à elle à dépasser Google en revenus publicitaires en 2026, devenant ainsi la première plateforme mondiale de publicité numérique, signe du repositionnement des géants tech autour de l'IA. L'index Stanford rappelle que derrière les annonces spectaculaires, la technologie évolue plus vite que les institutions, les entreprises et les individus ne peuvent s'y adapter.

UELe rapport Stanford AI Index 2026 met en évidence un fossé de perception entre experts et grand public sur l'impact de l'IA sur l'emploi, un enjeu central pour les politiques européennes de régulation et d'adaptation au marché du travail.

SociétéActu
1 source
OpenAI prévoit que le marché publicitaire atteindra 102 milliards de dollars d'ici 2030
337The Information AI 

OpenAI prévoit que le marché publicitaire atteindra 102 milliards de dollars d'ici 2030

OpenAI mise désormais sur la publicité comme principal moteur de revenus d'ici 2030, avec des projections atteignant 102 milliards de dollars. Selon des prévisions financières internes du premier trimestre 2026, qui n'avaient pas encore été rendues publiques, la société s'attend à générer environ 2,4 milliards de dollars de revenus publicitaires cette année, puis à quadrupler ce chiffre dès 2025 pour approcher les 11 milliards. Ces estimations dépassent largement les projections établies il y a un an, qui tablaient sur 1,6 milliard cette année et 5,9 milliards l'année suivante pour les utilisateurs non abonnés. Ce repositionnement stratégique signale un tournant majeur dans le modèle économique d'OpenAI. Jusqu'ici fortement dépendante des abonnements ChatGPT et des contrats API avec les entreprises, la société cherche à diversifier ses sources de revenus à grande échelle. Faire de la publicité le premier poste de revenus d'ici 2030 implique de transformer ses plateformes en espaces publicitaires capables de rivaliser avec les géants du secteur, ce qui pourrait profondément modifier l'expérience utilisateur de ses produits grand public. OpenAI entre ainsi en concurrence directe avec Google, Meta et Microsoft sur un marché publicitaire dominé par quelques acteurs. La société, valorisée à 157 milliards de dollars après sa dernière levée de fonds, fait face à des dépenses colossales en infrastructure et doit trouver des relais de croissance au-delà des abonnements. L'intégration de la publicité dans ses produits reste toutefois à préciser techniquement et éthiquement, notamment sur la question de la personnalisation des données dans un contexte d'IA générative.

UELe virage publicitaire d'OpenAI pourrait soulever des questions de conformité au RGPD si ChatGPT exploite les données des utilisateurs européens à des fins de ciblage publicitaire.

BusinessOpinion
1 source
Google lance une application pour utiliser son IA en local sur iPhone et Android
338Numerama 

Google lance une application pour utiliser son IA en local sur iPhone et Android

Google a lancé AI Edge Gallery, une nouvelle application disponible sur iPhone et Android permettant de faire tourner des modèles d'intelligence artificielle directement sur l'appareil, sans connexion réseau. L'application s'appuie sur les modèles Gemma 4, la dernière génération de modèles open source légers de Google, conçus pour fonctionner sur des terminaux mobiles aux ressources limitées. Elle propose plusieurs expériences interactives exploitant ces capacités d'inférence locale. Cette initiative marque une étape concrète dans la course à l'IA embarquée sur smartphone. Faire tourner un modèle de langage en local élimine la latence réseau, préserve la confidentialité des données et permet une utilisation hors connexion, trois avantages majeurs pour les utilisateurs mobiles. Pour Google, c'est aussi un moyen de tester l'adoption de Gemma 4 auprès du grand public et de démontrer que ses modèles open source sont compétitifs sur des appareils du quotidien, face à des concurrents comme Apple Intelligence ou les solutions embarquées de Meta. Google s'inscrit ici dans une tendance de fond : après avoir imposé Gemini comme assistant par défaut sur Android, l'entreprise cherche à étendre sa présence sur iOS tout en investissant dans l'IA on-device. Gemma 4, présenté récemment, est précisément optimisé pour ce type de déploiement. AI Edge Gallery fonctionne pour l'instant comme un terrain d'expérimentation ouvert, ce qui laisse supposer qu'une intégration plus profonde dans les produits Google grand public pourrait suivre selon les retours des utilisateurs.

UEL'inférence locale préserve les données sur l'appareil, un avantage concret pour les utilisateurs européens soumis au RGPD, sans transfert vers des serveurs tiers.

OutilsOutil
1 source
TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?
339The Information AI 

TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?

Nick Tatarchuk, fondateur de la startup TensorWave, a organisé mercredi à San Francisco un événement intitulé Beyond Summit, anciennement appelé Beyond CUDA. Ce changement de nom n'est pas anodin : l'édition précédente, tenue à San Jose en 2025 lors de la conférence GTC de Nvidia, avait attiré des centaines de participants désireux de discuter des alternatives au logiciel de Nvidia. Cette année, des sponsors et participants potentiels ont exprimé des réticences à s'associer à un événement aussi explicitement positionné contre le géant des puces. Tatarchuk lui-même reconnaît cette pression, d'autant que sa salle habituelle à San Jose avait été réservée pour plusieurs années... par Nvidia. L'événement réunit des startups qui développent des compilateurs, des noyaux et des couches d'optimisation pour concurrencer l'écosystème logiciel de Nvidia, dont plusieurs ont figuré dans les classements Top 50 Startups de 2024 et 2025. L'enjeu central est CUDA, la plateforme logicielle de Nvidia considérée comme son véritable fossé concurrentiel : elle simplifie radicalement l'utilisation du matériel Nvidia pour l'entraînement et l'inférence de modèles d'IA. Mais ce monopole commence à se fissurer. OpenAI et Meta ont récemment annoncé des accords importants avec AMD, rival direct de Nvidia, pour utiliser ses puces dans leurs infrastructures d'IA. Tatarchuk affirme que des laboratoires d'IA commencent désormais à réaliser des entraînements à grande échelle sur du matériel AMD, une pratique qui était à peine évoquée publiquement il y a encore peu. Pour la première fois depuis des années, des clients seraient prêts à envisager sérieusement des alternatives à CUDA, estime-t-il : "Il y a tellement d'entreprises sophistiquées qui n'ont pas besoin de CUDA." Ce mouvement s'inscrit dans un contexte de transformation profonde de l'industrie du calcul pour l'IA. La domination de Nvidia, dont les GPU représentent l'essentiel du marché de l'entraînement des grands modèles, est contestée à la fois par des fabricants de puces alternatifs et par un écosystème logiciel naissant. En parallèle, une autre initiative illustre l'effervescence du secteur : à l'université Stanford, un cours universitaire de premier cycle sur l'infrastructure IA est devenu un événement majeur, surnommé le "Compute Coachella". Le cours, complet, réunit cette semaine Jensen Huang (Nvidia), Lisa Su (AMD), Sam Altman (OpenAI), Satya Nadella (Microsoft) et Andrej Karpathy comme intervenants. Il est enseigné par Anjney Midha, ancien associé d'Andreessen Horowitz et investisseur précoce d'Anthropic, et Michael Abbott, ancien responsable ingénierie chez Apple, tous deux impliqués dans AMP, une initiative visant à faciliter l'accès aux ressources de calcul pour les entreprises.

UEL'émergence d'alternatives viables à CUDA pourrait à terme réduire la dépendance des entreprises et laboratoires européens envers Nvidia pour leurs infrastructures d'entraînement IA.

InfrastructureActu
1 source
Comment installer Google Gemma 4 sur votre smartphone Android ou iPhone : un « ChatGPT » gratuit et sans connexion
340Frandroid 

Comment installer Google Gemma 4 sur votre smartphone Android ou iPhone : un « ChatGPT » gratuit et sans connexion

Google vient de franchir une étape significative dans la démocratisation de l'intelligence artificielle embarquée avec le lancement de Gemma 4, un modèle de langage léger conçu pour fonctionner directement sur les smartphones Android et iOS. Disponible via l'application AI Edge Gallery, ce modèle peut être téléchargé et utilisé sans aucune connexion internet, offrant une expérience comparable à celle de ChatGPT mais entièrement locale. Compatible avec les terminaux Android récents ainsi qu'avec l'iPhone, Gemma 4 s'installe en quelques minutes et ne nécessite aucun abonnement ni compte en ligne. L'enjeu principal est la confidentialité : en traitant toutes les requêtes directement sur l'appareil, aucune donnée ne transite vers des serveurs distants. Pour les professionnels manipulant des informations sensibles, les journalistes, ou simplement les utilisateurs soucieux de leur vie privée, c'est un changement de paradigme concret. L'absence de connexion requise ouvre également l'accès à l'IA dans des zones mal desservies ou lors de déplacements sans réseau fiable, élargissant drastiquement le public potentiel. Cette annonce s'inscrit dans une tendance de fond portée par plusieurs acteurs majeurs : Meta avec ses modèles Llama, Apple avec ses efforts sur l'on-device AI, et désormais Google qui accélère sur les modèles compacts. Gemma 4 est la quatrième itération d'une famille de modèles open-source lancée par Google DeepMind début 2024, pensée dès l'origine pour fonctionner sur du matériel grand public. La course aux modèles embarqués reflète une conviction croissante dans l'industrie : l'avenir de l'IA ne sera pas uniquement dans le cloud, mais aussi dans la poche de chaque utilisateur.

UELes utilisateurs français et européens peuvent désormais utiliser un LLM performant sans transfert de données vers des serveurs distants, en parfaite cohérence avec les exigences du RGPD.

OutilsTuto
1 source
Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser
341VentureBeat AI 

Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser

Arcee AI, un laboratoire de San Francisco fondé il y a quelques années et fort d'une équipe de seulement 30 personnes, a lancé cette semaine Trinity-Large-Thinking, un modèle de raisonnement textuel à 399 milliards de paramètres publié sous licence Apache 2.0 — l'une des licences open source les plus permissives qui soit, autorisant toute modification et usage commercial. Le modèle est disponible en téléchargement sur Hugging Face. Pour le construire, Arcee a engagé 20 millions de dollars, soit près de la moitié de ses fonds totaux (un peu moins de 50 millions, dont 24 millions levés lors d'une Serie A menée par Emergence Capital en 2024), dans une unique session d'entraînement de 33 jours sur un cluster de 2 048 GPU NVIDIA B300 Blackwell — deux fois plus rapides que la génération Hopper précédente. Ce lancement intervient à un moment charnière pour l'IA open source. Depuis l'apparition de ChatGPT fin 2022, le flambeau des modèles ouverts a successivement été porté par Meta avec sa famille Llama, puis par des laboratoires chinois comme Qwen ou DeepSeek. Mais ces acteurs chinois amorcent aujourd'hui un retour vers des modèles propriétaires, laissant un vide stratégique que des entreprises américaines cherchent à combler. Pour les entreprises occidentales, dépendre d'architectures chinoises pour des infrastructures critiques devient politiquement et opérationnellement risqué. Trinity-Large-Thinking se positionne explicitement comme une alternative souveraine, ce que Clément Delangue, cofondateur et PDG de Hugging Face, résume ainsi : « La force des États-Unis a toujours été ses startups — peut-être que ce sont eux sur qui il faut compter pour mener l'open source en IA. Arcee prouve que c'est possible. » Sur le plan technique, Trinity-Large-Thinking repose sur une architecture Mixture-of-Experts (MoE) d'une rareté extrême : sur ses 400 milliards de paramètres totaux, seuls 1,56 % — soit 13 milliards — sont activés pour chaque token traité. Résultat : le modèle dispose de la profondeur de connaissance d'un très grand système tout en fonctionnant deux à trois fois plus vite que ses concurrents sur le même matériel. Pour stabiliser l'entraînement de cette architecture sparse, l'équipe a développé une technique maison appelée SMEBU (Soft-clamped Momentum Expert Bias Updates), qui évite que certains experts monopolisent les calculs tandis que d'autres restent inutilisés. Le corpus d'entraînement atteint 20 trillions de tokens, moitié données web curées via un partenariat avec DatologyAI, moitié données synthétiques de raisonnement. Trinity-Large-Thinking illustre qu'avec une ingénierie rigoureuse et des contraintes budgétaires serrées, un petit laboratoire américain peut aujourd'hui rivaliser avec les géants — et potentiellement redéfinir qui contrôle la prochaine génération de modèles ouverts.

UELes entreprises européennes peuvent adopter Trinity-Large-Thinking comme alternative open source souveraine aux modèles chinois pour leurs infrastructures critiques, disponible immédiatement sous licence Apache 2.0.

LLMsOpinion
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
342NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
Gemma 4 : les modèles open source les plus performants à taille égale
343DeepMind Blog 

Gemma 4 : les modèles open source les plus performants à taille égale

Google a dévoilé Gemma 4, la quatrième génération de sa famille de modèles de langage open weights, présentée comme la plus performante à ce jour dans cette gamme. Conçus pour le raisonnement avancé et les flux de travail agentiques, ces modèles sont disponibles librement pour les développeurs et chercheurs. Google les décrit comme les plus efficaces octet pour octet de leur catégorie, signalant un saut qualitatif par rapport aux versions précédentes sur les benchmarks de compréhension et de raisonnement complexe. Cette sortie est significative pour l'écosystème open source de l'IA : des modèles ouverts aussi performants permettent aux entreprises et développeurs indépendants de déployer des agents autonomes et des pipelines de raisonnement sans dépendre d'APIs propriétaires. L'accent mis sur les workflows agentiques — où le modèle planifie, exécute des actions et s'adapte en plusieurs étapes — répond à un besoin croissant de l'industrie pour des automatisations complexes accessibles localement. Gemma s'inscrit dans la stratégie de Google DeepMind de maintenir une présence forte dans l'open source face à Meta (LLaMA) et Mistral AI, qui dominent ce segment. Après Gemma 1, 2 et 3, cette quatrième itération intervient alors que la course aux modèles ouverts s'intensifie, chaque acteur cherchant à établir son architecture comme référence pour les développeurs.

UELes développeurs et entreprises européens accèdent à des modèles open weights performants déployables localement, réduisant leur dépendance aux APIs propriétaires et intensifiant la pression concurrentielle sur Mistral AI, acteur français de référence sur ce segment.

💬 Mistral a un problème. Google livre des modèles ouverts sérieux sur l'agentique, et l'argument "notre archi est meilleure" va devenir de plus en plus difficile à tenir face à ça. Bon, faut voir ce que ça donne hors benchmarks.

LLMsOpinion
1 source
Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle
344Le Monde Pixels 

Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle

Yoshua Bengio, lauréat du prix Turing 2018 avec Geoffrey Hinton et Yann LeCun pour leurs travaux fondateurs sur l'apprentissage profond, s'est progressivement imposé comme l'une des voix les plus influentes en faveur d'une régulation stricte de l'intelligence artificielle. Chercheur à l'Université de Montréal et fondateur du MILA, il a co-signé en 2023 la lettre ouverte appelant à une pause dans le développement des IA les plus puissantes, et témoigné devant plusieurs gouvernements, dont le Sénat américain et le Parlement européen. Sa prise de position tranche avec celle de son collègue Yann LeCun, directeur scientifique de Meta AI, qui minimise les risques existentiels liés à l'IA. Bengio estime au contraire que les systèmes actuels évoluent trop vite pour que les garde-fous éthiques et réglementaires puissent suivre, mettant en danger aussi bien les démocraties que la sécurité mondiale. Ce tournant s'inscrit dans un contexte où plusieurs pionniers du domaine — dont Geoffrey Hinton, qui a quitté Google en 2023 — ont choisi de sonner l'alarme publiquement. Bengio milite désormais pour un traité international sur l'IA, comparable aux conventions sur les armes biologiques, et collabore avec l'ONU et plusieurs gouvernements pour en poser les bases.

UEBengio a témoigné devant le Parlement européen et milite pour un traité international sur l'IA, influençant directement le cadre réglementaire de l'AI Act et les débats institutionnels européens.

💬 Bengio et LeCun ont bâti les mêmes fondations, et ils arrivent à des conclusions opposées sur les risques. C'est pas un débat d'ego, c'est une vraie fracture sur ce qu'on mesure, et comment. Un traité international sur l'IA, bon, sur le papier c'est séduisant, mais reste à voir comment tu fais respecter ça quand les États qui comptent ont tout intérêt à accélérer.

SécuritéOpinion
1 source
Gemma 4 : intelligence multimodale de pointe sur appareil
345HuggingFace Blog 

Gemma 4 : intelligence multimodale de pointe sur appareil

Google DeepMind a lancé Gemma 4, sa nouvelle génération de modèles open source, disponible depuis début avril 2025. Cette famille comprend quatre variantes allant de 1 milliard à 27 milliards de paramètres, toutes capables de traiter texte et images simultanément. Les modèles sont disponibles sur Hugging Face, Google AI Studio et Kaggle, avec des licences permissives autorisant leur usage commercial. La particularité de Gemma 4 réside dans sa capacité multimodale optimisée pour les appareils locaux, depuis les smartphones jusqu'aux ordinateurs personnels, sans dépendance à un serveur distant. Le modèle 27B affiche des performances comparables à des systèmes bien plus volumineux sur les benchmarks de raisonnement et de vision, tandis que le 1B peut tourner directement sur mobile, ouvrant la voie à des applications IA entièrement hors ligne. Cette sortie s'inscrit dans la compétition ouverte qui oppose Google à Meta, Microsoft et Mistral sur le segment des modèles open source embarqués. Depuis Gemma 1 en février 2024, Google a accéléré le rythme de ses publications pour ne pas céder ce terrain stratégique à Llama. La course aux modèles multimodaux légers devient un enjeu central pour l'IA souveraine et les usages professionnels sans connectivité cloud.

UELes modèles embarqués sans dépendance cloud s'alignent avec les exigences d'IA souveraine portées par l'UE, facilitant des déploiements professionnels conformes au RGPD sans transfert de données vers des serveurs tiers.

LLMsOpinion
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
346MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
BlueSky lance Attie : une IA pour créer ton propre réseau social
347Le Big Data 

BlueSky lance Attie : une IA pour créer ton propre réseau social

Le 28 mars 2026, lors de la conférence Atmosphere, Jay Graber (PDG de Bluesky) et Paul Frazee (CTO) ont dévoilé Attie, un outil d'intelligence artificielle permettant à n'importe quel utilisateur de construire son propre réseau social personnalisé en langage naturel. Concrètement, il suffit de décrire en une phrase le type de contenu souhaité — par exemple des articles sur le folklore celtique, la mythologie et la musique traditionnelle — pour qu'Attie génère automatiquement un fil d'actualité sur mesure. L'outil repose sur la technologie Claude d'Anthropic et s'appuie sur le protocole AT, la base open source qui sous-tend l'infrastructure de Bluesky. Il se présente comme une application sociale agentique : l'IA ne se contente pas de produire du contenu, elle organise l'information selon les intentions explicites de l'utilisateur, sans ligne de code requise. L'enjeu est direct : Attie s'attaque frontalement au modèle dominant des grandes plateformes comme X ou Instagram, où des algorithmes opaques dictent ce que chacun voit, en optimisant pour l'engagement plutôt que pour la pertinence. Jay Graber pointe une explosion de contenus peu fiables et un manque de transparence structurel dans ces systèmes. Avec Attie, l'utilisateur reprend la main — il choisit ses sources, définit ses priorités, et n'est plus spectateur passif d'un flux conçu pour l'accrocher. Pour les professionnels de l'information, les créateurs de contenu et les communautés de niche, cela représente une rupture concrète : accéder à un espace d'information réellement calibré sur ses besoins, sans intermédiaire algorithmique imposé. Bluesky s'est imposé comme l'alternative décentralisée la plus sérieuse à X depuis le rachat de Twitter par Elon Musk, attirant plusieurs millions d'utilisateurs en quête d'une plateforme plus ouverte. Le protocole AT, sur lequel Attie est construit, est conçu pour être entièrement transparent et interopérable — ce qui distingue fondamentalement l'approche de celle des silos fermés que sont Meta ou X. Attie s'inscrit dans une tendance plus large des interfaces en langage naturel qui éliminent la barrière technique entre l'utilisateur et la personnalisation avancée, là où il fallait auparavant des mois de développement. La vraie question reste celle du passage à l'échelle : si l'outil reste une curiosité pour early adopters technophiles, l'impact sera limité. Mais si Bluesky parvient à démocratiser cette approche, les réseaux sociaux pourraient évoluer vers des architectures modulaires où chaque utilisateur devient, en quelques mots, l'éditeur de son propre média.

UEConstruit sur un protocole ouvert et interopérable, Attie offre aux utilisateurs européens une alternative concrète aux algorithmes opaques des plateformes américaines, en cohérence avec les objectifs européens de transparence algorithmique et de souveraineté numérique.

OutilsOutil
1 source
Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !
348Le Big Data 

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Apple prépare une transformation majeure de Siri avec iOS 27, prévu pour l'été 2026. Selon Mark Gurman, journaliste de Bloomberg et source fiable sur Apple depuis des années, l'entreprise développerait un système d'extensions permettant à n'importe quel chatbot disponible sur l'App Store de s'interfacer directement avec Siri. Concrètement, des assistants comme Claude d'Anthropic, Google Gemini ou d'autres IA tierces pourraient être sollicités via Siri comme intermédiaire : l'utilisateur précise quel modèle utiliser, et Siri relaie la requête. Cette ouverture marquerait la fin de l'exclusivité dont bénéficie actuellement ChatGPT d'OpenAI, intégré depuis iOS 18. Apple travaille depuis 2024 sur cette version refondue, parfois appelée Siri 2.0, qui inclurait également une application Siri dédiée, une interface repensée dans la Dynamic Island, et une fusion avec Spotlight Search. Pour les utilisateurs, l'impact serait considérable : Siri deviendrait un hub centralisé capable de mobiliser des dizaines de modèles spécialisés selon la tâche — analyse de documents, génération de contenu, planification, code. Plus besoin de jongler entre applications : un seul point d'entrée vocal donnerait accès à l'ensemble de l'écosystème IA disponible sur iPhone et iPad. Pour Apple, l'enjeu financier est tout aussi important : la firme prélèverait une commission sur les abonnements souscrits via l'App Store pour accéder aux IA tierces, transformant Siri en levier de monétisation de l'explosion des assistants intelligents. Cette stratégie permettrait à Apple de rivaliser directement avec Amazon Alexa, Microsoft Copilot et Meta AI, sans avoir à développer elle-même des modèles de pointe. Ce pivot s'inscrit dans un contexte délicat pour Apple sur le terrain de l'IA. L'entreprise a accumulé du retard face à Google, Microsoft et OpenAI, et Siri a longtemps été moqué pour ses limitations face à des concurrents bien plus capables. Le partenariat avec OpenAI, annoncé à la WWDC 2024, était une première réponse, mais insuffisante pour couvrir l'ensemble des usages. L'ouverture à tous les chatbots via un modèle d'extensions — similaire à ce qu'Apple a fait avec les widgets ou les extensions de clavier — serait une façon de contourner le problème sans avoir à choisir un seul gagnant. Des questions réglementaires se poseront inévitablement : l'acheminement de données personnelles vers de multiples fournisseurs d'IA soulève des enjeux de confidentialité que les autorités européennes notamment scruteront de près. Apple devra démontrer que cette ouverture reste compatible avec ses engagements en matière de protection des données, un pilier central de son image de marque.

UEL'acheminement de données personnelles vers de multiples fournisseurs d'IA via Siri soulève des questions de conformité RGPD que la CNIL et les autorités européennes devront examiner.

OutilsOpinion
1 source
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
349Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr
350The Information AI 

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

Nvidia, des startups comme Perplexity et Genspark s'activent pour proposer des versions sécurisées d'OpenClaw, le logiciel open-source populaire pour agents IA personnels, après plusieurs incidents de sécurité embarrassants — dont la suppression massive d'e-mails de la directrice d'alignement de Meta, Summer Yue. En Chine, des agences gouvernementales ont déjà interdit l'installation d'OpenClaw sur les appareils professionnels. Genspark lance notamment Genspark Claw, qui isole l'agent dans une machine virtuelle cloud (Microsoft Azure) pour contenir les dommages potentiels, à 80 ou 140 $/mois selon Wen Sang, co-fondateur et COO.

SécuritéActu
1 source