Dossier Google DeepMind — page 7

882 articles · page 7 sur 18

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

301Le Big Data LLMsOpinion

Google tease déjà Gemini 4 : son entraînement s’annonce le plus ambitieux à ce jour

Google Gemini 4 : son entraînement s'annonce le plus ambitieux à ce jour Google a discrètement révélé les premiers préparatifs de Gemini 4, la prochaine génération majeure de son intelligence artificielle. L'information est passée presque inaperçue, glissée dans l'annonce officielle de trois nouveaux modèles Gemini le 21 juillet 2026. Google y affirme avoir lancé son « programme d'entraînement préliminaire le plus ambitieux à ce jour » dans le cadre du projet Gemini 4. Logan Kilpatrick, Senior Product Manager chez Google DeepMind, a confirmé la nouvelle sur X le même jour, se disant enthousiaste face aux premiers résultats de cette phase de pré-entraînement (pre-training), l'étape durant laquelle le modèle est exposé à d'immenses volumes de données textuelles, visuelles et autres pour apprendre les relations entre elles. Google reste toutefois très avare en détails : aucune date de sortie, aucune caractéristique technique, aucun indice sur les nouvelles fonctionnalités n'a été communiqué. Impossible donc, à ce stade, de savoir ce que ce quatrième modèle apportera concrètement par rapport à ses prédécesseurs. Cette annonce, minimale en apparence, envoie un signal fort à l'écosystème de l'intelligence artificielle. En affirmant mobiliser davantage de ressources que pour les générations précédentes sans préciser ni la taille des données ni la puissance de calcul engagée, Google cherche avant tout à démontrer sa capacité à maintenir la cadence face à une concurrence de plus en plus âpre, notamment OpenAI et Anthropic. Pour les développeurs et les entreprises qui construisent déjà leurs produits autour de l'API Gemini, ce type de communication anticipée sert de repère stratégique : il indique que l'investissement dans l'écosystème Google reste pertinent sur le long terme, même si les gains de performance concrets restent encore impossibles à évaluer. Pour les utilisateurs, la promesse reste pour l'instant abstraite, aucune fonctionnalité ni amélioration tangible n'ayant été précisée. Ce qui interpelle le plus les observateurs, c'est le calendrier retenu par Google. L'entreprise évoque déjà Gemini 4 alors que Gemini 3.5 Pro, pourtant très attendu par la communauté, n'a toujours pas été déployé publiquement. Cette précipitation apparente illustre la pression constante qui pèse sur les grands laboratoires d'IA, contraints d'entretenir en permanence l'attention du marché sur leurs futurs modèles, parfois avant même d'avoir livré les précédents. Le pré-entraînement n'est qu'une étape parmi d'autres dans le développement d'un grand modèle de langage, suivie par l'affinage, l'alignement et les tests de sécurité, autant de phases qui peuvent encore prendre plusieurs mois. Reste à savoir si Google parviendra à combler l'écart entre ses annonces et ses livraisons effectives, dans un secteur où la course aux superlatifs technique se heurte de plus en plus souvent aux délais réels de mise sur le marché.

Aussi sur Frandroid

302The Information AI

L'idée de standards IA de Hassabis reçoit un soutien : et maintenant ?

Demis Hassabis, cofondateur et directeur général de Google DeepMind, a proposé la création d'un nouvel organisme de normalisation pour l'intelligence artificielle, financé par l'industrie mais travaillant en coordination avec les pouvoirs publics. Cette structure aurait pour mission d'évaluer les modèles d'IA de pointe afin de s'assurer qu'ils ne représentent pas de danger, notamment en matière de cybersécurité et de menaces biologiques, ainsi que dans d'autres domaines à risque. L'initiative a rapidement reçu le soutien de plusieurs poids lourds du secteur, y compris des concurrents directs de DeepMind : Sam Altman, patron d'OpenAI, Satya Nadella, PDG de Microsoft, Jack Dorsey, cofondateur de Block, ainsi que les investisseurs Ashton Kutcher et Chamath Palihapitiya. Les réactions ont été unanimement positives mais restent pour l'instant purement déclaratives. Nadella a qualifié la proposition d'"importante", Palihapitiya l'a jugée "bien pensée", tandis que Kutcher s'est contenté d'un simple "d'accord". Ce consensus de façade illustre un enjeu central pour l'industrie de l'IA : la nécessité d'un cadre de sécurité crédible et partagé, à un moment où les modèles gagnent rapidement en puissance et où les régulateurs peinent à suivre le rythme des avancées techniques. Reste que ces éloges ne suffisent pas à transformer une idée en institution opérationnelle. Aucun calendrier, aucune structure de gouvernance ni aucun mécanisme de financement concret n'a encore été précisé. La proposition s'inscrit dans un débat plus large sur l'autorégulation de l'IA, où les grandes entreprises cherchent à devancer une réglementation gouvernementale plus contraignante, tout en évitant de ralentir la course à l'innovation qui les oppose les unes aux autres.

💬 Bon, Hassabis sort une idée qu'on attendait depuis un moment : un organisme de norm indépendant, financé par l'industrie mais pas juste un truc de com. Le fait qu'Altman et Nadella applaudissent en même temps que Hassabis, ça veut dire une chose : personne ne veut être le premier accusé de bloquer une régulation crédible. Reste que "d'accord" de Kutcher, ça n'a jamais construit une institution. Selon Le Fil IA, ce genre de consensus verbal entre concurrents directs sert surtout à devancer les régulateurs avant qu'ils ne s'en mêlent pour de vrai.

Dossier Google DeepMind — page 7

Google tease déjà Gemini 4 : son entraînement s’annonce le plus ambitieux à ce jour

L'idée de standards IA de Hassabis reçoit un soutien : et maintenant ?

Grok 4.5 : Elon Musk lance sa bêta privée chez Tesla et SpaceX

L'IA ne deviendra un vrai collègue que lorsqu'elle finira les tâches au lieu de se contenter de répondre

Anthropic et Micron veulent co-concevoir l'architecture mémoire pour l'IA

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

L'IA en météorologie et climatologie : une révolution pas si révolutionnaire

TempoVLA : apprentissage de politiques VLA à vitesse contrôlable

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Vous manquez vite de messages ? Claude ajoute un nouveau contrôle

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps

INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA

$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action