Dossier Google DeepMind — page 8

882 articles · page 8 sur 18

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

351Le Big Data LLMsOpinion

Google tease déjà Gemini 4 : son entraînement s’annonce le plus ambitieux à ce jour

Google Gemini 4 : son entraînement s'annonce le plus ambitieux à ce jour Google a discrètement révélé les premiers préparatifs de Gemini 4, la prochaine génération majeure de son intelligence artificielle. L'information est passée presque inaperçue, glissée dans l'annonce officielle de trois nouveaux modèles Gemini le 21 juillet 2026. Google y affirme avoir lancé son « programme d'entraînement préliminaire le plus ambitieux à ce jour » dans le cadre du projet Gemini 4. Logan Kilpatrick, Senior Product Manager chez Google DeepMind, a confirmé la nouvelle sur X le même jour, se disant enthousiaste face aux premiers résultats de cette phase de pré-entraînement (pre-training), l'étape durant laquelle le modèle est exposé à d'immenses volumes de données textuelles, visuelles et autres pour apprendre les relations entre elles. Google reste toutefois très avare en détails : aucune date de sortie, aucune caractéristique technique, aucun indice sur les nouvelles fonctionnalités n'a été communiqué. Impossible donc, à ce stade, de savoir ce que ce quatrième modèle apportera concrètement par rapport à ses prédécesseurs. Cette annonce, minimale en apparence, envoie un signal fort à l'écosystème de l'intelligence artificielle. En affirmant mobiliser davantage de ressources que pour les générations précédentes sans préciser ni la taille des données ni la puissance de calcul engagée, Google cherche avant tout à démontrer sa capacité à maintenir la cadence face à une concurrence de plus en plus âpre, notamment OpenAI et Anthropic. Pour les développeurs et les entreprises qui construisent déjà leurs produits autour de l'API Gemini, ce type de communication anticipée sert de repère stratégique : il indique que l'investissement dans l'écosystème Google reste pertinent sur le long terme, même si les gains de performance concrets restent encore impossibles à évaluer. Pour les utilisateurs, la promesse reste pour l'instant abstraite, aucune fonctionnalité ni amélioration tangible n'ayant été précisée. Ce qui interpelle le plus les observateurs, c'est le calendrier retenu par Google. L'entreprise évoque déjà Gemini 4 alors que Gemini 3.5 Pro, pourtant très attendu par la communauté, n'a toujours pas été déployé publiquement. Cette précipitation apparente illustre la pression constante qui pèse sur les grands laboratoires d'IA, contraints d'entretenir en permanence l'attention du marché sur leurs futurs modèles, parfois avant même d'avoir livré les précédents. Le pré-entraînement n'est qu'une étape parmi d'autres dans le développement d'un grand modèle de langage, suivie par l'affinage, l'alignement et les tests de sécurité, autant de phases qui peuvent encore prendre plusieurs mois. Reste à savoir si Google parviendra à combler l'écart entre ses annonces et ses livraisons effectives, dans un secteur où la course aux superlatifs technique se heurte de plus en plus souvent aux délais réels de mise sur le marché.

Aussi sur Frandroid

352Le Big Data

Robot Park : Apptronik ouvre un immense terrain d’entraînement pour ses robots humanoïdes

Apptronik a inauguré le 30 juin 2026 son Robot Park à Austin, au Texas, un centre d'entraînement de près de 8 400 mètres carrés conçu pour ses robots humanoïdes Apollo 2. Loin des vidéos promotionnelles où les machines montent des escaliers ou servent un café, ce site reproduit des conditions de travail réelles inspirées de la logistique, de l'industrie et du commerce. Plusieurs flottes d'Apollo 2, disponibles en version bipède ou montée sur roues, y répètent des tâches comme le tri ou la manipulation d'objets, encore et encore, afin d'accumuler des millions de données d'entraînement. Pour Jeff Cardenas, PDG d'Apptronik, l'entreprise ne vend pas seulement des robots mais produit aussi des données, un positionnement qui a déjà convaincu les investisseurs : la société a levé plus de 520 millions de dollars pour financer ce développement. L'enjeu dépasse la simple démonstration technologique. Faire marcher un robot une fois devant une caméra est relativement simple ; le rendre fiable, capable de répéter un geste sans erreur dans un environnement imprévisible, est beaucoup plus difficile et constitue le véritable obstacle à l'adoption en entreprise. En misant sur la collecte massive de données plutôt que sur des démonstrations scénarisées, Apptronik cherche à accélérer l'apprentissage automatique de ses machines et à raccourcir le délai avant un déploiement industriel à grande échelle. Ces données alimentent également Gemini Robotics, développé avec Google DeepMind dans le cadre d'un partenariat de recherche visant à combiner les avancées de l'IA générative avec la robotique physique, c'est-à-dire des modèles capables non seulement de répondre à des questions mais aussi d'agir concrètement dans le monde réel. Cette stratégie s'inscrit dans une course de plus en plus disputée entre fabricants de robots humanoïdes, où la rareté des données issues de situations réelles constitue un goulot d'étranglement majeur pour entraîner des modèles performants. Au-delà du Robot Park, Apptronik déploie déjà des prototypes chez des partenaires industriels comme Mercedes-Benz, ce qui lui permet de varier les contextes d'apprentissage de façon difficilement reproductible en laboratoire. Le passage des essais pilotes à des cadences véritablement industrielles reste cependant un défi technique de taille, et Jeff Cardenas lui-même reconnaît que la prudence s'impose. Reste à voir si ces investissements massifs déboucheront, dans les prochaines années, sur des robots humanoïdes réellement utiles et rentables à grande échelle.

UELe partenariat industriel avec Mercedes-Benz, entreprise allemande, offre un point d'ancrage europeen mais sans impact reglementaire ou economique direct en France.

Dossier Google DeepMind — page 8

Google tease déjà Gemini 4 : son entraînement s’annonce le plus ambitieux à ce jour

Robot Park : Apptronik ouvre un immense terrain d’entraînement pour ses robots humanoïdes

Grok 4.5 : Elon Musk lance sa bêta privée chez Tesla et SpaceX

L'IA ne deviendra un vrai collègue que lorsqu'elle finira les tâches au lieu de se contenter de répondre

Les lois d'échelle, examinées avec rigueur

Anthropic et Micron veulent co-concevoir l'architecture mémoire pour l'IA

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

RLRC : l'apprentissage par renforcement au service de la récupération des modèles vision-langage-action compressés

Repenser la représentation spatiale implicite dans l'apprentissage des politiques visuomotrices

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

L'IA en météorologie et climatologie : une révolution pas si révolutionnaire

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Mecka AI obtient 60 millions de dollars pour développer ses robots IA

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant

PhysBrain 1.0 : rapport technique

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA

Agent View débarque sur Claude Code : votre armée d’agents IA en une vue

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action