Aller au contenu principal
RechercheMarkTechPost4h· 2 min de lecture

TabFM de Google AI : un modèle de fondation tabulaire à attention hybride pour la classification et la régression sans apprentissage préalable

Source originale ↗·

Google Research a présenté TabFM, un modèle de fondation conçu pour les données tabulaires, disponible dès maintenant sur Hugging Face et GitHub. Contrairement aux approches classiques, TabFM effectue de la classification et de la régression sur des tableaux jamais vus auparavant sans aucun entraînement spécifique, sans réglage d'hyperparamètres ni ingénierie de variables : chaque prédiction sort d'un seul passage direct dans le modèle. L'ensemble du jeu de données, exemples d'entraînement et lignes à prédire compris, est traité comme un unique prompt géant, sur lequel le modèle applique de l'apprentissage en contexte. L'architecture combine deux approches existantes : l'attention alternée ligne/colonne inspirée de TabPFN, qui capture les interactions entre variables, et le mécanisme d'apprentissage en contexte de TabICL, appliqué après compression de chaque ligne en un vecteur dense pour limiter le coût de calcul. Le modèle a été entraîné exclusivement sur des centaines de millions de jeux de données synthétiques, générés à partir de modèles causaux structurels intégrant des fonctions aléatoires variées. Il a été évalué sur TabArena, un benchmark évolutif basé sur des scores Elo, couvrant 38 jeux de données de classification et 13 de régression. Google prévoit par ailleurs d'intégrer TabFM à BigQuery via une future commande SQL nommée AI.PREDICT.

L'enjeu pour les entreprises est concret : les données tabulaires sont au cœur de l'infrastructure décisionnelle, qu'il s'agisse de détecter un risque de résiliation client ou une fraude financière. Jusqu'ici, les méthodes à base d'arbres comme XGBoost, AdaBoost ou les forêts aléatoires dominaient ce terrain grâce à leur robustesse, mais au prix d'un travail manuel conséquent : ajuster un XGBoost à un nouveau jeu de données demande rarement un simple appel de fonction, et les data scientists passent souvent des heures à optimiser les hyperparamètres et façonner les variables avant d'obtenir un signal fiable. En supprimant cette étape, TabFM promet de réduire drastiquement le temps nécessaire pour exploiter un nouveau jeu de données, tout en rendant l'analyse tabulaire accessible sans expertise poussée en modélisation.

Cette annonce s'inscrit dans une logique plus large chez Google, qui présente TabFM comme l'équivalent tabulaire de TimesFM, son modèle zéro-shot dédié aux séries temporelles. L'idée est de transposer aux tableaux le succès du apprentissage en contexte popularisé par les grands modèles de langage, capables d'apprendre une nouvelle tâche à partir d'exemples sans mise à jour de leurs poids. Le principal obstacle restait la rareté des données tabulaires ouvertes de qualité, les jeux industriels étant souvent propriétaires ou sensibles, d'où le recours massif à des données synthétiques pour l'entraînement. Reste à voir si les performances observées sur TabArena se confirmeront face aux méthodes à base d'arbres sur des cas d'usage réels en production.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper
1 source
Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques
2Apple Machine Learning 

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper
1 source
KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique
3arXiv cs.RO 

KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique

Une équipe de chercheurs en robotique vient de publier KinDER (Kinematic and Dynamic Embodied Reasoning), un nouveau benchmark conçu pour évaluer la capacité des systèmes robotiques à raisonner sur les contraintes physiques du monde réel. Présenté sur arXiv, le projet propose 25 environnements générés de façon procédurale, une bibliothèque Python compatible avec l'interface Gymnasium, et une suite d'évaluation standardisée incluant 13 méthodes de référence. Ces méthodes couvrent quatre grandes familles d'approches : la planification de tâches et de mouvements, l'apprentissage par imitation, le reinforcement learning et les systèmes basés sur des modèles de fondation comme les grands modèles de langage. Les environnements ciblent cinq défis spécifiques : les relations spatiales de base, la manipulation d'objets sans préhension directe, l'utilisation d'outils, les contraintes géométriques combinatoires et les contraintes dynamiques. Les résultats empiriques sont sans appel : les méthodes actuelles échouent sur une grande partie des environnements proposés, révélant des lacunes profondes dans la façon dont les robots comprennent et anticipent les interactions physiques. C'est un signal fort pour la communauté, car la plupart des benchmarks existants mélangent raisonnement physique, compréhension du langage et perception visuelle, rendant difficile l'identification précise des points de blocage. KinDER isole délibérément ces cinq dimensions pour mesurer séparément chaque capacité. Les chercheurs ont également mené des expériences de transfert simulation-réalité sur un robot manipulateur mobile, confirmant que les comportements observés en simulation correspondent bien à ceux du monde physique. La robotique souffre depuis longtemps d'un manque de benchmarks rigoureux et comparables entre paradigmes d'apprentissage. Le succès des grands modèles de langage a relancé l'intérêt pour les agents physiques capables de raisonner sur leur environnement, mais les outils d'évaluation n'ont pas suivi le rythme. KinDER vient combler ce vide en offrant un terrain de jeu commun, entièrement open-source, qui permet enfin de comparer équitablement des approches aussi différentes que le reinforcement learning classique et les modèles de fondation multimodaux. À mesure que la robotique généraliste monte en puissance, ce type d'infrastructure d'évaluation deviendra un outil central pour orienter les investissements de recherche et repérer les vrais progrès.

RecherchePaper
1 source
4InfoQ AI 

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

Google Research a dévoilé TurboQuant, un nouvel algorithme de quantification conçu pour compresser les caches Key-Value (KV) des grands modèles de langage jusqu'à six fois leur taille originale. Cette technique permet d'atteindre une compression à 3,5 bits avec une perte de précision quasi nulle, et sans nécessiter de réentraînement du modèle. Les premiers benchmarks communautaires confirment des gains d'efficacité substantiels, permettant aux développeurs de faire tourner des fenêtres de contexte très larges sur du matériel bien moins puissant qu'auparavant. L'enjeu est considérable : le cache KV est l'un des principaux goulots d'étranglement en mémoire lors de l'inférence de LLM, surtout lorsque les contextes atteignent des centaines de milliers de tokens. En réduisant l'empreinte mémoire de ces caches par un facteur pouvant atteindre 6x, TurboQuant ouvre la voie à des déploiements sur des GPU grand public ou des serveurs moins coûteux, ce qui représente une réduction directe des coûts d'inférence pour les entreprises et les développeurs indépendants. La compression des caches KV est un domaine de recherche actif, avec des travaux concurrents comme KVQuant ou StreamingLLM déjà publiés ces dernières années. L'originalité de TurboQuant réside dans sa capacité à atteindre ce niveau de compression sans phase de fine-tuning, ce qui facilite son intégration dans des pipelines existants. Google Research n'a pas encore précisé de calendrier de disponibilité dans ses produits, mais cette publication s'inscrit dans la course plus large à réduire le coût computationnel des modèles toujours plus grands comme Gemini.

UELes développeurs et entreprises européens pourraient bénéficier indirectement d'une réduction des coûts d'inférence LLM en déployant des modèles à large contexte sur du matériel grand public ou des serveurs moins coûteux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic