TabFM de Google AI : un modèle de fondation tabulaire à attention hybride pour la classification et la régression sans apprentissage préalable
Google Research a présenté TabFM, un modèle de fondation conçu pour les données tabulaires, disponible dès maintenant sur Hugging Face et GitHub. Contrairement aux approches classiques, TabFM effectue de la classification et de la régression sur des tableaux jamais vus auparavant sans aucun entraînement spécifique, sans réglage d'hyperparamètres ni ingénierie de variables : chaque prédiction sort d'un seul passage direct dans le modèle. L'ensemble du jeu de données, exemples d'entraînement et lignes à prédire compris, est traité comme un unique prompt géant, sur lequel le modèle applique de l'apprentissage en contexte. L'architecture combine deux approches existantes : l'attention alternée ligne/colonne inspirée de TabPFN, qui capture les interactions entre variables, et le mécanisme d'apprentissage en contexte de TabICL, appliqué après compression de chaque ligne en un vecteur dense pour limiter le coût de calcul. Le modèle a été entraîné exclusivement sur des centaines de millions de jeux de données synthétiques, générés à partir de modèles causaux structurels intégrant des fonctions aléatoires variées. Il a été évalué sur TabArena, un benchmark évolutif basé sur des scores Elo, couvrant 38 jeux de données de classification et 13 de régression. Google prévoit par ailleurs d'intégrer TabFM à BigQuery via une future commande SQL nommée AI.PREDICT.
L'enjeu pour les entreprises est concret : les données tabulaires sont au cœur de l'infrastructure décisionnelle, qu'il s'agisse de détecter un risque de résiliation client ou une fraude financière. Jusqu'ici, les méthodes à base d'arbres comme XGBoost, AdaBoost ou les forêts aléatoires dominaient ce terrain grâce à leur robustesse, mais au prix d'un travail manuel conséquent : ajuster un XGBoost à un nouveau jeu de données demande rarement un simple appel de fonction, et les data scientists passent souvent des heures à optimiser les hyperparamètres et façonner les variables avant d'obtenir un signal fiable. En supprimant cette étape, TabFM promet de réduire drastiquement le temps nécessaire pour exploiter un nouveau jeu de données, tout en rendant l'analyse tabulaire accessible sans expertise poussée en modélisation.
Cette annonce s'inscrit dans une logique plus large chez Google, qui présente TabFM comme l'équivalent tabulaire de TimesFM, son modèle zéro-shot dédié aux séries temporelles. L'idée est de transposer aux tableaux le succès du apprentissage en contexte popularisé par les grands modèles de langage, capables d'apprendre une nouvelle tâche à partir d'exemples sans mise à jour de leurs poids. Le principal obstacle restait la rareté des données tabulaires ouvertes de qualité, les jeux industriels étant souvent propriétaires ou sensibles, d'où le recours massif à des données synthétiques pour l'entraînement. Reste à voir si les performances observées sur TabArena se confirmeront face aux méthodes à base d'arbres sur des cas d'usage réels en production.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


