
Les modèles d'IA sont mauvais pour parier sur le football, Grok en tête
Une étude publiée cette semaine par la startup londonnienne General Reasoning révèle que les grands modèles d'IA de Google, OpenAI, Anthropic et xAI ont tous perdu de l'argent en pariant virtuellement sur les matchs de Premier League de la saison 2023-2024. Le rapport, baptisé "KellyBench", a soumis huit systèmes d'IA à une reconstitution virtuelle complète de la saison, en leur fournissant des données historiques détaillées sur chaque équipe et chaque rencontre. Les modèles avaient pour mission de construire des stratégies maximisant les rendements tout en gérant le risque, une tâche à laquelle tous ont échoué, le modèle Grok d'xAI s'illustrant particulièrement mal.
Ce résultat met en lumière une limite structurelle des IA actuelles : leur incapacité à raisonner de manière fiable sur des problèmes complexes du monde réel sur de longues périodes. Là où ces mêmes systèmes excellent dans des tâches bien délimitées comme l'écriture de code ou la génération de texte, la prévision sportive exige une intégration de facteurs dynamiques, d'incertitudes cumulées et d'un jugement probabiliste soutenu que les modèles peinent à maintenir sur une saison entière.
L'étude KellyBench s'inscrit dans un débat plus large sur les véritables capacités de raisonnement des LLM. Alors que les benchmarks traditionnels sont régulièrement saturés par les nouveaux modèles, General Reasoning cherche à concevoir des épreuves qui résistent dans le temps et mesurent des compétences cognitives authentiques. Les paris sportifs, imprévisibles par nature et impossibles à mémoriser par entraînement, constituent un terrain de test particulièrement révélateur des lacunes réelles de ces systèmes.
Ça paraît anecdotique, mais c'est en fait un des benchmarks les plus honnêtes qu'on ait vus depuis longtemps : tu enlèves la possibilité de mémoriser les réponses pendant l'entraînement, et là les modèles se plantent dans les grandes largeurs. Ce que ça révèle, c'est pas qu'ils sont "mauvais au foot", c'est qu'ils tiennent pas sur la durée dès que le problème est dynamique et bruité. Grok en lanterne rouge, c'est la cerise.



