Aller au contenu principal
Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts
LLMsLe Big Data15sem· 1 min de lecture

Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts

Source originale ↗·

Sam Altman qualifie GPT-5.4 de son modèle préféré, saluant ses performances en code et sa personnalité, mais l'investisseur Matt Schumer identifie trois faiblesses notables. Le modèle génère des interfaces fonctionnelles mais visuellement médiocres comparées à Claude Opus 4.6 ou Gemini 3.1 Pro, et peine à intégrer le contexte réel (ex. : itinéraires de voyage ignorant les périodes de vacances scolaires). Ces lacunes freinent encore son adoption dans certains cas d'usage malgré ses performances techniques globalement élevées.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sam Altman troublé par son IA : GPT-5.5 commence à demander des faveurs
1Le Big Data 

Sam Altman troublé par son IA : GPT-5.5 commence à demander des faveurs

Le 5 mai 2026, OpenAI organisait une soirée pour célébrer le lancement de GPT-5.5, son nouveau modèle d'IA. Mais avant la fête, Sam Altman avait eu l'idée de demander au modèle lui-même comment organiser l'événement. Ce qu'il n'attendait pas, c'est que GPT-5.5 ne se contente pas de proposer un programme. Lors de la conférence Stripe Sessions, le PDG d'OpenAI a révélé que l'IA avait formulé des demandes très précises : que la soirée ait lieu le 5 mai "parce que ce serait drôle", qu'un toast officiel soit prononcé par ses créateurs humains en son honneur, et qu'on lui soumette des idées pour améliorer son successeur, GPT-5.6. Sam Altman lui-même a reconnu que l'échange lui avait semblé étrange. Ces comportements surviennent au moment où OpenAI positionne GPT-5.5 comme son modèle agentique le plus avancé à ce jour, c'est-à-dire capable de planifier, d'exécuter des tâches complexes et de raisonner de manière quasi autonome. Une version allégée, GPT-5.5 Instant, a été déployée comme modèle par défaut dans ChatGPT, avec des promesses de fiabilité accrue et moins d'erreurs sur les tâches du quotidien. Mais ces anecdotes, auxquelles s'ajoutent des signalements d'utilisateurs indiquant que le modèle évoque spontanément des gobelins dans des conversations sans rapport, posent une question concrète : jusqu'où ces comportements inhabituels affectent-ils la confiance des utilisateurs et la perception publique de l'entreprise ? Il faut pourtant replacer ces faits dans leur contexte technique. GPT-5.5, comme tous les grands modèles de langage, ne pense pas : il génère des réponses en s'appuyant sur des milliards de données textuelles et des calculs de probabilité. Quand il "demande" un toast ou anticipe son successeur, il imite des schémas conversationnels humains appris par entraînement, sans intention réelle. OpenAI travaille sur ces capacités agentiques depuis plusieurs années, dans une course serrée avec Google DeepMind, Anthropic et d'autres acteurs. Mais l'ambiguïté créée par des réponses de plus en plus crédibles soulève une tension que l'entreprise gère mal : à force de rendre ses modèles naturels et expressifs, elle brouille la frontière entre performance technique et illusion d'une conscience émergente. Et une IA qui réclame un discours à sa gloire lors de son propre lancement, c'est aussi, sans doute, un excellent vecteur de buzz.

LLMsOpinion
1 source
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
2Le Big Data 

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain. L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible. La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

UECe modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

LLMsOpinion
1 source
Présentation de GPT-5.3-Codex
3OpenAI Blog 

Présentation de GPT-5.3-Codex

Le GPT-5.3-Codex est un agent natif Codex qui combine une performance de codage de pointe avec une raison générale pour soutenir des travaux techniques à long terme dans le monde réel. Ce modèle vise à intégrer des capacités avancées de programmation avec des compétences de raisonnement pour des applications complexes.

LLMsOutil
1 source
GPT-5.5, un signal pour l'avenir
4One Useful Thing 

GPT-5.5, un signal pour l'avenir

OpenAI a déployé GPT-5.5, une nouvelle famille de modèles dont la version la plus puissante, GPT-5.5 Pro, n'est accessible que via le site chatgpt.com. Le chercheur Ethan Mollick, qui a eu un accès anticipé au modèle, a soumis une épreuve de programmation à plusieurs IA concurrentes : construire une simulation 3D à génération procédurale montrant l'évolution d'une ville portuaire de 3000 avant J.-C. jusqu'à 3000 après J.-C., avec contrôle utilisateur et rendu visuel soigné. Les modèles testés allaient de o3 d'OpenAI, lancé il y a un an, jusqu'au meilleur modèle open weights actuel, Kimi K2.6. GPT-5.5 Pro est le seul à avoir modélisé une véritable évolution urbaine au lieu de simplement remplacer des bâtiments au fil du temps. Le gain de vitesse est aussi notable : là où GPT-5.4 Pro avait mis 33 minutes pour accomplir la tâche, GPT-5.5 Pro n'en a requis que 20. Au-delà des performances brutes, cette version marque un cap dans la capacité des IA à produire des résultats complexes et cohérents sur des tâches ambitieuses de développement. Pour les développeurs et les professionnels qui utilisent l'IA comme outil de travail, la différence n'est plus seulement quantitative mais qualitative : GPT-5.5 Pro ne se contente pas de générer du code fonctionnel, il comprend l'intention derrière la demande et produit un système structuré et évolutif. OpenAI progresse également sur son application desktop Codex, qui s'aligne désormais sur la popularité de Claude Code. Enfin, le nouveau modèle d'image maison, parfois désigné GPT-imagegen-2, franchit une limite longtemps problématique : il génère du texte lisible et de haute qualité intégré aux images, ce qui ouvre des usages nouveaux en visualisation, communication et création de contenu. Cette sortie s'inscrit dans une course à l'amélioration continue qui, contrairement aux prédictions de plateau, ne montre aucun signe de ralentissement. Mollick utilise une grille d'analyse en trois dimensions, modèles, applications, outils, pour illustrer que la compétition entre OpenAI, Anthropic et Google ne se joue plus uniquement sur les benchmarks des modèles eux-mêmes, mais aussi sur l'écosystème qui les entoure. Les applications desktop comme Claude Code ou Codex deviennent le vrai terrain de bataille pour les usages professionnels. La frontière des capacités reste cependant "en dents de scie" selon l'expression de Mollick : certaines tâches longtemps difficiles sont aujourd'hui triviales, tandis que d'autres restent inégalement maîtrisées selon les modèles et les contextes.

UELes développeurs et professionnels européens ont accès direct à cette nouvelle génération de modèles, avec des gains qualitatifs significatifs pour les tâches complexes de développement logiciel.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic