[AINews] Classement des meilleurs modèles locaux…

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

43

1MarkTechPost

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

En l'espace d'un an et demi, les agents de codage IA sont passés du simple complètement automatique à des systèmes entièrement autonomes capables de lire des issues GitHub, naviguer dans des bases de code multi-fichiers, écrire des correctifs, exécuter des tests et ouvrir des pull requests sans qu'un humain tape une seule ligne. Début 2026, environ 85 % des développeurs déclarent utiliser régulièrement une forme d'assistance IA pour coder. Le marché s'est structuré en quatre grandes familles : les agents terminaux, les IDE natifs IA, les ingénieurs autonomes hébergés dans le cloud, et les frameworks open source permettant de choisir librement son modèle. Chaque outil se réclame du meilleur, mais les benchmarks invoqués pour le prouver ne mesurent pas toujours les mêmes choses, et certains ont perdu toute crédibilité. Le coup de tonnerre est venu le 23 février 2026, quand l'équipe Frontier Evals d'OpenAI a annoncé qu'elle cessait de publier ses scores sur SWE-bench Verified, le benchmark de référence du secteur depuis mi-2024. Ce test soumet des agents à 500 vraies issues GitHub tirées de dépôts Python populaires, en mesurant leur capacité à comprendre le problème, naviguer le code, générer un correctif et valider les tests, sans intervention humaine. L'audit d'OpenAI a porté sur 138 des problèmes les plus difficiles, répartis sur 64 sessions indépendantes : 59,4 % présentaient des cas de test fondamentalement défectueux ou insolubles, exigeant par exemple des noms de fonctions précis absents de l'énoncé. Plus grave encore, les auditeurs ont constaté que les trois grands modèles frontière, GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash, étaient capables de reproduire mot pour mot les solutions de référence à partir du seul identifiant de tâche, confirmant une contamination systématique des données d'entraînement. La conclusion d'OpenAI est sans appel : les progrès mesurés sur SWE-bench Verified ne reflètent plus d'améliorations réelles dans le développement logiciel. OpenAI recommande désormais SWE-bench Pro comme successeur. Ce nouveau benchmark contient 1 865 tâches réparties en trois sous-ensembles : 731 tâches publiques, 858 tâches en set caché, et 276 tâches commerciales issues de 18 bases de code propriétaires de startups. Les scores y sont nettement plus bas qu'en Verified : lorsque Scale AI avait évalué les modèles frontière avec un scaffold unifié SWE-Agent, le meilleur résultat n'atteignait pas 25 % (GPT-5 à 23,3 %). Les chiffres publiés aujourd'hui par les labs sont bien supérieurs grâce à des harness optimisés : OpenAI annonce GPT-5.5 à 58,6 % sur le set public, Anthropic revendique 64,3 % pour Claude Opus 4.7, et Google affiche 54,2 % pour Gemini 3.1 Pro. La difficulté à comparer ces résultats, obtenus avec des configurations très différentes, illustre le défi central du marché en 2026 : choisir son agent de codage exige désormais de décrypter les benchmarks autant que les fonctionnalités.

UELes développeurs français et européens utilisant des agents de codage IA doivent recalibrer leurs critères de sélection face à l'invalidité confirmée du benchmark SWE-bench Verified et adopter SWE-bench Pro comme nouvelle référence comparative.

💬 Le coup de balai sur SWE-bench Verified était attendu, mais que les modèles reproduisent les solutions mot pour mot depuis l'identifiant de tâche, c'est quand même un niveau au-dessus. SWE-bench Pro repart à 23% avec un scaffold unifié, ce qui donne une image plus juste de là où on en est vraiment. Les 58-64% qu'annoncent les labs maintenant, c'est avec leurs propres harness optimisés, donc compare qui peut.

LLMsOutil

1 source

50

2MarkTechPost

Les meilleurs LLM locaux exécutables sur un GPU 24 Go en 2026 : comparatif Qwen, Gemma, Mistral et DeepSeek

Traduction fluide, respect des règles. --- Un GPU de 24 Go de VRAM, comme les RTX 3090 ou RTX 4090 de Nvidia, s'impose en 2026 comme le seuil minimal pour faire tourner sérieusement des modèles de langage en local. Longtemps, la pratique consistait à caser un modèle 70B fortement quantifié sur cette carte, mais cette approche est désormais dépassée au profit de modèles denses ou hybrides de 20 à 35 milliards de paramètres, mieux adaptés à cet espace mémoire. Trois postes se partagent les 24 Go disponibles : les poids du modèle (environ 0,58 octet par paramètre en quantification Q4KM, soit 18 à 20 Go pour un modèle de 32B), le cache KV qui croît avec la longueur du contexte, et une réserve de 1 à 2 Go pour le moteur d'inférence. Six modèles sortent du lot, tous sous licence permissive Apache 2.0 ou MIT et tenant sur une seule carte de 24 Go en Q4KM : Qwen3.6-27B d'Alibaba, modèle dense sorti en avril 2026 et orienté codage agentique (environ 16 Go de VRAM) ; Qwen3.6-35B-A3B, une architecture à mélange d'experts (35B au total, 3B actifs par token) qui décode plus vite tout en nécessitant environ 20 Go ; Gemma 4 26B de Google DeepMind, publié le 2 avril 2026, première génération Gemma entièrement ouverte, avec une variante MoE 26B à 3,8B actifs adaptée à la vision et à plus de 140 langues ; Mistral Small 3.2 24B, assistant quotidien dense de 24B ne nécessitant qu'environ 14 Go ; et gpt-oss-20b d'OpenAI, modèle de raisonnement ouvert à architecture MoE de 21B de paramètres au total. Cette évolution change concrètement la donne pour les développeurs et entreprises qui veulent exploiter l'IA générative sans dépendre du cloud. Une carte à 24 Go, accessible par rapport aux configurations multi-GPU professionnelles, permet désormais de faire tourner des modèles capables de coder, de raisonner ou de traiter des entrées multimodales, avec suffisamment de marge pour un contexte long et une vitesse de réponse compatible avec un usage interactif ou agentique. Cela réduit la dépendance aux API payantes des grands fournisseurs, protège la confidentialité des données traitées localement, et démocratise l'accès à des capacités jusque-là réservées aux infrastructures cloud coûteuses. Pour les équipes techniques, choisir le bon modèle selon l'usage, codage, chat général, vision ou raisonnement, devient aussi important que le choix du matériel lui-même. Cette bascule s'inscrit dans une dynamique plus large de course à l'efficacité chez les grands laboratoires. Alibaba, Google DeepMind, Mistral et OpenAI ont tous publié en 2026 des modèles ouverts optimisés pour tourner sur du matériel grand public, signe que l'open source reste un terrain de compétition stratégique face aux modèles propriétaires. Les architectures à mélange d'experts, comme celles de Qwen ou Gemma, illustrent une tendance de fond : privilégier la vitesse d'inférence plutôt que la seule taille brute, quitte à complexifier la gestion mémoire puisque tous les experts doivent rester chargés en VRAM même si peu sont activés à chaque étape. Mistral a par ailleurs lancé des modèles plus volumineux en 2026, désormais hors de portée d'une seule carte 24 Go, ce qui laisse présager une segmentation croissante entre modèles taillés pour l'inférence locale et modèles réservés aux infrastructures serveur.

UEMistral, entreprise française, figure parmi les modèles recommandés pour l'exécution locale, illustrant la compétitivité de l'IA européenne face aux acteurs américains et chinois.

💬 Bon, on remet à jour la barre : 24 Go de VRAM, ça suffit maintenant pour du sérieux, sans passer par du 70B quantifié à l'arrache comme avant. Ce qui change vraiment, c'est le mélange d'experts : Qwen3.6, Gemma 4, gpt-oss, tous misent sur l'inférence rapide plutôt que la taille brute, même si ça complique la gestion mémoire. Et Mistral qui reste dans la course sur une seule carte pendant que ses gros modèles filent vers le serveur, ça dit bien où va se jouer la bataille : le local d'un côté, le cloud propriétaire de l'autre.

LLMsTuto

1 source

Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3

54

3Latent Space

Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3

Google DeepMind a lancé Gemma 4 les 1er et 2 avril 2026, une nouvelle famille de modèles open-weight qui marque le bond le plus significatif de la série depuis un an. Quatre variantes sont disponibles : un modèle dense de 31 milliards de paramètres, un modèle MoE de 26 milliards (avec seulement 4 milliards de paramètres actifs, baptisé 26B-A4B), et deux modèles compacts orientés mobile et IoT, l'E4B et l'E2B, dotés de capacités multimodales natives incluant texte, vision et audio. Tous sont publiés sous licence Apache 2.0, un changement majeur par rapport aux licences plus restrictives des versions précédentes. Les grands modèles supportent une fenêtre de contexte allant jusqu'à 256 000 tokens, avec des capacités de function calling et de génération JSON structurée. Sur les benchmarks, le 31B se classe troisième parmi tous les modèles open-source selon l'Arena Leaderboard, et premier parmi les modèles américains ouverts, affichant un score de 85,7 % sur GPQA Diamond en mode raisonnement, à égalité avec des modèles bien plus massifs comme Kimi K2.5 (744 milliards de paramètres) ou GLM-5 de Z.ai (1 000 milliards de paramètres). Ces résultats sont importants pour l'ensemble de l'écosystème open-source car ils démontrent qu'un modèle de 31 milliards de paramètres peut rivaliser avec des architectures vingt fois plus grandes, rendant le déploiement local économiquement viable pour des entreprises de toutes tailles. Le support day-0 a été assuré simultanément par llama.cpp, Ollama, vLLM, LM Studio et Transformers, ce qui signifie que les développeurs ont pu télécharger et exécuter Gemma 4 dès le jour du lancement sur GPU consumer ou Mac Apple Silicon. Des benchmarks concrets rapportent 300 tokens par seconde en temps réel sur un M2 Ultra avec la variante 26B-A4B en quantification Q8_0. La licence Apache 2.0 autorise l'usage commercial sans restriction, ce qui lève un frein important à l'adoption en entreprise. Ce lancement intervient dans un contexte de fragilisation du leadership américain en matière de modèles ouverts : l'Allen Institute for AI traverse des turbulences internes, et le projet de modèle open-source d'OpenAI reste dans un statut incertain. Google DeepMind comble ainsi partiellement ce vide, capitalisant sur la traction de Gemma 3 qui a enregistré 400 millions de téléchargements et généré plus de 100 000 variantes communautaires. Les capacités audio et vision des modèles edge alimentent également des spéculations sur un rôle possible de Gemma 4 dans le cadre du partenariat Apple-Google pour le futur Siri sur appareil. Les prochaines semaines diront si cet avantage technique se traduit en adoption massive, notamment face à des concurrents comme Mistral ou les modèles Qwen d'Alibaba.

UELa licence Apache 2.0 sans restriction commerciale et les performances de Gemma 4 sur matériel grand public accentuent la pression concurrentielle sur Mistral et les acteurs européens du déploiement de modèles ouverts.

💬 Le 31B qui tient tête à des architectures de 700 milliards de paramètres, bon, sur les benchmarks ça impressionne vraiment. Mais ce qui change tout, c'est la licence Apache 2.0 sans condition commerciale, parce que c'était ça le vrai frein à l'adoption en entreprise. 300 tokens par seconde sur M2 Ultra avec la variante MoE, t'as plus besoin de louer du GPU pour faire tourner quelque chose de sérieux.

LLMsOpinion

1 source

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

49

4The Decoder

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion

1 source

[AINews] Classement des meilleurs modèles locaux - avril 2026

À lire aussi

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

Les meilleurs LLM locaux exécutables sur un GPU 24 Go en 2026 : comparatif Qwen, Gemma, Mistral et DeepSeek

Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles