Dossier Hugging Face — page 3

238 articles · page 3 sur 5

Plateforme open source de modèles, datasets et outils IA : suivi des sorties, intégrations, financements et de son rôle dans l'écosystème.

101MarkTechPost OutilsTuto

Pipeline complet d'OCR de bout en bout avec Unlimited-OCR de Baidu pour images haute résolution et PDF multipages

Un tutoriel détaille la construction d'un pipeline complet d'OCR de bout en bout à partir du modèle Unlimited-OCR de Baidu, conçu pour traiter des images de documents haute résolution ainsi que des PDF multi-pages. La démarche configure d'abord un environnement GPU sous Google Colab, installe les dépendances nécessaires (transformers 4.57.1, Pillow, PyMuPDF, accelerate, entre autres) puis charge un modèle vision-langage de 3 milliards de paramètres depuis Hugging Face, avec sélection automatique du format bfloat16 ou float16 selon le matériel disponible, pour un poids d'environ 6 Go en BF16. Le tutoriel génère ensuite des documents d'exemple structurés, imitant des rapports trimestriels avec titres, paragraphes et tableaux de données financières régionales, afin de tester le modèle dans des conditions proches du réel. Deux modes d'inférence sont comparés pour l'OCR sur page unique : le mode Gundam, qui découpe l'image en tuiles pour une analyse plus fine, et le mode Base, plus rapide mais moins détaillé. Le pipeline est ensuite étendu au traitement de PDF multi-pages grâce à la bibliothèque PyMuPDF et à la fonction infer_multi(), qui gère le contenu réparti sur plusieurs pages en conservant des paramètres de génération à long contexte et des contrôles de répétition. L'intérêt de cette approche réside dans sa capacité à traiter des mises en page denses, des tableaux et du texte continu en une seule passe de décodage, sans recourir à une étape séparée d'analyse de mise en page comme le font les pipelines OCR classiques. Pour les entreprises et développeurs qui doivent extraire des données structurées de documents administratifs, financiers ou de rapports scannés, cela simplifie considérablement l'architecture technique tout en réduisant la latence de traitement. La possibilité de traiter des PDF entiers, page par page, avec une sortie textuelle cohérente ouvre la voie à des applications d'automatisation documentaire plus robustes, notamment pour les secteurs juridique, comptable ou administratif où la fidélité aux tableaux et aux chiffres est critique. Ce tutoriel s'inscrit dans une tendance plus large de remplacement des pipelines OCR traditionnels, souvent composés de plusieurs modules spécialisés, par des modèles vision-langage uniques capables de comprendre directement la structure visuelle d'un document. Baidu rejoint ainsi d'autres acteurs qui misent sur des modèles de quelques milliards de paramètres, suffisamment légers pour tourner sur un GPU grand public tout en conservant des performances élevées sur des tâches complexes. La reproductibilité du pipeline via Colab et son intégration à l'écosystème Hugging Face facilitent l'adoption par les développeurs, qui peuvent adapter rapidement l'outil à leurs propres corpus de documents professionnels.

Dossier Hugging Face — page 3

Pipeline complet d'OCR de bout en bout avec Unlimited-OCR de Baidu pour images haute résolution et PDF multipages

Meilleurs modèles de reconnaissance vocale (ASR) open source en 2026 : comparatif WER, langues, latence et licences

Analyse d'EdgeBench de qualité recherche : benchmarking d'agents IA, classements, lois d'échelle et métriques d'évaluation

Cette IA japonaise permet de créer un anime gratuitement… mais il y a un hic

Cosmos 3 Edge : cette IA de NVIDIA apprend aux robots à comprendre le monde en temps réel

« Se retire de » convient bien ici

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

Z.ai lance ZCode pour concurrencer Cursor, Claude Code et GitHub Copilot dans le codage IA

TabFM de Google AI : un modèle de fondation tabulaire à attention hybride pour la classification et la régression sans apprentissage préalable

Liquid AI lance LFM2.5-230M avec support llama.cpp, MLX, vLLM, SGLang et ONNX pour l'inférence sur appareil

DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Atelier FineWeb : streaming, filtrage, déduplication, tokenisation et analyse de corpus web à grande échelle

Moonshot AI publie Kimi K2.7-Code : un modèle de code avec +21,8 % sur Kimi Code Bench v2 par rapport à K2.6

[AINews] Loopcraft : l'art d'imbriquer les boucles

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Cohere lance North Mini Code, un modèle MoE open-weight de 30B paramètres (3B actifs) pour le codage par agents autonomes

La robotique ne connaîtra pas de moment Llama bien défini

Cohere publie en open source un agent de code fonctionnant sur un seul H100

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Il avait contourné les garde-fous de ChatGPT : Denis Shilov lève 9,35 millions d’euros pour WHITE CIRCLE

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Au-delà de ChatGPT : les outils d’IA les plus utilisés dans les bureaux français

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Digit apprend à danser en une nuit grâce à la simulation

Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser

Gemma 4 : intelligence multimodale de pointe sur appareil

Les 4 derniers métiers qui résisteront à l'IA dans la tech

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

L'avenir de l'IA entre ouverture et propriétaire

Import AI 449 : des LLMs entraînent d'autres LLMs ; entraînement distribué 72B ; la vision par ordinateur est plus difficile que le texte génératif