PANews 27 février – Alors que l’industrie attend avec impatience la nouvelle génération de modèle phare DeepSeek V4, l’équipe DeepSeek a discrètement publié un nouveau papier académique. Ce nouveau document présente un système d’inférence innovant nommé DualPath, spécialement optimisé pour la performance d’inférence des grands modèles (LLM) sous charge d’agents intelligents. En introduisant un mécanisme de « lecture double voie du KV-Cache (semblable à un cache mémoire) », il redistribue la charge du réseau de stockage, augmentant le débit d’inférence hors ligne jusqu’à 1,87 fois, et le nombre moyen d’agents en fonctionnement par seconde en service en ligne de 1,96 fois. Dans l’introduction, le papier mentionne que les grands modèles évoluent rapidement, passant de simples chatbots à inférence autonome à des systèmes d’agents capables de planifier, d’utiliser des outils et de résoudre des tâches complexes via des interactions multi-tours. Cette transformation paradigmique entraîne une révolution majeure dans la charge d’inférence des grands modèles : passant d’une interaction humain-grand modèle à une interaction humain-grand modèle-environnement, pouvant atteindre plusieurs dizaines voire centaines de tours.