Claude Skills才火了一阵子,昨天DeepSeek就发了新论文,用Engram告诉市场:你们方向可能错了?? AI LLM真的是每天都在上演神仙打架!😱



Simple comparison allows to see the differences: Anthropic has equipped the model with a super secretary to help you organize 200 documents and remember all conversations; DeepSeek is more aggressive, directly performing brain surgery on the model to grow a “memory organ,” allowing it to respond in (1) seconds like looking up a dictionary, without layers of neural network activation.

Ce problème aurait dû être résolu depuis longtemps.

Depuis l’architecture Transformer, les grands modèles traitent la connaissance comme un élève qui mémorise tout par cœur, chaque fois qu’on demande “qui est la princesse Diana”, il faut faire passer un cerveau de 175 milliards de paramètres du début à la fin, ce qui consomme énormément de ressources de calcul.

C’est comme si chaque fois que vous cherchez un mot, vous deviez parcourir tout le dictionnaire Oxford de A à Z pour obtenir la réponse, n’est-ce pas absurde ? Même avec l’architecture MoE populaire aujourd’hui, chaque fois qu’il faut se rappeler une connaissance peu courante, il faut mobiliser de nombreux experts en calcul coûteux.

1)La percée centrale d’Engram : faire pousser un “organe de mémoire” chez le modèle

Ce que fait Engram est très simple : il sépare la connaissance factuelle statique de la “mémoire paramétrique” pour la stocker dans une table de hachage extensible, en utilisant la segmentation N-gram + une cartographie par multi-tête pour réaliser une recherche en temps constant O(1).

En termes simples, cela consiste à gérer un système de contexte, ou à donner à l’IA un manuel pour tourner les pages et consulter en cas de problème, mais l’objectif d’Engram est de faire apparaître un nouvel organe dans le cerveau, dédié à “se souvenir” instantanément de connaissances fixes, sans avoir besoin de raisonner.

Quelle est l’efficacité ? Un modèle de 27 milliards de paramètres voit ses performances en tâche de connaissance (MMLU) augmenter de 3,4 %, la recherche sur de longs textes passe de 84 % à 97 %. L’essentiel, c’est que ces paramètres de mémoire peuvent être déchargés dans de la mémoire DDR bon marché ou même sur disque dur, rendant l’inférence presque gratuite.

2)Est-ce une révolution dans la course RAG et la compétition GPU ?

Si Engram fonctionne vraiment, ce ne seront pas OpenAI ni d’autres qui seront les premiers impactés, mais la méthode RAG (retrieval-augmented generation) et le business de la mémoire vidéo de NVIDIA, surtout pour les bases de connaissances publiques RAG.

Car, RAG consiste essentiellement à faire “rechercher des infos” dans une base de données externe, mais c’est lent, peu intégré, et il faut maintenir une base de vecteurs. Engram intègre directement le module de mémoire dans l’architecture du modèle, ce qui permet des recherches rapides et précises, tout en utilisant un filtrage par porte contextuelle pour éviter les conflits de hachage.

Et ce qui est encore plus fort, c’est la découverte du “U-shaped scaling law” mentionnée dans la paper : si le modèle consacre 20-25 % de ses paramètres à Engram comme “disque dur de mémoire”, et laisse 75-80 % pour le “cerveau de raisonnement” traditionnel, alors chaque fois que la mémoire s’étend de 10 fois, la performance peut augmenter de façon logarithmique.

Cela brise complètement la croyance selon laquelle “plus de paramètres = plus intelligent”, transformant la course à l’armement “H100 infini” en un jeu d’efficacité basé sur “calcul modéré + mémoire massive et bon marché”.

Voilà.

On ne sait pas encore si DeepSeek V4 sera publié avant ou après le Nouvel An, mais il est probable qu’ils déploieront toute la combinaison Engram et mHC comme avant.

Cette révolution paradigmique, passant de “puissance de calcul seule” à “puissance de calcul + mémoire”, risque de provoquer une nouvelle vague de chaos, et tout dépendra de la façon dont les géants comme OpenAI, Anthropic, qui contrôlent la ressource de calcul, y répondront.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)