Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Claude Skills才火了一阵子,昨天DeepSeek就发了新论文,用Engram告诉市场:你们方向可能错了?? AI LLM真的是每天都在上演神仙打架!😱
简单对比就能看出差异:Anthropic给模型配了个超级秘书,帮你整理200个文档、记住所有对话;DeepSeek更激进,直接给模型做脑科手术,让它长出一个“记忆器官”,像查字典一样O(1)秒回,不需要层层激活神经网络。
这问题其实早就该解决了。
从Transform架构起,大模型先天处理知识就像个死记硬背的学霸,每次问“戴安娜王妃是谁”,都得把175B参数的脑子从头到尾过一遍,这得白烧多少算力资源?
这就好比你每次想查个单词,都要把整本牛津词典从A背到Z才能告诉你答案,多荒谬?即使是现在流行的 MoE 架构,每次为了回忆一个冷知识,也要调动大量昂贵的计算专家参与运算。
1)Engram的核心突破:让模型长出“记忆器官”
Engram做的事情很简单,就是把静态事实知识从“参数记忆”里剥离出来,扔进一个可扩展的哈希表里,通过N-gram切分+多头哈希映射,实现O(1)常数时间查找。
说人话就是,管理上下文系统,还是让AI拿着说明书,遇到问题翻书查阅,而Engram目标是让大脑里找出一个新的器官,专门用来瞬间“回想”起一些固定成常识的知识,不需要再去动脑子推理。
效果有多猛?27B参数的模型在知识任务(MMLU)上提升3.4%,长文本检索从84%飙到97%。关键是,这些记忆参数可以卸载到便宜的DDR内存甚至硬盘里,推理成本几乎为零。
2)这是在革RAG和GPU军备竞赛的命?
如果Engram真跑通了,第一个受冲击的不是OpenAI,是RAG(检索增强生成)这套玩法和NVIDIA的显存生意,尤其是公有知识库RAG。
因为,RAG本质是让模型去外部数据库“查资料”,但查询慢、整合差、还得维护向量库。Engram直接把记忆模块嵌进模型架构,查得又快又准,还能用上下文门控过滤掉哈希冲突。
而且要命的是,论文里提到的“U型scaling law”的发现很刺激,若模型把20-25%参数给Engram当“记忆硬盘”,剩下75-80%留给传统神经网络做“推理大脑”,而且记忆规模每扩大10倍,性能就能对数级提升。
这不就彻底打破了“参数越大=越聪明”的信仰,从“无限堆H100”的军备竞赛,变成“适度算力+海量廉价记忆”的效率游戏?
以上。
不知道,DeepSeek V4会在春节前后发布,会不会把Engram和之前的mHC组合拳全部打出来。
这场“算力为王”到“算力+记忆”双轮驱动的范式革命,估计又会掀起一波血雨腥风,就看掌握算力资源优势的OpenAI、Anthropic等巨头们如何接招了。