広場
最新
注目
ニュース
プロフィール
ポスト
Haotian|Web3DA
2026-01-14 07:54:11
フォロー
Claude Skills才火了一阵子,昨天DeepSeek就发了新论文,用Engram告诉市场:你们方向可能错了?? AI LLM真的是每天都在上演神仙打架!😱
简单对比就能看出差异:Anthropic给模型配了个超级秘书,帮你整理200个文档、记住所有对话;DeepSeek更激进,直接给模型做脑科手术,让它长出一个“记忆器官”,像查字典一样O(1)秒回,不需要层层激活神经网络。
这问题其实早就该解决了。
从Transform架构起,大模型先天处理知识就像个死记硬背的学霸,每次问“戴安娜王妃是谁”,都得把175B参数的脑子从头到尾过一遍,这得白烧多少算力资源?
这就好比你每次想查个单词,都要把整本牛津词典从A背到Z才能告诉你答案,多荒谬?即使是现在流行的 MoE 架构,每次为了回忆一个冷知识,也要调动大量昂贵的计算专家参与运算。
1)Engram的核心突破:让模型长出“记忆器官”
Engram做的事情很简单,就是把静态事实知识从“参数记忆”里剥离出来,扔进一个可扩展的哈希表里,通过N-gram切分+多头哈希映射,实现O(1)常数时间查找。
说人话就是,管理上下文系统,还是让AI拿着说明书,遇到问题翻书查阅,而Engram目标是让大脑里找出一个新的器官,专门用来瞬间“回想”起一些固定成常识的知识,不需要再去动脑子推理。
效果有多猛?27B参数的模型在知识任务(MMLU)上提升3.4%,长文本检索从84%飙到97%。关键是,这些记忆参数可以卸载到便宜的DDR内存甚至硬盘里,推理成本几乎为零。
2)这是在革RAG和GPU军备竞赛的命?
如果Engram真跑通了,第一个受冲击的不是OpenAI,是RAG(检索增强生成)这套玩法和NVIDIA的显存生意,尤其是公有知识库RAG。
因为,RAG本质是让模型去外部数据库“查资料”,但查询慢、整合差、还得维护向量库。Engram直接把记忆模块嵌进模型架构,查得又快又准,还能用上下文门控过滤掉哈希冲突。
而且要命的是,论文里提到的“U型scaling law”的发现很刺激,若模型把20-25%参数给Engram当“记忆硬盘”,剩下75-80%留给传统神经网络做“推理大脑”,而且记忆规模每扩大10倍,性能就能对数级提升。
这不就彻底打破了“参数越大=越聪明”的信仰,从“无限堆H100”的军备竞赛,变成“适度算力+海量廉价记忆”的效率游戏?
以上。
不知道,DeepSeek V4会在春节前后发布,会不会把Engram和之前的mHC组合拳全部打出来。
这场“算力为王”到“算力+记忆”双轮驱动的范式革命,估计又会掀起一波血雨腥风,就看掌握算力资源优势的OpenAI、Anthropic等巨头们如何接招了。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
GateTradFiIsLive
11.19K 人気度
#
MyFavouriteChineseMemecoin
29.97K 人気度
#
GateLaunchpadIMU
5.58K 人気度
#
SOLPriceAnalysis
21.4K 人気度
#
GateSquareCreatorNewYearIncentives
119.63K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
FAIRRUG
FAIRRUG
時価総額:
$3.68K
保有者数:
2
0.13%
2
798
江南第一深情
時価総額:
$3.72K
保有者数:
2
0.50%
3
trump
特朗普
時価総額:
$3.62K
保有者数:
1
0.00%
4
G-WORLD 🌍
G-WORLD 🌍
時価総額:
$3.61K
保有者数:
1
0.00%
5
龙的传人
龙的传人
時価総額:
$3.68K
保有者数:
2
0.09%
ピン
サイトマップ
Claude Skills才火了一阵子,昨天DeepSeek就发了新论文,用Engram告诉市场:你们方向可能错了?? AI LLM真的是每天都在上演神仙打架!😱
简单对比就能看出差异:Anthropic给模型配了个超级秘书,帮你整理200个文档、记住所有对话;DeepSeek更激进,直接给模型做脑科手术,让它长出一个“记忆器官”,像查字典一样O(1)秒回,不需要层层激活神经网络。
这问题其实早就该解决了。
从Transform架构起,大模型先天处理知识就像个死记硬背的学霸,每次问“戴安娜王妃是谁”,都得把175B参数的脑子从头到尾过一遍,这得白烧多少算力资源?
这就好比你每次想查个单词,都要把整本牛津词典从A背到Z才能告诉你答案,多荒谬?即使是现在流行的 MoE 架构,每次为了回忆一个冷知识,也要调动大量昂贵的计算专家参与运算。
1)Engram的核心突破:让模型长出“记忆器官”
Engram做的事情很简单,就是把静态事实知识从“参数记忆”里剥离出来,扔进一个可扩展的哈希表里,通过N-gram切分+多头哈希映射,实现O(1)常数时间查找。
说人话就是,管理上下文系统,还是让AI拿着说明书,遇到问题翻书查阅,而Engram目标是让大脑里找出一个新的器官,专门用来瞬间“回想”起一些固定成常识的知识,不需要再去动脑子推理。
效果有多猛?27B参数的模型在知识任务(MMLU)上提升3.4%,长文本检索从84%飙到97%。关键是,这些记忆参数可以卸载到便宜的DDR内存甚至硬盘里,推理成本几乎为零。
2)这是在革RAG和GPU军备竞赛的命?
如果Engram真跑通了,第一个受冲击的不是OpenAI,是RAG(检索增强生成)这套玩法和NVIDIA的显存生意,尤其是公有知识库RAG。
因为,RAG本质是让模型去外部数据库“查资料”,但查询慢、整合差、还得维护向量库。Engram直接把记忆模块嵌进模型架构,查得又快又准,还能用上下文门控过滤掉哈希冲突。
而且要命的是,论文里提到的“U型scaling law”的发现很刺激,若模型把20-25%参数给Engram当“记忆硬盘”,剩下75-80%留给传统神经网络做“推理大脑”,而且记忆规模每扩大10倍,性能就能对数级提升。
这不就彻底打破了“参数越大=越聪明”的信仰,从“无限堆H100”的军备竞赛,变成“适度算力+海量廉价记忆”的效率游戏?
以上。
不知道,DeepSeek V4会在春节前后发布,会不会把Engram和之前的mHC组合拳全部打出来。
这场“算力为王”到“算力+记忆”双轮驱动的范式革命,估计又会掀起一波血雨腥风,就看掌握算力资源优势的OpenAI、Anthropic等巨头们如何接招了。