廣場
最新
熱門
新聞
我的主頁
發布
Haotian|Web3DA
2026-01-14 07:54:11
關注
Claude Skills才火了一陣子,昨天DeepSeek就發了新論文,用Engram告訴市場:你們方向可能錯了?? AI LLM真的是每天都在上演神仙打架!😱
簡單對比就能看出差異:Anthropic給模型配了一個超級秘書,幫你整理200個文件、記住所有對話;DeepSeek更激進,直接給模型做腦科手術,讓它長出一個“記憶器官”,像查字典一樣O(1)秒回,不需要層層激活神經網絡。
這問題其實早就該解決了。
從Transform架構起,大模型先天處理知識就像個死記硬背的學霸,每次問“戴安娜王妃是誰”,都得把175B參數的腦子從頭到尾過一遍,這得白燒多少算力資源?
這就好比你每次想查個單詞,都要把整本牛津詞典從A背到Z才能告訴你答案,多荒謬?即使是現在流行的 MoE 架構,每次為了回憶一個冷知識,也要調動大量昂貴的計算專家參與運算。
1)Engram的核心突破:讓模型長出“記憶器官”
Engram做的事情很簡單,就是把靜態事實知識從“參數記憶”裡剝離出來,扔進一個可擴展的哈希表裡,通過N-gram切分+多頭哈希映射,實現O(1)常數時間查找。
說人話就是,管理上下文系統,還是讓AI拿著說明書,遇到問題翻書查閱,而Engram目標是讓大腦裡找出一個新的器官,專門用來瞬間“回想”起一些固定成常識的知識,不需要再去動腦子推理。
效果有多猛?27B參數的模型在知識任務(MMLU)上提升3.4%,長文本檢索從84%飆到97%。關鍵是,這些記憶參數可以卸載到便宜的DDR內存甚至硬盤裡,推理成本幾乎為零。
2)這是在革RAG和GPU軍備競賽的命?
如果Engram真跑通了,第一個受衝擊的不是OpenAI,是RAG(檢索增強生成)這套玩法和NVIDIA的顯存生意,尤其是公有知識庫RAG。
因為,RAG本質是讓模型去外部資料庫“查資料”,但查詢慢、整合差、還得維護向量庫。Engram直接把記憶模塊嵌進模型架構,查得又快又準,還能用上下文門控過濾掉哈希衝突。
而且要命的是,論文裡提到的“U型scaling law”的發現很刺激,若模型把20-25%參數給Engram當“記憶硬盤”,剩下75-80%留給傳統神經網絡做“推理大腦”,而且記憶規模每擴大10倍,性能就能對數級提升。
這不就徹底打破了“參數越大=越聰明”的信仰,從“無限堆H100”的軍備競賽,變成“適度算力+海量廉價記憶”的效率遊戲?
以上。
不知道,DeepSeek V4會在春節前後發布,會不會把Engram和之前的mHC組合拳全部打出來。
這場“算力為王”到“算力+記憶”雙輪驅動的範式革命,估計又會掀起一波血雨腥風,就看掌握算力資源優勢的OpenAI、Anthropic等巨頭們如何接招了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
讚賞
按讚
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
Gate2月透明度報告
4.96萬 熱度
#
國際油價突破100美元
13.81萬 熱度
#
比特幣重回跌勢
9742.43萬 熱度
#
哈梅內伊之子當選伊朗領袖
63.54萬 熱度
#
Gate藍龍蝦
3.16萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
地球
地球
市值:
$2400
持有人數:
1
0.00%
2
CN
华夏
市值:
$0.1
持有人數:
1
0.00%
3
DDNX
牛马
市值:
$2403.44
持有人數:
1
0.00%
4
ggg
牛牛
市值:
$2403.44
持有人數:
1
0.00%
5
龙虾🦞
龙虾🦞
市值:
$2997.25
持有人數:
2
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
Claude Skills才火了一陣子,昨天DeepSeek就發了新論文,用Engram告訴市場:你們方向可能錯了?? AI LLM真的是每天都在上演神仙打架!😱
簡單對比就能看出差異:Anthropic給模型配了一個超級秘書,幫你整理200個文件、記住所有對話;DeepSeek更激進,直接給模型做腦科手術,讓它長出一個“記憶器官”,像查字典一樣O(1)秒回,不需要層層激活神經網絡。
這問題其實早就該解決了。
從Transform架構起,大模型先天處理知識就像個死記硬背的學霸,每次問“戴安娜王妃是誰”,都得把175B參數的腦子從頭到尾過一遍,這得白燒多少算力資源?
這就好比你每次想查個單詞,都要把整本牛津詞典從A背到Z才能告訴你答案,多荒謬?即使是現在流行的 MoE 架構,每次為了回憶一個冷知識,也要調動大量昂貴的計算專家參與運算。
1)Engram的核心突破:讓模型長出“記憶器官”
Engram做的事情很簡單,就是把靜態事實知識從“參數記憶”裡剝離出來,扔進一個可擴展的哈希表裡,通過N-gram切分+多頭哈希映射,實現O(1)常數時間查找。
說人話就是,管理上下文系統,還是讓AI拿著說明書,遇到問題翻書查閱,而Engram目標是讓大腦裡找出一個新的器官,專門用來瞬間“回想”起一些固定成常識的知識,不需要再去動腦子推理。
效果有多猛?27B參數的模型在知識任務(MMLU)上提升3.4%,長文本檢索從84%飆到97%。關鍵是,這些記憶參數可以卸載到便宜的DDR內存甚至硬盤裡,推理成本幾乎為零。
2)這是在革RAG和GPU軍備競賽的命?
如果Engram真跑通了,第一個受衝擊的不是OpenAI,是RAG(檢索增強生成)這套玩法和NVIDIA的顯存生意,尤其是公有知識庫RAG。
因為,RAG本質是讓模型去外部資料庫“查資料”,但查詢慢、整合差、還得維護向量庫。Engram直接把記憶模塊嵌進模型架構,查得又快又準,還能用上下文門控過濾掉哈希衝突。
而且要命的是,論文裡提到的“U型scaling law”的發現很刺激,若模型把20-25%參數給Engram當“記憶硬盤”,剩下75-80%留給傳統神經網絡做“推理大腦”,而且記憶規模每擴大10倍,性能就能對數級提升。
這不就徹底打破了“參數越大=越聰明”的信仰,從“無限堆H100”的軍備競賽,變成“適度算力+海量廉價記憶”的效率遊戲?
以上。
不知道,DeepSeek V4會在春節前後發布,會不會把Engram和之前的mHC組合拳全部打出來。
這場“算力為王”到“算力+記憶”雙輪驅動的範式革命,估計又會掀起一波血雨腥風,就看掌握算力資源優勢的OpenAI、Anthropic等巨頭們如何接招了。