米拉·乔沃维奇参与开发的 AI 记忆系统 MemPalace 宣称测试满分而爆红,却遭到社群踢爆:测试涉嫌作弊与数据误导。实测发现成效被夸大且存在大量错误,团队已承认瑕疵并正在修复中。
昨天(4/7)AI 圈有个大新闻是,以《生化危机》《第五元素》闻名的好莱坞女星米拉·乔沃维奇(Milla Jovovich),与开发者 Ben Sigman 使用 Claude Code 辅助开发出「MemPalace」开源 AI 记忆系统。
一时间,「好莱坞巨星跨界做出满分专案」的说法广泛流传,MemPalace 迄今在 GitHub 上也获得超过 2 万颗星星,但很快就引发开发者社群质疑:是真的有料还是炒作?
先来说明一下 MemPalace 诞生的动机,官方文件称是想解决目前 AI 系统使用者与 AI 的对话内容、决策过程与架构讨论通常会在工作阶段结束后消失的限制,导致数个月的心血归零。
为解决这个问题,MemPalace 采用空间架构来存储记忆,将信息明确归类至代表人员或专案的翼区,以及走廊、房间与抽屉等不同层级的结构中,保留对话原文供后续语义检索。
开发团队宣称,MemPalace 在长效记忆评估基准 LongMemEval 中获得 100% 的完美成绩,并且在不调用任何外部 API 的情况下达到 96.6% 的准确率,而且能完全在本地端运行,不需订阅云端服务,并搭载号称能达到 30 倍无损压缩的 AAAK 方言系统。
图源:GitHub 美国电影明星米拉乔沃维奇打造 AI 记忆宫殿,引发外界关注
不过,MemPalace 号称 LongMemEval 满分的成绩,很快就引来同行质疑。
同样是制作 AI 记忆系统的 PenfieldLabs 指出,MemPalace 宣称在 LoCoMo 数据集获得满分,在数学上不可能发生,因为该数据集的标准答案本身就包含 99 个错误。
PenfieldLabs 分析发现,MemPalace 的 100% 成绩来自于将检索次数设置为 50 次,但测试数据集对话的最高阶段数仅有 32 次,这代表系统直接绕过检索阶段,把所有数据交给 AI 模型读取。
针对 LongMemEval 的 100% 成绩,开发团队被发现是针对开发过程中出错的 3 个特定问题编写专属修复代码,存在针对测试集作弊的嫌疑。
图源:Reddit 同行 PenfieldLabs 指出,MemPalace 宣称在 LoCoMo 数据集中获得满分,在数学上不可能发生
GitHub 使用者 hugooconnor 则在实测后评论,MemPalace 宣称高达 96.6% 的检索准确率,实际上完全没有使用到 MemPalace 标榜的记忆宫殿架构。hugooconnor 称,他们的测试只是单纯调用底层数据库 ChromaDB 的预设功能,完全没有牵涉专案强调的翼区、房间或抽屉等分类逻辑。
hugooconnor 测试后发现,当系统真正启用这些记忆宫殿的专属分类逻辑时,检索成绩反而出现下滑。以房间模式为例,准确率下降至 89.4%,而启用 AAAK 压缩技术后,准确率更跌至 84.2%,两者皆低于预设数据库表现。
hugooconnor 也批评了测试方法,MemPalace 的测试环境刻意把每个问题的检索范围缩小至约 50 个对话阶段,在极小的样本库中寻找答案过于简单。
如果把范围扩大到真实情境的 19,000 多个对话阶段,传统关键词搜索的准确率会暴跌至 30%,显示 MemPalace 目前的测试方式掩盖了真实的搜索难题。
图源:GitHub GitHub 使用者实测,MemPalace 基准测试有误导成分
同时,虽然开发团队已经发布更正声明,承认 AAAK 技术确实验证为有损压缩,并承诺会根据社群严厉批评修正说明文件与系统设计。但专案的主要说明文件依然保留多项未经修正的夸大说法,包括宣称 30 倍无损压缩与 34% 检索提升,且与其他竞争对手的比较图表也完全缺乏来源出处。
随着越来越多开发者下载测试,目前 GitHub 平台上出现大量关于 MemPalace 原始码的 Bug 回报。
使用者 cktang88 列出多项严重瑕疵,包含压缩指令无法运作并导致系统崩溃、摘要字数计算逻辑错误、挖掘房间的统计数据不准确,以及服务器在每次调用时会将所有解释数据载入内存,造成严重的资源消耗问题。
其他被指出的问题还包括系统把开发者的家庭成员名称强制写入预设设置档中,以及查询状态时存在 1 万笔数据的强制显示上限。
针对这些问题,开源社群已经开始积极修复。**使用者 adv3nt3 提交多项修复请求,包含修正挖掘统计数据、移除预设的家庭成员名称,以及延迟知识图谱的初始化时间。**开发团队后续也承认这些错误,正通过社群协作逐步解决程式码问题。
对于 MemPalace 这个专案,Hacker News 网友 darkhanakh 下了一个结论:MemPalace 给人一种 OpenClaw 的既视感,也就是人为操纵基准测试(benchmark)结果使其看起来完美无瑕,然后再把它包装成某种重大突破来行销。
他认为,MemPalace 的底层技术可能确实很有意思,但在测试方法带有这类瑕疵的情况下,还主打「史上公开最高分」来宣传,实在不太妥当,「不过,米拉·乔沃维奇在玩 Vibe Coding 这件事,我想还是挺酷的啦。」
延伸阅读:
AI 写程式出包!超商即期品 App「惜食猎人」爆资安问题,家中 GPS 全裸奔