🌕 Gate 广场 · 中秋创作激励限时开启!
创作点亮中秋,带热门话题发帖,瓜分 $5,000 中秋好礼!🎁
立即报名查看详情 👉 https://www.gate.com/campaigns/1953
💝 新用户首次发帖并完成互动任务,即可瓜分 $600 新人奖池!
🔥 今日热门话题: #我最看好的AI代币#
山寨季蓄势待发,AI板块代币普涨, #WLD# 、 #KAITO# 领涨,龙头 WLD 单日暴涨近48%,AI、IO、VIRTUAL 顺势跟上。近期你计划布局哪些潜力 AI 币?快来分享你的投资心得吧!
发帖建议:
1️⃣ AI 板块未来发展你怎么看?
2️⃣ 你最近看好哪些 AI 币向大家推荐?理由是什么?
3️⃣ 你最近的 AI 币种交易策略如何?
快带上 #我最看好的AI代币# 和 #Gate广场创作点亮中秋# 发帖,内容越多越优质,越有机会赢取 $5,000 中秋好礼!
OpenAI 解释为何会有 AI 幻觉?改变评估迷思的三种解法
OpenAI 发布大型语言模型幻觉报告,点出当前评估机制的偏误与建议解决方法。 (前情提要:Meta祖克柏白忙!给破亿美元薪水,两个月走了三个AI天才) (背景补充:a16z 最新 AI 百强榜出炉:Grok 一年跃居前 4,中国应用全球突围 ) OpenAI 在本周稍早公布一份关于大型语言模型「幻觉」现象的研究,指出现行训练与评估方法让模型倾向「自信猜测」而不愿承认不知道,是导致幻觉的原因,并提出下一步该如何走? 报告核心:评估方式把模型推向猜测 OpenAI 研究团队发现,当前模型训练时有大量评测题目以多选形式呈现,模型只要碰运气猜对就能获得分数,相反地,回答「不知道」则毫无积分。(这很好理解,就像你考选择题就算不知道答案也会乱填一样,至少有机会打对) 报告以 SimpleQA 测试为例,比较旧型号 o4-mini 与新版 gpt-5-thinking-mini:前者准确度略高,但「幻觉率」达 75%;后者虽常选择弃权,错误率却大幅下降。OpenAI 进一步指出,多数开发者专注提升整体正确率,却忽视「自信犯错」对用户影响远高於坦承不确定。 研究团队以一句话总结问题根源: 「标准的训练和评估程序奖励模型进行猜测,而不是在不确定时承认限制。」 换言之,幻觉并非模型硬体或参数规模不足,而是评分规则诱导模型采取高风险策略。 准确度提升仍无法根治幻觉 报告拆解业界常见五种误解,最重要的两点为:第一,只要把模型做得更大或资料喂得更多,就能消灭幻觉;第二,幻觉是无法避免的副作用。OpenAI 表示: 现实世界充满资讯缺口,任何规模的模型都可能遇到「资料稀疏」题目。真正关键在于模型是否有权选择「弃权」。 报告也强调,小型模型有时反而更易察觉自身知识空白;而只要调整评估标准,给「谦逊回答」部分分数,以「自信犯错」扣更重分,全尺寸模型同样能降低幻觉。OpenAI 建议业界从「答对率」转向「可靠性指标」,例如把错误信心度列入主要 KPI,才能促使模型在不确定情境下保持保守。 金融科技场景:信任缺口放大风险 对华尔街与矽谷来说,幻觉并非抽象学术议题,而是直接影响市场决策的变数。量化基金、投资银行和加密货币交易平台愈来愈倚赖 LLM 进行文本解析、情绪判读甚至自动报告。若模型在公司财报细节或合约条款出现幻觉,错误内容可能透过交易算法迅速被放大,带来巨额损失。 因此,监管单位与企业风控部门开始注意「模型诚实度」指标。多家券商已把「回答不确定率」纳入内部验收,让模型在未知领域预设回报「需要更多资料」。这一改变意味着,开发效能再强的 AI 方案,若无法提供可信度标签,将难以获得金融市场采纳。 下一步:从高分竞技转向诚实工程 最后,OpenAI 建议的路径是重写评测规格: 第一,对自信错答设定高额惩罚 第二,对适度表达不确定给予部分积分 第三,要求模型返回可验证参考来源。研究团队称,此举可在训练阶段迫使模型学会「风险管理」,类似投资组合理论中「先保本」。 对开发者而言,这代表参与者将不再单纯比拼模型大小,而是比谁能在有限计算预算中精准判断何时该收手;对投资人与监管者而言,新指标也提供更直观的风控锚点。随着「谦逊」成为新显学,AI 生态正从分数导向转向信任导向。 相关报导 ETH突破3600美元!贝莱德以太坊ETF提交质押申请、LDO跳涨20% 贝莱德比特币 ETF「IBIT」收益超旗下所有基金,比规模大十倍的标普 500 ETF 还赚 XRP 超车 USDT 成市值第三大加密货币!但 95% 流通量处盈利区,$3 成多空生死线 Solana 仅剩表面繁荣?当代币上涨仅靠幕后操纵,链上周期或已走向尽头〈OpenAI 解释为何会有 AI 幻觉?改变评估迷思的三种解法〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。