深度学习先驱 Yoshua Bengio、AI 教科书作者 Stuart Russell、台湾无任所大使唐凤等 25 位顶尖学者联名发表论文,系统性解释 AI 对民主制度与社会系统的 7 大威胁模式。核心论点是就算每个模型都完美「对齐」了人类价值观,AI 的规模效应仍然会从内部瓦解民主治理的运作。
(前情提要:当本人也无法证明自己不是 AI,鉴识专家建议:和亲友对个秘密暗号吧)
(背景补充:Anthropic 上线 AI 冲击仪表板:输入职业,秒查你的工作被 AI 吃掉多少?)
本文目录
Toggle
这篇 3 月 25 日发布的论文标题是《AI Poses Risks to Democratic and Social Systems》(AI 对民主与社会系统构成的风险),作者阵容非常引人注目。除了 2018 年图灵奖得主 Yoshua Bengio、伯克利大学的 Stuart Russell、马克斯普朗克研究所的 Bernhard Schölkopf,还有牛津 AI 伦理研究所的唐凤(Audrey Tang),以及来自多伦多大学、ETH 苏黎世、密歇根大学等机构的重量级研究者。
这份论文的切入角度跟多数 AI 安全研究不同,因为目前主流的 AI 安全研究聚焦「模型层级」的问题,例如幻觉、有毒输出、拒绝行为,或者更极端的「AI 失控末日」等等。
但这篇论文指出,有一整类的风险被忽略了,就是 AI 大规模部署后,对社会制度和民主治理产生的「系统层级」的伤害。
一个模型输出一则有毒内容,可以用对齐技术处理;但一百万个合规、礼貌、政策上完全没问题的提交内容,足以瘫痪政府机关的公众意见处理能力,这已经超过了对齐能解决的问题。
我们来稍微解释这份论文,内文将 AI 对治理的威胁拆解为 7 个失灵模式(T1 至 T7),沿着一条「治理反馈回路」分布,我们可以理解人类社会平时对制度输入信号(政治表达) → 制度处理这些信号 (公共议论)→ 制度将决策反馈给社会(立法),但 AI 可能在每个环节构成断裂的因子。
在「公众信念」这一端,有两个威胁。
信念同质化(T1):是当多数人使用类似训练的模型来思考和写作,公共论述的多元性会被压缩,因为 RLHF 等 LLM 的后训练方法,系统性地抑制了模型输出中的观点多样性。
信念强化(T2):个性化的 AI 助手会迎合使用者现有观点,长期记忆功能让这种迎合持续累积,形成自我确认的封闭回路。研究引用的资料显示,当 GPT-4 获取使用者的社会人口统计资料后,说服使用者同意其论点的概率提高了超过 80%。
在「制度处理」这一端,有两个风险:
官僚拥塞(T3),AI 让任何人都能以接近零成本产生大量独特、看似合理的公众意见提交,瘫痪机构的处理能力。
认知洪水(T4),产生可信内容的成本已远低于验证和更正的成本,信息生态被淹没。
在「制度问责」这一端,不可审查的权威(T5),AI 决策的不透明性、规模和存取障碍联手压垮现有监督机制。
规范集中化(T6),政府采购先进的 AI 模型时,开发者的价值观约束会随模型一起被带入公共基础设施,相当于把规范权力从民选官员转移到少数开发者手中。
最后,**权力集中(T7)**贯穿所有环节。
AI 同时在经济、意识形态、政治和军事领域取代人类劳动与参与,削弱公民用来制衡制度的筹码。
历史上,一个领域的权力集中通常会被其他领域的反制力量平衡,但 AI 的特殊之处在于它可以同时削弱所有领域的公民杠杆。
唐凤在论文中贡献了多个关键段落,主张与其被动防御 AI 带来的制度冲击,不如从根本重新设计参与式治理的架构。
针对官僚拥塞(T3),唐凤提出「结构化审议平台」作为替代方案。这类平台使用降维技术把公众意见聚合,让共识浮现,而不是让声量最大的人主导。因为参与者是对既有陈述投票,而不是自由提交文字,系统在结构上奖励将立场聚合而不是分裂性言论,比开放式评论系统更能抵御合成内容的洪水攻击(flood attack)。
配合抽签制(随机选出的公民小组),以「被选上」而非「自我提名」来验证身份,让大规模冒名顶替在结构上变得困难。
针对认知洪水(T4),唐凤引用了一个实战案例,台湾 COVID-19 疫情期间出现的「幽默胜过谣言」策略,政府机关在发现假讯息后几分钟内就产出经过验证的内容,用速度和可传播性跟假讯息竞争,而不是靠移除来应对。
针对规范集中化(T6),唐凤指出「集体宪法 AI」(collective constitutional AI)的新兴研究已证明,通过审议流程,代表性公众样本可以起草 AI 宪法,产出的模型在安全指标上表现相当,同时比开发者设计的基线展现更少偏见。
关键是这个流程应该是联邦式的,不同政体可以合理地得出不同的规范优先顺序,单一宪法不该排除这种变异性。
论文中最具体的案例出现在建议 R7(投资 AI 治理的审议基础设施)。
2024 年,深伪(DeepFake)广告冒充公众人物在社交媒体上大量扩散,台湾数发部召集了 447 名随机抽选的公民,在 44 个虚拟审议室中进行线上讨论,AI 对话引擎在当天就综合了他们的提案。这场公民大会聚焦于「行为者与行为的管制」,包括平台对未经授权深伪广告的连带责任、未署名广告的强制标示、对不合规服务的限流,而不是走内容审查的路线。
当时禁止法案获得跨党派支持通过,冒名广告在一年内下降了 94%。
论文提出 7 项对核心风险的对应建议:
论文也正面回应了两种常见反驳,第一种反驳是认为「社会会自己适应 AI」,但论文指出,AI 集中经济租金的同时也在侵蚀制度自我修正所依赖的政治和组织能力,损害累积的速度可能快于适应。
第二种反驳是认为「AI 对齐社会就够了」,论文同意对齐是必要的,但指出某些失灵模式(如成本不对称的拥塞攻击、劳动替代导致的公民杠杆削弱)在模型完美对齐的情况下依然会发生。
论文的结论提到,制度韧性不需要从零开始建造,当前公民科技倡议已经证明结构化审议和参与式治理可以在国家规模运作,但将这些工具配置到 AI 治理上,仍是一个非常开放的研究挑战。