《AI對民主和人類社會的風險》:重量級論文由 AI 教父 Yoshua Bengio 聯手唐鳳等 25 位學者發表

動區BlockTempo

深度學習先驅 Yoshua Bengio、AI 教科書作者 Stuart Russell、台灣無任所大使唐鳳等 25 位頂尖學者聯名發表論文,系統性解釋 AI 對民主制度與社會系統的 7 大威脅模式。核心論點是就算每個模型都完美「對齊」了人類價值觀,AI 的規模效應仍然會從內部瓦解民主治理的運作。
(前情提要:當本人也無法證明自己不是 AI,鑑識專家建議:和親友對個秘密暗號吧)
(背景補充:Anthropic 上線 AI 衝擊儀錶板:輸入職業,秒查你的工作被 AI 吃掉多少?)

本文目錄

Toggle

  • 民主在 AI 下的 7 種失靈模式
  • 唐鳳:台灣的例子,用審議民主破解 AI 治理困境
  • 7 項建議與核心結論

這篇 3 月 25 日發布的論文標題是《AI Poses Risks to Democratic and Social Systems》(AI 對民主與社會系統構成的風險),作者陣容非常引人注目。除了 2018 年圖靈獎得主 Yoshua Bengio、柏克萊大學的 Stuart Russell、馬克斯普朗克研究所的 Bernhard Schölkopf,還有牛津 AI 倫理研究所的唐鳳(Audrey Tang),以及來自多倫多大學、ETH 蘇黎世、密西根大學等機構的重量級研究者。

這份論文的切入角度跟多數 AI 安全研究不同,因為目前主流的 AI 安全研究聚焦「模型層級」的問題,例如幻覺、有毒輸出、拒絕行為,或者更極端的「AI 失控末日」等等。

但這篇論文指出,有一整個大類的風險被忽略了,就是 AI 大規模部署後,對社會制度和民主治理產生的「系統層級」的傷害。

一個模型輸出一則有毒內容,可以用對齊技術處理;但一百萬個合規、禮貌、政策上完全沒問題的提交內容,足以癱瘓政府機關的公眾意見處理能力,這已經超過了對齊能解決的問題。

民主在 AI 下的 7 種失靈模式

我們來稍微解釋這份論文,內文將 AI 對治理的威脅拆解為 7 個失靈模式(T1 至 T7),沿著一條「治理回饋迴路」分布,我們可以理解人類社會平時對制度輸入訊號(政治表達) → 制度處理這些訊號 (公共議論)→ 制度將決策回饋給社會(立法),但 AI 可能在每個環節構成斷裂的因子。

在「公眾信念」這一端,有兩個威脅。

信念同質化(T1):是當多數人使用類似訓練的模型來思考和寫作,公共論述的多元性會被壓縮,因為 RLHF 等 LLM 的後訓練方法,系統性地抑制了模型輸出中的觀點多樣性。

信念強化(T2):個人化的 AI 助手會迎合使用者現有觀點,長期記憶功能讓這種迎合持續累積,形成自我確認的封閉迴圈。研究引用的資料顯示,當 GPT-4 取得使用者的社會人口統計資料後,說服使用者同意其論點的機率提高了超過 80%

在「制度處理」這一端,有兩個風險:

官僚擁塞(T3),AI 讓任何人都能以接近零成本產生大量獨特、看似合理的公眾意見提交,癱瘓機構的處理能力。

認知洪水(T4),產生可信內容的成本已遠低於驗證和更正的成本,資訊生態被淹沒。

在「制度問責」這一端,不可審查的權威(T5),AI 決策的不透明性、規模和存取障礙聯手壓垮現有監督機制。

規範集中化(T6),政府採購先進的 AI 模型時,開發者的價值觀約束會隨模型一起被帶入公共基礎設施,等於把規範權力從民選官員轉移到少數開發者手中。

最後,權力集中(T7) 貫穿所有環節。

AI 同時在經濟、意識形態、政治和軍事領域取代人類勞動與參與,削弱公民用來制衡制度的籌碼。

歷史上,一個領域的權力集中通常會被其他領域的反制力量平衡,但 AI 的特殊之處在於它可以同時削弱所有領域的公民槓桿。

唐鳳:台灣的例子,用審議民主破解 AI 治理困境

唐鳳在論文中貢獻了多個關鍵段落,主張與其被動防禦 AI 帶來的制度衝擊,不如從根本重新設計參與式治理的架構。

針對官僚擁塞(T3),唐鳳提出「結構化審議平台」作為替代方案。這類平台使用降維技術把公眾意見聚合,讓共識浮現,而不是讓聲量最大的人主導。因為參與者是對既有陳述投票,而不是自由提交文字,系統在結構上獎勵將立場聚合而不是分裂性言論,比開放式評論系統更能抵抗合成內容的洪水攻擊(flood attack)。

配合抽籤制(隨機選出的公民小組),以「被選上」而非「自我提名」來驗證身分,讓大規模冒名頂替在結構上變得困難。

針對認知洪水(T4),唐鳳引用了一個實戰案例,台灣 COVID-19 疫情期間出現的「幽默勝過謠言」策略,政府機關在發現假訊息後幾分鐘內就產出經過驗證的內容,用速度和可傳播性跟假訊息競爭,而不是靠移除來因應。

針對規範集中化(T6),唐鳳指出「集體憲法 AI」(collective constitutional AI)的新興研究已證明,透過審議流程,代表性公眾樣本可以起草 AI 憲法,產出的模型在安全指標上表現相當,同時比開發者設計的基線展現更少偏見。

關鍵是這個流程應該是聯邦式的,不同政體可以合理地得出不同的規範優先順序,單一憲法不該排除這種變異性。

論文中最具體的案例出現在建議 R7(投資 AI 治理的審議基礎設施)。

2024 年,深偽(DeepFake)廣告冒充公眾人物在社群媒體上大量擴散,台灣數發部召集了 447 名隨機抽選的公民,在 44 個虛擬審議室中進行線上討論,AI 對話引擎在當天就綜合了他們的提案。這場公民大會聚焦於「行為者與行為的管制」,包括平台對未經授權深偽廣告的連帶責任、未署名廣告的強制標示、對不合規服務的限流,而不是走內容審查的路線。

當時禁止法案獲得跨黨派支援透過,冒名廣告在一年內下降了 94%。

7 項建議與核心結論

論文提出 7 項對核心風險的對應建議:

  • R1 開發多代理模擬系統,在 AI 大規模參與場景下壓力測試制度韌性
  • R2 訓練模型支援「認知健康」,超越單純的避害,培養誠實的異議和認知謙遜
  • R3 在治理相關場景中限制 AI 自主性,保留人類問責
  • R4 建立「制度安全等級」(ISL),依 AI 能力觸發對應的治理門檻
  • R5 要求制度 AI 保留決策紀錄,並對公眾參與進行身分驗證
  • R6 公共 AI 採購要求互操作性和多供應商策略,避免單一模型家族的規範壟斷
  • R7 投資審議式治理基礎設施,讓民主參與的管道本身更能抵抗操縱

論文也正面回應了兩種常見反駁,第一種反駁是認為「社會會自己適應 AI 」,但論文指出,AI 集中經濟租金的同時也在侵蝕制度自我修正所依賴的政治和組織能力,損害累積的速度可能快過適應。

第二種反駁是認為「AI 對齊社會就夠了」,論文同意對齊是必要的,但指出某些失靈模式(如成本不對稱的擁塞攻擊、勞動替代導致的公民槓桿削弱)在模型完美對齊的情況下依然會發生。

論文的結論提到,制度韌性不需要從零開始建造,當前公民科技倡議已經證明結構化審議和參與式治理可以在國家規模運作,但將這些工具配置到 AI 治理上,仍是一個非常開放的研究挑戰。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento