Gate Booster 第 4 期:發帖瓜分 1,500 $USDT
🔹 發布 TradFi 黃金福袋原創內容,可得 15 $USDT,名額有限先到先得
🔹 本期支持 X、YouTube 發布原創內容
🔹 無需複雜操作,流程清晰透明
🔹 流程:申請成為 Booster → 領取任務 → 發布原創內容 → 回鏈登記 → 等待審核及發獎
📅 任務截止時間:03月20日16:00(UTC+8)
立即領取任務:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多詳情:https://www.gate.com/announcements/article/50203
Adobe陷入法律風暴:被指控利用受污染的數據鏈,使用盜版書籍訓練人工智慧
生成式人工智慧已為科技產業打開了一個法律潘朵拉盒。在 Adobe 致力於擴展其由 AI 驅動的工具組合,如 Firefly 時,一場新的集體訴訟威脅著拆解這些系統建構的基礎。指控直指:該軟體公司利用盜版文學作品來訓練 SlimLM,其系列語言模型專為行動裝置上的文件任務優化。
訓練資料的污染之路
爭議的核心在於 Adobe 如何取得其資料。根據由俄勒岡州作家 Elizabeth Lyon 提出的一份訴狀,SlimLM 是在使用 Cerebras 於 2023 年推出的 SlimPajama-627B 資料集進行預訓練的。但這裡有一個關鍵問題:SlimPajama 並非一個純淨的資料集。它是通過處理和操縱 RedPajama 而來,而 RedPajama 又包含一個有問題的子集,稱為 Books3,這是一個包含 191,000 冊大量資料的集合。
這個衍生鏈條正是法律案件的堅實根基。Lyon 的律師辯稱,通過使用一個經過處理的資料子集,該子集原本來自 Books3,Adobe 間接地將數千件受著作權保護的作品納入,未經同意或補償。Books3 一直是多個 AI 訓練計畫中的污染源,每一場新訴訟都揭示開發者如何延續這個循環。
一波定義產業的訴訟浪潮
Adobe 並非孤軍作戰。在九月,Apple 也面臨類似指控,因其將受著作權保護的資料納入其 Apple Intelligence 模型,同樣明確提及 RedPajama 作為資料污染來源。數週後,Salesforce 也遭遇了類似的法律打擊,同樣涉及使用含有盜版作品的資料集。
這個模式是不爭的事實:大型科技公司建立的 AI 系統,都是建立在從源頭就受到污染的資料結構之上。這不是偶然的疏忽,而是產業優先追求開發速度而忽視法律審慎的結果。
改變遊戲規則的先例
迄今為止最具代表性的和解是在 Anthropic(Claude 聊天機器人創建者)同意支付 15 億美元給那些因其使用盜版作品而提起訴訟的作者後達成的。這一協議被視為轉折點,象徵法院開始重視在 AI 時代的著作權保護。
每當有新案件引用 Books3、RedPajama 及其衍生子集作為侵權證據時,產業都面臨一個不舒服的現實:目前大多數 AI 模型都建立在法律存疑的基礎上。這場針對 Adobe 的訴訟,可能最終成為重新思考 AI 系統開發與訓練方式的催化劑。