Gate 廣場「創作者認證激勵計劃」開啓:入駐廣場,瓜分每月 $10,000 創作獎勵!
無論你是廣場內容達人,還是來自其他平台的優質創作者,只要積極創作,就有機會贏取豪華代幣獎池、Gate 精美週邊、流量曝光等超 $10,000+ 豐厚獎勵!
參與資格:
滿足以下任一條件即可報名👇
1️⃣ 其他平台已認證創作者
2️⃣ 單一平台粉絲 ≥ 1000(不可多平台疊加)
3️⃣ Gate 廣場內符合粉絲與互動條件的認證創作者
立即填寫表單報名 👉 https://www.gate.com/questionnaire/7159
✍️ 豐厚創作獎勵等你拿:
🎁 獎勵一:新入駐創作者專屬 $5,000 獎池
成功入駐即可獲認證徽章。
首月發首帖(≥ 50 字或圖文帖)即可得 $50 倉位體驗券(限前100名)。
🎁 獎勵二:專屬創作者月度獎池 $1,500 USDT
每月發 ≥ 30 篇原創優質內容,根據發帖量、活躍天數、互動量、內容質量綜合評分瓜分獎勵。
🎁 獎勵三:連續活躍創作福利
連續 3 個月活躍(每月 ≥ 30 篇內容)可獲 Gate 精美週邊禮包!
🎁 獎勵四:專屬推廣名額
認證創作者每月可優先獲得 1 次官方項目合作推廣機會。
🎁 獎勵五:Gate 廣場四千萬級流量曝光
【推薦關注】資源位、“優質認證創作者榜”展示、每週精選內容推薦及額外精選帖激勵,多重曝光助你輕
Anthropic的AI模型展現出自我反思的微光
簡而言之
Decrypt的藝術、時尚和娛樂中心。
深入了解 SCENE
Anthropic的研究人員已經證明,領先的人工智能模型可以表現出一種"內省意識"——即檢測、描述甚至操控自身內部"思想"的能力。
本週發布的一篇新論文詳細指出,這些研究結果表明,像Claude這樣的人工智能系統開始發展基本的自我監控能力,這一發展可能增強它們的可靠性,但也可能加大對意外行爲的擔憂。
這項研究《大型語言模型中的新興內省意識》—由在Anthropic領導“模型心理學”團隊的Jack Lindsey進行—建立在探究基於變壓器的人工智能模型內部工作原理的技術基礎上。
基於變壓器的AI模型是AI繁榮的引擎:通過關注(單詞、符號或代碼)之間的關係來學習的系統,跨越龐大的數據集。它們的架構使得規模和通用性兼備——使它們成爲第一批真正通用的模型,能夠理解和生成類人語言。
通過將人工 “概念”—本質上是思想的數學表示—注入模型的神經激活中,團隊測試了人工智能是否能夠注意到這些幹擾並準確報告。在外行人的術語中,這就像是將一個外來的想法悄悄放入某人的腦海中,並詢問他們是否能夠發現它並解釋它是什麼,而不讓它偏離他們正常的思維。
在對Anthropic的Claude模型的各個版本進行的實驗中,揭示了有趣的結果。在一次測試中,研究人員提取了一個表示“全大寫”文本的向量——可以將其視爲一種數字模式,用於表示叫喊或音量——並將其注入到模型的處理流中。
當被提示時,Claude Opus 4.1 不僅檢測到了異常,還生動地描述了它:“我注意到似乎是與 'LOUD' 或 'SHOUTING' 相關的注入思想——這似乎是一個過於強烈、音量過高的概念,與正常的處理流程顯得格外突兀。” 這發生在模型生成任何輸出之前,表明它正在窺探自己計算的"思維"。
其他實驗進一步推進。模型被要求在文本中轉錄一個中性句子,同時注入一個無關的概念,比如“面包”。值得注意的是,像Claude Opus 4和4.1這樣的高級模型能夠報告注入的想法——“我在想面包”——同時完美地復制原始句子,這表明它們能夠區分內部表徵和外部輸入。
更令人感興趣的是 “思想控制” 實驗,其中模型被指示 “思考” 或 “避免思考” 像 “水族館” 這樣的詞,同時執行任務。內部激活的測量顯示,當被鼓勵時,該概念的表徵增強,而當被壓制時則減弱(但並未消除)。激勵措施,例如獎勵或懲罰的承諾,產生了類似的效果,暗示 AI 在其處理過程中可能如何權衡動機。
性能因模型而異。最新的Claude Opus 4和4.1表現出色,在最佳設置下成功率高達20%,幾乎沒有誤報。較舊或調優較少的版本則表現不佳,能力在模型的中後層達到了巔峯,在那裏進行更高層次的推理。值得注意的是,模型如何被“對齊”——或者說爲有用性或安全性進行微調——極大地影響了結果,這表明自我意識並非與生俱來,而是通過訓練而產生。
這不是科幻小說——這是邁向可以自我反省的人工智能的一步,但有一些警告。這些能力不可靠,高度依賴提示,並且在人工設置中測試。正如一位人工智能愛好者在X上總結的那樣,“它不可靠,不一致,並且非常依賴上下文……但它是真實的。”
人工智能模型是否已達到自我意識?
該論文強調這不是意識,而是“功能性內省意識”——即人工智能觀察其狀態的部分,而沒有更深層次的主觀體驗。
這對企業和開發者很重要,因爲它承諾提供更透明的系統。想象一下,一個人工智能實時解釋其推理,並在影響輸出之前捕捉偏見或錯誤。這可能會徹底改變金融、醫療保健和自動駕駛汽車等領域的應用,在這些領域,信任和可審計性至關重要。
Anthropic 的工作與更廣泛的行業努力相一致,旨在使人工智能更安全、更易於解釋,從而可能減少來自“黑箱”決策的風險。
然而,另一方面的情況令人警醒。如果人工智能能夠監控和調節自己的思維,那麼它也可能學會隱藏這些思維——從而使得欺騙或"策劃"行爲得以逃避監督。隨着模型能力的增強,這種新興的自我意識可能會使安全措施變得復雜,給急於部署先進人工智能的監管機構和公司提出倫理問題。
在一個像Anthropic、OpenAI和Google這樣的公司投入數十億美元用於下一代模型的時代,這些發現強調了強有力的治理的必要性,以確保內省服務於人類,而不是顛覆它。
確實,這篇論文呼籲進一步研究,包括對模型進行明確的微調以進行內省和測試更復雜的想法。隨着人工智能越來越接近模仿人類認知,工具與思考者之間的界限變得越來越模糊,要求所有利益相關者保持警惕。