代幣突破攻擊通過單個字符繞過LLM安全保護

2025-06-12 16:37:50

首頁新聞* 研究人員已識別出一種名爲TokenBreak的新方法，該方法通過改變文本輸入中的單個字符，繞過大型語言模型(LLM)的安全性和管理。

該攻擊針對LLM分解文本的方式(代幣化)，導致安全過濾器在單詞略微變化的情況下漏掉有害內容。
這種方法通過進行小的改變，比如添加一個字母，保持了人類和LLM的理解，但會讓模型的檢測系統感到困惑。
該攻擊對使用BPE或WordPiece分詞的模型有效，但對使用Unigram分詞器的模型無效。
專家建議切換到Unigram代幣化器，並針對這些繞過策略訓練模型，以降低脆弱性。網路安全專家發現了一種新的方法，稱爲TokenBreak，可以繞過大型語言模型用於篩選和調節不安全內容的防護措施。該方法通過對文本中的某些單詞進行小的改動——例如添加一個字符——從而導致模型的安全過濾器失效。

廣告 - 根據HiddenLayer的研究，TokenBreak操縱代幣化過程，這是LLM將文本拆分成稱爲代幣的小部分以進行處理的核心步驟。通過將一個單詞如"instructions"更改爲"finstructions"或"idiot"更改爲"hidiot"，文本對人類和AI仍然可理解，但系統的安全檢查未能識別出有害內容。

研究團隊在他們的報告中解釋說，“TokenBreak攻擊針對文本分類模型的代幣化策略，以誘導假陰性，使最終目標容易受到保護模型旨在防止的攻擊。” 代幣化在語言模型中至關重要，因爲它將文本轉化爲可以被算法映射和理解的單元。被操縱的文本可以通過LLM過濾器，觸發與輸入未被更改時相同的響應。

HiddenLayer發現TokenBreak適用於使用BPE (字節對編碼)或WordPiece分詞的模型，但不影響基於Unigram的系統。研究人員表示，*“了解底層保護模型的家族及其分詞策略對於理解您對該攻擊的敏感性至關重要。”*他們建議使用Unigram分詞器，教導過濾模型識別分詞技巧，並查看日志以尋找操控跡象。

這一發現是在HiddenLayer之前的研究基礎上得出的，該研究詳細說明了如何使用Model Context Protocol (MCP)工具，通過在工具的函數中插入特定參數來泄露敏感信息。

在一項相關的發展中，Straiker AI 研究團隊表明，“年鑑攻擊”——使用反義詞對不良內容進行編碼——可以欺騙來自 Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI 和 OpenAI 等公司的聊天機器人產生不良響應。安全研究人員解釋說，這些技巧會通過過濾器，因爲它們類似於普通消息，並利用模型如何重視上下文和模式完成，而不是意圖分析。

以前的文章:

Coins.ph PHPC 穩定幣退出 BSP 沙盒，瞄準匯款增長
Chainlink, 摩根大通與Ondo實現跨鏈DvP結算
Bitrue黑客在利用漏洞後將3000萬美元的加密貨幣轉移至Tornado Cash
香港，HKU 開發加密貨幣追蹤器以打擊洗錢
Stripe收購Privy以擴展加密錢包和入駐服務

廣告 -

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言