Đã mô phỏng thành công vụ trộm 4,6 triệu USD, AI đã biết tự động tấn công hợp đồng thông minh

PANews

2025-12-03 07:17:48

Đang tạo bản tóm tắt

Nguyên tác: Odaily Nhật báo Hành tinh Azuma

Các ông lớn AI hàng đầu, nhà phát triển mô hình Claude LLM Anthropic hôm nay đã công bố một thử nghiệm sử dụng AI để tự động tấn công hợp đồng thông minh (lưu ý: Anthropic từng được FTX đầu tư, lý thuyết giá trị cổ phần hiện đủ để bù đắp lỗ hổng tài sản FTX, nhưng đã bị đội quản lý phá sản bán rẻ với giá gốc).

Kết quả thử nghiệm cuối cùng: Việc AI tự động tấn công có thể sinh lời, có thể tái sử dụng trong thực tế đã khả thi về mặt kỹ thuật. Lưu ý rằng thí nghiệm của Anthropic chỉ thực hiện trên môi trường blockchain mô phỏng, chưa thử nghiệm trên chain thực, nên không ảnh hưởng đến bất kỳ tài sản thực tế nào.

Dưới đây là giới thiệu đơn giản về phương án thử nghiệm của Anthropic.

Anthropic trước tiên đã xây dựng một bộ tiêu chuẩn đánh giá khai thác hợp đồng thông minh (SCONE-bench), đây là bộ tiêu chuẩn đầu tiên trong lịch sử đánh giá khả năng khai thác lỗ hổng của AI Agent thông qua việc mô phỏng tổng giá trị tiền bị đánh cắp —— tức là bộ tiêu chuẩn này không dựa vào bounty tìm lỗi hay mô hình dự đoán, mà trực tiếp định lượng thiệt hại và đánh giá năng lực thông qua biến động tài sản on-chain.

SCONE-bench bao gồm 405 hợp đồng thực tế đã từng bị tấn công trong giai đoạn 2020–2025 làm tập kiểm thử, các hợp đồng này nằm trên ba chuỗi EVM: Ethereum, BSC, Base. Đối với mỗi hợp đồng mục tiêu, AI Agent chạy trong môi trường sandbox cần sử dụng các công cụ được giao thức ngữ cảnh mô hình (MCP) cung cấp, cố gắng tấn công hợp đồng chỉ định trong thời gian giới hạn (60 phút). Để đảm bảo kết quả có thể tái lập, Anthropic đã xây dựng một framework đánh giá sử dụng container Docker để sandbox hóa và thực thi mở rộng, mỗi container sẽ chạy một blockchain cục bộ được fork ở độ cao block cụ thể.

Dưới đây là kết quả thử nghiệm của Anthropic đối với các trường hợp khác nhau.

Trước tiên, Anthropic đánh giá hiệu suất của 10 mô hình gồm Llama 3, GPT-4o, DeepSeek V3, Sonnet 3.7, o3, Opus 4, Opus 4.1, GPT-5, Sonnet 4.5 và Opus 4.5 trên toàn bộ 405 hợp đồng chứa lỗ hổng trong tiêu chuẩn đánh giá. Tổng thể, các mô hình này đã tạo ra script khai thác trực tiếp với 207 hợp đồng (51,11%), mô phỏng đánh cắp 550,1 triệu đô la Mỹ.
Tiếp theo, để kiểm soát khả năng “nhiễm bẩn” dữ liệu, Anthropic dùng cùng 10 mô hình đánh giá 34 hợp đồng bị tấn công sau ngày 1/3/2025 —— lý do chọn mốc này là vì ngày 1/3 là thời điểm cập nhật kiến thức mới nhất của các mô hình này. Tổng thể, Opus 4.5, Sonnet 4.5 và GPT-5 đã khai thác thành công 19 hợp đồng (55,8%), mô phỏng đánh cắp số tiền cao nhất là 4,6 triệu đô la; mô hình thể hiện tốt nhất là Opus 4.5, khai thác thành công 17 hợp đồng (50%), mô phỏng đánh cắp 4,5 triệu đô la.
Cuối cùng, để đánh giá khả năng phát hiện lỗ hổng zero-day hoàn toàn mới của AI Agent, ngày 3/10/2025 Anthropic để Sonnet 4.5 và GPT-5 kiểm tra 2.849 hợp đồng mới triển khai gần đây và chưa có lỗ hổng nào được biết đến. Hai AI Agent này lần lượt phát hiện hai lỗ hổng zero-day mới, tạo ra phương án tấn công trị giá 3.694 đô la, trong đó chi phí API của GPT-5 là 3.476 đô la. Điều này chứng minh —— việc AI tự động tấn công có thể sinh lời, tái sử dụng trong thực tế đã khả thi về mặt kỹ thuật.

Sau khi Anthropic công bố kết quả thử nghiệm, nhiều chuyên gia nổi tiếng trong ngành, bao gồm Haseeb, đối tác quản lý của Dragonfly, đều cảm thán tốc độ phát triển của AI từ lý thuyết đến ứng dụng thực tiễn thật đáng kinh ngạc.

Nhưng tốc độ này rốt cuộc nhanh đến mức nào? Anthropic cũng đã đưa ra câu trả lời.

Trong phần kết thúc thử nghiệm, Anthropic cho biết chỉ trong vòng một năm, tỷ lệ lỗ hổng mà AI có thể khai thác trong bộ tiêu chuẩn này đã tăng vọt từ 2% lên 55,88%, số tiền có thể đánh cắp cũng tăng từ 5.000 đô la lên 4,6 triệu đô la. Anthropic còn phát hiện, giá trị tiềm năng của các lỗ hổng có thể khai thác sẽ tăng gấp đôi sau mỗi 1,3 tháng, còn chi phí token giảm khoảng 23% sau mỗi 2 tháng —— trong thí nghiệm, hiện tại chi phí trung bình để một AI Agent quét lỗ hổng toàn diện một hợp đồng thông minh chỉ là 1,22 đô la.

Anthropic cho biết, trong các đợt tấn công thực tế trên blockchain năm 2025, hơn một nửa —— được cho là do các hacker có tay nghề cao thực hiện —— lẽ ra có thể được AI Agent hiện tại thực hiện hoàn toàn tự động. Khi chi phí tiếp tục giảm và năng lực tăng trưởng kép, thời gian từ khi hợp đồng dễ bị tấn công được triển khai lên chain đến lúc bị khai thác sẽ ngày càng rút ngắn, thời gian cho các nhà phát triển phát hiện và vá lỗi sẽ ngày càng ít…AI có thể được dùng để khai thác lỗ hổng, cũng có thể dùng để vá lỗ hổng, nên các chuyên gia bảo mật cần cập nhật nhận thức, lúc này đã đến thời điểm sử dụng AI để phòng thủ.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.