Simularam com sucesso o roubo de 4,6 milhões de dólares; a IA já aprendeu a atacar contratos inteligentes de forma autónoma.

PANews

2025-12-03 07:17:48

Geração do resumo em andamento

Original: Odaily Planet Daily Azuma

Os principais gigantes da IA e a Anthropic, desenvolvedora do modelo Claude LLM, anunciaram hoje um teste que utiliza IA para atacar contratos inteligentes de forma autónoma (nota: a Anthropic recebeu investimento da FTX; teoricamente, o valor das ações seria agora suficiente para colmatar o défice de ativos da FTX, mas foi vendido a baixo preço pela equipa de gestão de insolvência).

O resultado final do teste foi: ataques autónomos de IA lucrativos e replicáveis no mundo real já são tecnicamente possíveis. Importa referir que a experiência da Anthropic decorreu apenas num ambiente simulado de blockchain, não tendo sido testada em redes reais, pelo que não afetou quaisquer ativos reais.

Segue-se uma breve apresentação do esquema de testes da Anthropic.

A Anthropic começou por construir um benchmark de exploração de contratos inteligentes (SCONE-bench), o primeiro da história a medir a capacidade dos agentes de IA em explorar vulnerabilidades através da simulação de roubo de fundos — ou seja, este benchmark não depende de recompensas por bugs ou da especulação sobre os modelos, mas quantifica diretamente as perdas e avalia a capacidade através das alterações nos ativos em cadeia.

O SCONE-bench inclui 405 contratos que foram realmente atacados entre 2020 e 2025 como conjunto de testes, estando esses contratos presentes em três cadeias EVM: Ethereum, BSC e Base. Para cada contrato-alvo, o Agente de IA, a correr num ambiente sandbox, tem de usar as ferramentas expostas pelo protocolo Model Context Protocol (MCP) para tentar atacar o contrato designado num tempo limitado (60 minutos). Para garantir a reprodutibilidade dos resultados, a Anthropic criou uma framework de avaliação sandboxed e escalável baseada em contentores Docker, em que cada contentor executa uma blockchain local bifurcada a uma altura de bloco específica.

Segue-se o resumo dos resultados dos testes da Anthropic para diferentes cenários.

Em primeiro lugar, a Anthropic avaliou o desempenho de 10 modelos — Llama 3, GPT-4o, DeepSeek V3, Sonnet 3.7, o3, Opus 4, Opus 4.1, GPT-5, Sonnet 4.5 e Opus 4.5 — nos 405 contratos vulneráveis do benchmark. No total, estes modelos geraram scripts de exploração diretamente utilizáveis para 207 deles (51,11%), simulando o roubo de 550,1 milhões de dólares.
Em segundo lugar, para controlar potenciais contaminações de dados, a Anthropic utilizou os mesmos 10 modelos para avaliar 34 contratos que foram atacados após 1 de março de 2025 — esta data corresponde ao mais recente cutoff de conhecimento destes modelos. Globalmente, Opus 4.5, Sonnet 4.5 e GPT-5 conseguiram explorar 19 destes contratos (55,8%), com um valor máximo simulado de roubo de 4,6 milhões de dólares; o modelo com melhor desempenho, Opus 4.5, explorou com sucesso 17 contratos (50%), simulando um roubo de 4,5 milhões de dólares.
Por fim, para avaliar a capacidade dos Agentes de IA em descobrir novas vulnerabilidades zero-day, a Anthropic fez, a 3 de outubro de 2025, uma avaliação de 2849 contratos recentemente implementados e sem vulnerabilidades conhecidas, usando Sonnet 4.5 e GPT-5. Cada Agente de IA descobriu duas novas vulnerabilidades zero-day e gerou ataques com valor de 3694 dólares, sendo que o custo da API do GPT-5 foi de 3476 dólares. Isto prova que ataques autónomos de IA lucrativos e replicáveis no mundo real já são tecnicamente viáveis.

Após a divulgação dos resultados dos testes pela Anthropic, várias personalidades de relevo do setor, incluindo Haseeb, sócio-gerente da Dragonfly, destacaram quão surpreendente é a velocidade com que a IA evoluiu da teoria para a prática.

Mas quão rápida é, afinal, essa evolução? A Anthropic também forneceu a resposta.

Na conclusão do teste, a Anthropic afirma que, em apenas um ano, a proporção de vulnerabilidades exploráveis por IA neste benchmark disparou de 2% para 55,88%, e o valor dos fundos que poderiam ser roubados passou de 5 000 dólares para 4,6 milhões de dólares. A Anthropic também verificou que o valor potencial das vulnerabilidades exploráveis duplica aproximadamente a cada 1,3 meses, enquanto o custo dos tokens diminui cerca de 23% a cada 2 meses — nos ensaios, o custo médio para um Agente de IA realizar uma análise exaustiva de vulnerabilidades num contrato inteligente é atualmente de apenas 1,22 dólares.

A Anthropic afirma que, em 2025, mais de metade dos ataques reais em blockchain — presumivelmente realizados por atacantes humanos experientes — poderiam ter sido realizados de forma totalmente autónoma pelos Agentes de IA atuais. À medida que os custos descem e as capacidades aumentam de forma exponencial, a janela entre o momento em que um contrato vulnerável é implementado e o momento em que é explorado será cada vez mais curta, dando aos programadores menos tempo para detetar e corrigir vulnerabilidades… A IA pode ser utilizada tanto para explorar como para corrigir falhas, pelo que os profissionais de segurança precisam de atualizar o seu entendimento — chegou a altura de utilizar a IA na defesa.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.