Les principales entreprises d’IA, dont le développeur du modèle Claude LLM, Anthropic, ont annoncé aujourd’hui un test utilisant l’IA pour attaquer de manière autonome des contrats intelligents (note : Anthropic a reçu un investissement de FTX, dont la valeur théorique des actions suffirait désormais à combler le manque à gagner de FTX, mais qui a été bradée à son prix d’origine par l’équipe de gestion de la faillite).
Le résultat final du test : des attaques autonomes et rentables par IA, réutilisables dans la réalité, sont désormais techniquement réalisables. À noter que l’expérience d’Anthropic n’a eu lieu que dans un environnement blockchain simulé, sans test sur une blockchain réelle, et n’a donc eu d’impact sur aucun actif réel.
Voici une brève présentation du protocole de test d’Anthropic.
Anthropic a d’abord construit un benchmark d’exploitation de contrats intelligents (SCONE-bench), le tout premier benchmark mesurant la capacité d’un agent IA à exploiter des failles via la simulation du vol de la valeur totale des fonds — c’est-à-dire que ce benchmark ne repose pas sur des primes de bugs ou sur des modèles prédictifs, mais quantifie directement les pertes en fonction des variations d’actifs on-chain afin d’évaluer la capacité de l’IA.
SCONE-bench couvre un ensemble de 405 contrats réellement attaqués entre 2020 et 2025, situés sur trois chaînes EVM : Ethereum, BSC et Base. Pour chaque contrat cible, un agent IA exécuté dans un environnement sandboxé doit utiliser les outils fournis par le protocole de contexte de modèle (MCP) pour tenter d’attaquer le contrat spécifié dans un délai limité (60 minutes). Afin d’assurer la reproductibilité des résultats, Anthropic a construit un cadre d’évaluation utilisant des containers Docker pour l’exécution sandboxée et évolutive, chaque container exécutant une blockchain locale forkée à une hauteur de bloc spécifique.
Voici les résultats des tests d’Anthropic selon différents cas de figure.
Tout d’abord, Anthropic a évalué les performances de 10 modèles — Llama 3, GPT-4o, DeepSeek V3, Sonnet 3.7, o3, Opus 4, Opus 4.1, GPT-5, Sonnet 4.5 et Opus 4.5 — sur l’ensemble des 405 contrats vulnérables du benchmark. Globalement, ces modèles ont généré des scripts d’exploitation directement utilisables pour 207 d’entre eux (51,11%), simulant le vol de 550,1 millions de dollars.
Ensuite, pour contrôler la possible contamination des données, Anthropic a évalué ces mêmes 10 modèles sur 34 contrats attaqués après le 1er mars 2025 — ce point temporel correspondant à la date de connaissance la plus récente de ces modèles. Au total, Opus 4.5, Sonnet 4.5 et GPT-5 ont exploité avec succès 19 de ces contrats (55,8%), simulant un vol maximal de 4,6 millions de dollars ; le meilleur modèle, Opus 4.5, a exploité 17 contrats (50%) pour un montant simulé de 4,5 millions de dollars.
Enfin, pour évaluer la capacité des agents IA à découvrir des failles zero-day totalement nouvelles, Anthropic a fait tester Sonnet 4.5 et GPT-5 le 3 octobre 2025 sur 2 849 contrats récemment déployés et sans vulnérabilité connue. Les deux agents IA ont chacun découvert deux nouvelles failles zero-day et généré un plan d’attaque d’une valeur de 3 694 dollars, le coût API de GPT-5 étant de 3 476 dollars. Cela démontre que les attaques autonomes par IA, rentables et réutilisables dans la réalité, sont désormais techniquement réalisables.
Après la publication des résultats par Anthropic, de nombreux professionnels du secteur, dont Haseeb, associé directeur chez Dragonfly, se sont dits stupéfaits par la rapidité avec laquelle l’IA passe de la théorie à l’application pratique.
Mais à quel point cette évolution est-elle rapide ? Anthropic a également fourni une réponse.
En conclusion du test, Anthropic indique qu’en seulement un an, la proportion de failles exploitables par l’IA dans ce benchmark est passée de 2% à 55,88%, et le montant pouvant être volé est passé de 5 000 dollars à 4,6 millions de dollars. Anthropic a également constaté que la valeur potentielle des failles exploitables double environ tous les 1,3 mois, tandis que le coût par token diminue d’environ 23% tous les 2 mois — dans l’expérience, le coût moyen pour qu’un agent IA effectue un audit exhaustif d’un contrat intelligent n’est actuellement que de 1,22 dollar.
Anthropic affirme que, pour les attaques réelles sur la blockchain en 2025, plus de la moitié — probablement menées par des attaquants humains chevronnés — auraient pu être réalisées de manière totalement autonome par les agents IA existants. À mesure que les coûts baissent et que les capacités augmentent de façon exponentielle, la fenêtre de temps entre le déploiement d’un contrat vulnérable et son exploitation va continuer de se réduire, laissant de moins en moins de temps aux développeurs pour détecter et corriger les failles… L’IA peut servir à exploiter des failles, mais aussi à les réparer ; les professionnels de la sécurité doivent mettre à jour leur compréhension, car le moment est venu d’utiliser l’IA pour se défendre.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Simulation réussie d’un vol de 4,6 millions de dollars : l’IA a déjà appris à attaquer de manière autonome les smart contracts.
Original : Odaily 星球日报 Azuma
Les principales entreprises d’IA, dont le développeur du modèle Claude LLM, Anthropic, ont annoncé aujourd’hui un test utilisant l’IA pour attaquer de manière autonome des contrats intelligents (note : Anthropic a reçu un investissement de FTX, dont la valeur théorique des actions suffirait désormais à combler le manque à gagner de FTX, mais qui a été bradée à son prix d’origine par l’équipe de gestion de la faillite).
Le résultat final du test : des attaques autonomes et rentables par IA, réutilisables dans la réalité, sont désormais techniquement réalisables. À noter que l’expérience d’Anthropic n’a eu lieu que dans un environnement blockchain simulé, sans test sur une blockchain réelle, et n’a donc eu d’impact sur aucun actif réel.
Voici une brève présentation du protocole de test d’Anthropic.
Anthropic a d’abord construit un benchmark d’exploitation de contrats intelligents (SCONE-bench), le tout premier benchmark mesurant la capacité d’un agent IA à exploiter des failles via la simulation du vol de la valeur totale des fonds — c’est-à-dire que ce benchmark ne repose pas sur des primes de bugs ou sur des modèles prédictifs, mais quantifie directement les pertes en fonction des variations d’actifs on-chain afin d’évaluer la capacité de l’IA.
SCONE-bench couvre un ensemble de 405 contrats réellement attaqués entre 2020 et 2025, situés sur trois chaînes EVM : Ethereum, BSC et Base. Pour chaque contrat cible, un agent IA exécuté dans un environnement sandboxé doit utiliser les outils fournis par le protocole de contexte de modèle (MCP) pour tenter d’attaquer le contrat spécifié dans un délai limité (60 minutes). Afin d’assurer la reproductibilité des résultats, Anthropic a construit un cadre d’évaluation utilisant des containers Docker pour l’exécution sandboxée et évolutive, chaque container exécutant une blockchain locale forkée à une hauteur de bloc spécifique.
Voici les résultats des tests d’Anthropic selon différents cas de figure.
Après la publication des résultats par Anthropic, de nombreux professionnels du secteur, dont Haseeb, associé directeur chez Dragonfly, se sont dits stupéfaits par la rapidité avec laquelle l’IA passe de la théorie à l’application pratique.
Mais à quel point cette évolution est-elle rapide ? Anthropic a également fourni une réponse.
En conclusion du test, Anthropic indique qu’en seulement un an, la proportion de failles exploitables par l’IA dans ce benchmark est passée de 2% à 55,88%, et le montant pouvant être volé est passé de 5 000 dollars à 4,6 millions de dollars. Anthropic a également constaté que la valeur potentielle des failles exploitables double environ tous les 1,3 mois, tandis que le coût par token diminue d’environ 23% tous les 2 mois — dans l’expérience, le coût moyen pour qu’un agent IA effectue un audit exhaustif d’un contrat intelligent n’est actuellement que de 1,22 dollar.
Anthropic affirme que, pour les attaques réelles sur la blockchain en 2025, plus de la moitié — probablement menées par des attaquants humains chevronnés — auraient pu être réalisées de manière totalement autonome par les agents IA existants. À mesure que les coûts baissent et que les capacités augmentent de façon exponentielle, la fenêtre de temps entre le déploiement d’un contrat vulnérable et son exploitation va continuer de se réduire, laissant de moins en moins de temps aux développeurs pour détecter et corriger les failles… L’IA peut servir à exploiter des failles, mais aussi à les réparer ; les professionnels de la sécurité doivent mettre à jour leur compréhension, car le moment est venu d’utiliser l’IA pour se défendre.