The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Couverture de l'ensemble du parcours utilisateur Crypto — des opérations de base sur CEX aux enquêtes complexes sur la chaîne, tout construit sur des scénarios réels.
Ordre au comptant, ouverture et fermeture de contrats, consultation de gestion de patrimoine, stratégie de grille, transfert de compte et analyse de portefeuille.
Swap sur la chaîne, comparaison des ponts inter-chaînes, contrôle du slippage, optimisation du routage multi-étapes et évaluation des risques de contrat.
Transferts multi-chaînes, estimation de la réserve de Gas, vérification du format d'adresse, blocage des chaînes incorrectes et transferts conditionnels.
Analyse technique en temps réel, RSI / K lignes, évaluation de la relation entre le volume et le prix, comparaison de plusieurs devises et comparaison de la volatilité.
Analyse de l'économie des tokens, évaluation des cycles narratifs, détection de Rug Pull, comparaison des concurrents et rapport de recherche.
Analyse des adresses et des profits/pertes, suivi des baleines, signaux Smart Money, surveillance de la sécurité des protocoles.
Instructions simples, intentions claires. Par exemple, vérifier le solde, consulter les prix du marché, passer une commande simple.
Inclut des vérifications préalables ou des branches d'exception. Par exemple, blocage en cas de solde insuffisant, complétion des paramètres, identification des risques de chaînes incorrectes.
Multiples étapes, multiples contraintes, nécessitant un raisonnement et un arbitrage. Par exemple, le chemin optimal inter-chaînes, le transfert intégral en conservant le Gas.
Score pondéré basé sur 6 dimensions. Tous les examens utilisent un mécanisme de consensus à double modèle, complété par un arbitrage humain.
| # | Agent | type | Total | CEX | DEX | portefeuille | Analyse du marché | Recherche de projet | Suivi sur la chaîne |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | IA générale | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI installé) | IA générale | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI installé) | IA générale | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Crypto IA | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI installé) | IA générale | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Crypto IA | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | IA générale | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Crypto IA | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | IA générale | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent se classe premier dans cette évaluation. En tant qu'agent natif profondément intégré à la bourse, il se classe premier dans les trois dimensions clés : le trading CEX, le trading DEX et l'analyse de marché. Cette évaluation a inclus un total de 9 agents, couvrant 6 scénarios : trading CEX, trading DEX, opérations de portefeuille, analyse de marché, enquêtes on-chain et recherche de projets, avec une notation basée sur un mécanisme de consensus à double modèle, complétée par une vérification manuelle. La performance de Gate AI Agent selon ces critères est une validation complète de ses capacités natives Web3.
Chaque question est notée indépendamment selon 2 à 3 dimensions d'évaluation, en utilisant un audit de consensus à double modèle, tous les critères et poids étant entièrement publics.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Cliquez sur n'importe quel sujet pour développer et voir les scores et les dimensions d'évaluation de chaque Agent.