¿Por qué, al usar los mismos productos de GPT-4 o Claude, el rendimiento de la IA resulta tan diferente? El desarrollador de IA Akshay Pachaar propuso en X el marco de “Agent Harness Engineering”, usando una metáfora precisa para explicar el asunto: un LLM expuesto, sin un sistema operativo, es como una CPU sin sistema operativo; lo que realmente determina el rendimiento del producto de IA no es el modelo base en sí, sino el ciclo de orquestación construido alrededor del modelo, la integración de herramientas y la arquitectura de gestión de memoria.
La CPU necesita un sistema operativo; el LLM necesita un Agent Harness
Pachaar construyó una serie completa de correspondencias analógicas: LLM es CPU, el Context Window es RAM, la Vector DB es el disco duro, Tools son los controladores de dispositivos, y Agent Harness es el sistema operativo. Este marco explica un fenómeno que la industria observa desde hace mucho tiempo: en la clasificación de LangChain TerminalBench, entre distintos productos que usan el mismo modelo base, las diferencias de rendimiento pueden ser enormes.
La clave está en que: la capacidad del modelo es una condición necesaria, pero la calidad de ingeniería del harness es la condición suficiente. Un Agent Harness diseñado con esmero puede hacer que un modelo intermedio supere a un competidor que monta un modelo de gama alta, pero con un harness tosco.
Los cuatro componentes principales del Agent Harness
Según el marco de Pachaar, un Agent Harness completo incluye cuatro aspectos clave. Primero está la lógica de orquestación (Scheduling Loop), que determina cuándo el agent debe pensar, cuándo debe actuar y cuándo debe llamar herramientas; en segundo lugar, el ecosistema de herramientas (Tool Ecosystem), que define qué sistemas externos puede operar el agent; en tercer lugar, la gestión de memoria (Memory Management), que maneja la memoria de conversaciones a corto plazo y la recuperación de conocimientos a largo plazo; y por último, la gestión de contexto (Context Management), que decide qué información colocar dentro de una context window limitada.
Los compromisos en el diseño de estos cuatro componentes determinan patrones de comportamiento totalmente diferentes del mismo modelo en distintos productos. Por eso, por más que las capacidades de los modelos base de ChatGPT de OpenAI, Claude de Anthropic y diversos productos de IA de terceros sean similares, la experiencia de uso es tan distinta.
Contraargumento: ¿puede un modelo suficientemente fuerte internalizar la funcionalidad del Harness?
Este marco también enfrenta desafíos. Algunos investigadores consideran que, a medida que los modelos base sigan evolucionando—especialmente con los saltos generacionales en capacidades de razonamiento—, eventualmente los modelos suficientemente fuertes podrán internalizar la mayor parte de las funciones del harness, como cuando las CPU modernas integraron progresivamente funciones que antes requerían chips independientes. Si esta tendencia se cumple, la importancia de la ingeniería de harness podría disminuir con el tiempo.
Sin embargo, desde la perspectiva de la práctica actual, incluso el modelo más fuerte sigue dependiendo en gran medida de herramientas externas y de una lógica de orquestación cuidadosamente diseñada. En el futuro previsible, la ingeniería de harness seguirá siendo el campo de batalla central para diferenciar productos de IA.
Implicaciones para el desarrollo de productos de IA
El marco de Pachaar ofrece un ángulo de análisis más preciso para evaluar e informar sobre productos de IA: en lugar de comparar solo “qué modelo se usó”, se debería analizar en profundidad las decisiones de ingeniería a nivel de harness, como la arquitectura de orquestación, el ecosistema de herramientas y los mecanismos de memoria. Para los equipos de desarrollo de Taiwán que están construyendo productos de IA, esto significa que, una vez elegido el modelo base, la competencia real apenas comienza: la calidad de ingeniería del harness es la clave para determinar el éxito o el fracaso del producto.
Esta publicación, Agent Harness: clave, por qué el mismo modelo de IA se comporta tan diferente en distintos productos, aparece primero en Cadena Noticias ABMedia.