Почему при использовании двух продуктов с одинаковыми GPT-4 или Claude результаты AI-работы оказываются столь разительно разными? Разработчик AI Акшай Пачхаар (Akshay Pachaar) на X предложил фреймворк «Agent Harness Engineering». Он объяснил суть точной метафорой: «голый» LLM — это как CPU без операционной системы. По-настоящему картину производительности AI-продукта определяют не сами базовые модели, а диспетчерская итерационная схема, интеграция инструментов и архитектура управления памятью, построенные вокруг модели.
CPU нужна операционная система, LLM нужен Agent Harness
Пачхаар построил целую систему аналогий: LLM — это CPU, Context Window — это RAM, Vector DB — это жесткий диск, Tools — это драйверы устройств, а Agent Harness — это операционная система. Эта рамка объясняет явление, которое в индустрии давно наблюдали: в рейтинге LangChain TerminalBench разные продукты на одном и том же базовом моделировании могут демонстрировать настолько огромные различия в эффективности.
Ключевая идея заключается в следующем: возможности модели — это необходимое условие, но инженерное качество harness — достаточное условие. Хорошо спроектированный Agent Harness может позволить средненькой модели превзойти конкурента, который использует топовую модель, но с грубо сделанным harness.
Четыре ключевых компонента Agent Harness
Согласно рамке Пачхаара, полноценный Agent Harness включает четыре ключевых аспекта. Во-первых, это диспетчерская логика (Scheduling Loop): она определяет, когда агенту стоит думать, когда действовать и когда вызывать инструменты. Во-вторых, это экосистема инструментов (Tool Ecosystem): она задает, с какими внешними системами агент может работать. В-третьих, это управление памятью (Memory Management): оно обрабатывает краткосрочную память диалога и извлечение знаний из долговременной перспективы. Наконец, это управление контекстом (Context Management): оно определяет, какую информацию следует помещать в ограниченное context window.
Компромиссы в дизайне этих четырех компонентов задают совершенно разные модели поведения одной и той же модели в разных продуктах. Именно поэтому ChatGPT от OpenAI, Claude от Anthropic и самые разные сторонние AI-продукты, даже если возможности базовых моделей близки, дают совершенно разный пользовательский опыт.
Контраргумент: сможет ли достаточно сильная модель «встроить» функции Harness?
Этот фреймворк тоже сталкивается с вызовами. Некоторые исследователи считают, что по мере того, как базовые модели продолжают развиваться — особенно при смене поколений, когда скачкообразно растут способности к рассуждениям — достаточно мощные модели в итоге смогут встроить большую часть функций harness. Это похоже на то, как современные CPU постепенно интегрировали функции, которые раньше требовали отдельных чипов для обработки. Если этот тренд окажется верным, значимость harness engineering со временем может снижаться.
Однако, исходя из текущей практики, даже самые сильные модели по-прежнему в высокой степени зависят от внешних инструментов и тщательно продуманной диспетчерской логики. В обозримом будущем harness engineering по-прежнему будет ключевым полем, где продукты AI различаются между собой.
Выводы для разработки AI-продуктов
Фреймворк Пачхаара дает более точную аналитическую оптику для оценки и освещения AI-продуктов: вместо того чтобы только сравнивать «кто использовал какую модель», нужно глубже разбирать инженерные решения уровня harness, например диспетчерскую архитектуру, экосистему инструментов и механизмы памяти. Для тайваньских команд разработчиков, которые сейчас строят AI-продукты, это означает, что после выбора базовой модели реальная конкуренция только начинается — именно инженерное качество harness является ключом к успеху или провалу продукта.
Эта статья Agent Harness — ключевая: почему один и тот же AI-модель в разных продуктах демонстрирует столь разное поведение, впервые появилась в «Цепных новостях» ABMedia.