Американський AI-стартап Arcee опублікував відкриту вихідну модель Trinity-Large-Thinking для міркувального інференсу; на еталоні здібностей агентів PinchBench вона набрала 91,9, поступившись лише Opus 4.6 із 93,3, а на еталоні агентського завдання Tau2-Airline вона ще й здобула найвищий бал серед усіх моделей — 88,0. Модель використовує архітектуру 400B з розрідженими змішаними експертами, а ціна API становить $0.90/млн tokenів на виході, що приблизно на 96% дешевше, ніж Opus 4.6. Ваги відкриті для завантаження за ліцензією Apache 2.0. Підсумок і репортаж — від Dongqu Dongqu.
(Передісторія: аналіз OpenRouter звіту на 100 трлн tokenів: на що саме люди використовують AI, як піднімаються китайські моделі та які секрети зберігає утримання користувачів)
(Додатковий контекст: Claude Opus 4.6 прийшов: сам пише компілятор, робить PPT, і буквально на льоту викопує 500 нуль-дей вразливостей — твоя робота, здається, йому теж цікава.)
У американського AI-стартапу Arcee, де чисельність співробітників — менше ніж сто, у порівняльному оцінюванні агентських можливостей вийшли дуже близькі до флагманської моделі Anthropic бали, а ціна — лише 4% від її вартості.
Раніше ця компанія не була в центрі уваги основного ринку, але їхній найновіший реліз Trinity-Large-Thinking уже пробився в передову групу на кількох еталонах агентських сценаріїв.
PinchBench, розроблений Kilo, є наразі одним із ключових індикаторів того, як моделі проявляють себе в реальних agent-робочих процесах у індустрії. У цьому тесті Trinity-Large-Thinking отримала 91,9, тоді як нинішній король — Opus 4.6 — 93,3; різниця становить лише 1,4%.
На іншому еталоні, Tau2-Airline, який імітує реальний сценарій служби підтримки клієнтів, вона також набрала 88,0. Це вищий результат, ніж у всіх моделей, що брали участь у порівнянні. Це означає, що в практичних агентських задачах, де потрібні багаторівневі діалоги та постійні запити до інструментів, ця відкрита модель справді демонструє дуже високий рівень.
А ціна API Arcee становить $0.90/млн tokenів на виході; офіційно стверджують, що це приблизно на 96% дешевше, ніж Opus 4.6. Для сценаріїв, де агенти мають довго й автоматично виконувати дії, безперервно споживаючи token-и, різниця в собівартості може бути навіть більш значущою, ніж різниця в балах моделі.
Згідно з офіційним блогом Arcee AI, ключ до такого співвідношення ціни й якості — у виборі архітектури. Trinity-Large-Thinking використовує розріджену MoE (мікс експертів): усередині вбудовано 256 модулів-експертів, але під час обробки кожних token-ів запускаються лише 4 з них. Якщо перевести на практику, величезна модель на 400B під час реального інференсу потребує лише обчислювального навантаження, еквівалентного 13B, а ефективність виконання приблизно у 2–3 рази вища, ніж у щільних моделей того ж порядку.
Порівняно з попередником Preview, випущеним наприкінці січня цього року, найбільше оновлення — додавання ланцюга міркувань під час інференсу.
Preview робив лише fine-tuning під інструкції, а версія Thinking перед відповіддю спершу «подумки міркує»; це помітно покращує стабільність під час багаторункових викликів інструментів і узгодженість довгого контексту. Сам Arcee сказав про це доволі прямо: ця модель розроблена, щоб не падати в довготривалих agent-циклах.
Увесь базовий фундаментальний моделі використав 20 мільйонів доларів США та 33 дні навчання; для post-training версії Thinking потрібно було ще 9 місяців доопрацювання.
CEO Arcee Lucas Atkins у дописі під час релізу написав: «Getting here took difficult technical work, hard calls… Nobody did that. They kept pushing.」
Звісно, спеціалізація під агентів означає компроміси. Універсальні бенчмарки міркувань Trinity-Large-Thinking показує не так яскраво. У GPQA-D — 76,3, тоді як Kimi K2.5 має 86,9, а Opus 4.6 — 89,2; різниця становить відповідно 10 і 13 процентних пунктів. Навіть MMLU-Pro із 83,4 теж опиняється внизу серед моделей порівняння.
Але схоже, що Arcee не має наміру «вгризатися» в цьому напрямі. В офіційній заяві сказано, що «Trinity-Large-Thinking є найсильнішою відкритою моделлю поза Китаєм у багатьох вимірах». Також вони зазначили, що їхні конкуренти — не Opus чи GPT, а DeepSeek, Kimi та інші китайські ряди open-source-екосистеми.
Trinity-Large-Thinking вже синхронно з’явилася на OpenRouter, і в перші 5 днів її можна було безкоштовно використовувати в OpenClaw. Попередня версія Preview також продовжує надаватися безкоштовно.
Якщо говорити про попередню версію Preview: з часу виходу наприкінці січня вона на платформі OpenRouter накопичила понад 3,37 трильйона tokenів обробки. За статистикою OpenClaw, це американська модель №1 за обсягом використання й світовий №4 серед відкритих моделей. Для невеликого за масштабом стартапу така частка застосування вже доводить, що вона дешева й зручна — ринковий попит справді існує.
Ваги моделі опубліковані на Hugging Face під ліцензією Apache 2.0, і будь-хто може завантажувати, модифікувати та розгортати для комерційного використання.