アメリカのAIスタートアップArceeが、オープンソースの推論モデルTrinity-Large-Thinkingを公開した。エージェント能力ベンチマークPinchBenchで91.9を獲得し、Opus 4.6の93.3に次ぐスコアとなった。さらにTau2-Airlineエージェントタスクベンチマークでは88.0で、対比モデルの中で最高得点を上回った。モデルは400Bのスパース・モックス(Mixture of Experts)アーキテクチャを採用し、APIの価格は出力$0.90/100万tokenで、Opus 4.6より約96%安い。Apache 2.0のライセンスで、重みのダウンロードが可能だ。動区動趨が整理して報道する。
(前情提要:OpenRouterが100兆Token規模の調査レポート分析:人間は結局AIで何をするのか、中国モデルの台頭とユーザーのリテンションに隠された秘密)
(背景補足:Claude Opus 4.6が来た:自分でコンパイラを書く、PPTを作る、ちょっとしたところで500個のゼロデイ脆弱性を掘り当てる。あなたの仕事も試してみたいと思っている)。
従業員数が100人未満のアメリカのAIスタートアップArceeは、エージェント能力の評価でAnthropicの旗艦モデルをぎりぎり上回るスコアを提出し、しかも価格は相手の4%だけだ。
Arceeというこの会社は過去に主流の注目を集める存在ではなかったが、彼らの最新発表したTrinity-Large-Thinkingは、複数のエージェント系シーンのベンチマークですでに上位グループに食い込んでいる。
Kiloが開発したPinchBenchは、業界で現在、モデルのエージェントワークフローにおける実戦能力を測る重要な指標だ。Trinity-Large-Thinkingはこのテストで91.9を獲得しており、現時点の王者Opus 4.6は93.3で、その差はわずか1.4%だ。
もう一つの、実在するカスタマーサポートの場面を模したTau2-Airlineのベンチマークでは、さらに88.0の成績を収め、参加した対比モデルすべてより高い。これは、複数ラウンドの対話や、ツールを繰り返し呼び出す必要がある実際のエージェントタスクにおいて、このオープンソースモデルが確かに非常に高い水準を備えていることを意味する。
そしてArcee APIの価格は出力$0.90/100万token。公式は、これがOpus 4.6より約96%安いと述べている。エージェントを長時間自動実行させ、tokenを絶えず消費するようなアプリケーションのユースケースでは、モデルのスコア差よりもコスト差のほうが意味を持つ可能性がある。
Arcee AI公式ブログによると、このようなコスパを実現する鍵はアーキテクチャの選択にある。Trinity-Large-ThinkingはスパースMoE(Mixture of Experts、混合専門家)設計を採用しており、内部には256の専門家モジュールが詰め込まれているが、各トークン処理ではそのうち4つだけが起動される。換算すると、400Bという巨大モデルでも実際の推論では13B分の計算負荷で済み、実行効率は同等の密集モデルの2〜3倍だという。
今年1月末に公開された前身のPreviewと比べた最大のアップグレードは、推論思考チェーンの追加だ。
Previewは指示の微調整だけを行ったのに対し、今回のThinking版は回答の前に「考える」。これにより、多ラウンドのツール呼び出しにおける安定性や、長いコンテキストの一貫性が明確に改善された。Arcee自身もかなり率直にこう述べている:このモデルは、長時間のエージェントループで破綻しないことを目的に設計されたものだ。
基底モデルは2,000万ドル、33日間の訓練で完成させ、Thinking版の後訓練にはさらに9か月をかけて磨き上げた。
ArceeのCEO Lucas Atkinsは、公開文の中でこう書いた:「ここに辿り着くまでには難しい技術作業と、厳しい判断が必要だった…誰もやらなかった。彼らは押し続けた。」
もちろん、エージェントに特化したということは代償もある。汎用推論ベンチマークでは、Trinity-Large-Thinkingの成績はそれほど目立たない。GPQA-Dは76.3で、Kimi K2.5は86.9、Opus 4.6は89.2。差はそれぞれ10ポイント、13ポイント。MMLU-Proの83.4も、対比モデルの中で最下位だ。
しかしArceeは、この方向で真正面からぶつかるつもりはないようだ。公式によれば「Trinity-Large-Thinkingは多くの側面で、中国以外で最強のオープンソースモデル」だという。すでに、彼らの対手はOpusやGPTではなく、DeepSeek、Kimiなどの中国のオープンソース勢だとしている。
Trinity-Large-ThinkingはOpenRouterにも同時に掲載され、最初の5日間はOpenClawで無料で利用できる。前身のPreviewも引き続き無料提供される。
前のPreviewについて言えば、それは1月末のローンチ以来、OpenRouterプラットフォーム上で累計3.37兆token以上を処理してきた。OpenClawの統計では、それはアメリカで利用量ランキング1位、世界では4位のオープンソースモデルだ。規模の小さなスタートアップにとって、この採用率は、その安くて使いやすいことをすでに証明しており、市場の需要が確かに存在することを示している。
モデルの重みはApache 2.0のライセンスでHugging Faceに公開されており、誰でもダウンロードし、変更し、商用デプロイできる。