アメリカのArceeが、オープンソースのTrinity-Large-Thinking推論モデルを公開。Opus 4.6に近づけると主張し、コストは96%安い

動區BlockTempo

2026-04-02 08:40:43

アメリカのAIスタートアップArceeが、オープンソースの推論モデルTrinity-Large-Thinkingを公開した。エージェント能力ベンチマークPinchBenchで91.9を獲得し、Opus 4.6の93.3に次ぐスコアとなった。さらにTau2-Airlineエージェントタスクベンチマークでは88.0で、対比モデルの中で最高得点を上回った。モデルは400Bのスパース・モックス（Mixture of Experts）アーキテクチャを採用し、APIの価格は出力$0.90/100万tokenで、Opus 4.6より約96%安い。Apache 2.0のライセンスで、重みのダウンロードが可能だ。動区動趨が整理して報道する。
（前情提要：OpenRouterが100兆Token規模の調査レポート分析：人間は結局AIで何をするのか、中国モデルの台頭とユーザーのリテンションに隠された秘密）
（背景補足：Claude Opus 4.6が来た：自分でコンパイラを書く、PPTを作る、ちょっとしたところで500個のゼロデイ脆弱性を掘り当てる。あなたの仕事も試してみたいと思っている）。

従業員数が100人未満のアメリカのAIスタートアップArceeは、エージェント能力の評価でAnthropicの旗艦モデルをぎりぎり上回るスコアを提出し、しかも価格は相手の4%だけだ。

Arceeというこの会社は過去に主流の注目を集める存在ではなかったが、彼らの最新発表したTrinity-Large-Thinkingは、複数のエージェント系シーンのベンチマークですでに上位グループに食い込んでいる。

Kiloが開発したPinchBenchは、業界で現在、モデルのエージェントワークフローにおける実戦能力を測る重要な指標だ。Trinity-Large-Thinkingはこのテストで91.9を獲得しており、現時点の王者Opus 4.6は93.3で、その差はわずか1.4%だ。

もう一つの、実在するカスタマーサポートの場面を模したTau2-Airlineのベンチマークでは、さらに88.0の成績を収め、参加した対比モデルすべてより高い。これは、複数ラウンドの対話や、ツールを繰り返し呼び出す必要がある実際のエージェントタスクにおいて、このオープンソースモデルが確かに非常に高い水準を備えていることを意味する。

そしてArcee APIの価格は出力$0.90/100万token。公式は、これがOpus 4.6より約96%安いと述べている。エージェントを長時間自動実行させ、tokenを絶えず消費するようなアプリケーションのユースケースでは、モデルのスコア差よりもコスト差のほうが意味を持つ可能性がある。

400Bの総パラメータ、推論のたびに消費するのは13Bだけ

Arcee AI公式ブログによると、このようなコスパを実現する鍵はアーキテクチャの選択にある。Trinity-Large-ThinkingはスパースMoE（Mixture of Experts、混合専門家）設計を採用しており、内部には256の専門家モジュールが詰め込まれているが、各トークン処理ではそのうち4つだけが起動される。換算すると、400Bという巨大モデルでも実際の推論では13B分の計算負荷で済み、実行効率は同等の密集モデルの2〜3倍だという。

今年1月末に公開された前身のPreviewと比べた最大のアップグレードは、推論思考チェーンの追加だ。

Previewは指示の微調整だけを行ったのに対し、今回のThinking版は回答の前に「考える」。これにより、多ラウンドのツール呼び出しにおける安定性や、長いコンテキストの一貫性が明確に改善された。Arcee自身もかなり率直にこう述べている：このモデルは、長時間のエージェントループで破綻しないことを目的に設計されたものだ。

基底モデルは2,000万ドル、33日間の訓練で完成させ、Thinking版の後訓練にはさらに9か月をかけて磨き上げた。

ArceeのCEO Lucas Atkinsは、公開文の中でこう書いた：「ここに辿り着くまでには難しい技術作業と、厳しい判断が必要だった…誰もやらなかった。彼らは押し続けた。」

汎用推論はそれの主戦場ではない

もちろん、エージェントに特化したということは代償もある。汎用推論ベンチマークでは、Trinity-Large-Thinkingの成績はそれほど目立たない。GPQA-Dは76.3で、Kimi K2.5は86.9、Opus 4.6は89.2。差はそれぞれ10ポイント、13ポイント。MMLU-Proの83.4も、対比モデルの中で最下位だ。

しかしArceeは、この方向で真正面からぶつかるつもりはないようだ。公式によれば「Trinity-Large-Thinkingは多くの側面で、中国以外で最強のオープンソースモデル」だという。すでに、彼らの対手はOpusやGPTではなく、DeepSeek、Kimiなどの中国のオープンソース勢だとしている。

Trinity-Large-ThinkingはOpenRouterにも同時に掲載され、最初の5日間はOpenClawで無料で利用できる。前身のPreviewも引き続き無料提供される。

前のPreviewについて言えば、それは1月末のローンチ以来、OpenRouterプラットフォーム上で累計3.37兆token以上を処理してきた。OpenClawの統計では、それはアメリカで利用量ランキング1位、世界では4位のオープンソースモデルだ。規模の小さなスタートアップにとって、この採用率は、その安くて使いやすいことをすでに証明しており、市場の需要が確かに存在することを示している。

モデルの重みはApache 2.0のライセンスでHugging Faceに公開されており、誰でもダウンロードし、変更し、商用デプロイできる。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし