金十データ3月4日の情報によると、豆包の大規模モデルチームの公式ウェブサイトによると、最近、豆包の大規模モデルチームがオープンソースSuperGPQA、領域全体をカバーし、高い識別力を備えた知識推論ベンチマークテストをリリースしました。このデータセットは、研究科目を285個カバーし、26529の専門問題を含む評価体系を構築しており、主要な学科だけでなく、軽工業、農業、サービス科学などのロングテールの学科も取り入れており、幅広い学科領域を示し、ロングテールの知識評価領域の空白を埋めることになります。
19.4K 人気度
31.2K 人気度
75.3K 人気度
10.8K 人気度
26.5K 人気度
豆包大モデルチームオープンソースベンチマークテストセットSuperGPQA
金十データ3月4日の情報によると、豆包の大規模モデルチームの公式ウェブサイトによると、最近、豆包の大規模モデルチームがオープンソースSuperGPQA、領域全体をカバーし、高い識別力を備えた知識推論ベンチマークテストをリリースしました。このデータセットは、研究科目を285個カバーし、26529の専門問題を含む評価体系を構築しており、主要な学科だけでなく、軽工業、農業、サービス科学などのロングテールの学科も取り入れており、幅広い学科領域を示し、ロングテールの知識評価領域の空白を埋めることになります。