Rakuten เปิดตัว Rakuten AI 3.0 โมเดล ไฟล์การกำหนดค่าแสดงให้เห็นว่าสถาปัตยกรรมพื้นฐานเป็น DeepSeek V3

GateNews
source.from

ข่าว Gate News เมื่อวันที่ 17 มีนาคม กลุ่มบริษัท Rakuten ได้เปิดตัว Rakuten AI 3.0 ซึ่งเป็นโมเดล AI ประสิทธิภาพสูงที่สุดในญี่ปุ่น โดยใช้ชื่อว่า “โมเดล AI ที่มีประสิทธิภาพสูงที่สุดในญี่ปุ่น” และเปิดให้ใช้งานแบบฟรีภายใต้สัญญาอนุญาต Apache 2.0 โมเดลนี้เป็นสถาปัตยกรรม MoE (ผสมผู้เชี่ยวชาญ) มีพารามิเตอร์รวม 671 พันล้าน ตัว กระตุ้นการทำงาน 37 พันล้าน ครั้ง ต่อการคำนวณหนึ่งครั้ง หน้าต่างบริบท 128K ปรับให้เหมาะสมกับภาษาญี่ปุ่น และสามารถเอาชนะ GPT-4o ในหลายการทดสอบมาตรฐานภาษาญี่ปุ่น โมเดลนี้เป็นผลลัพธ์จากโครงการ GENIAC ซึ่งดำเนินการร่วมกันระหว่างกระทรวงเศรษฐกิจ การค้า และอุตสาหกรรมของญี่ปุ่น กับหน่วยงานพัฒนานวัตกรรมเทคโนโลยีพลังงานใหม่ (NEDO) รัฐบาลญี่ปุ่นได้สนับสนุนด้านพลังการฝึกอบรมบางส่วน สำหรับประกาศของ Rakuten ระบุว่า “ใช้ประโยชน์สูงสุดจากผลลัพธ์ที่ดีที่สุดของชุมชนโอเพนซอร์ส” เป็นแหล่งที่มาของโมเดลพื้นฐาน โดยไม่ได้ระบุชื่อโมเดลเฉพาะ ชุมชนจึงได้ตรวจสอบไฟล์โมเดลที่เผยแพร่บน HuggingFace พบว่าในไฟล์ config.json ระบุชัดเจนว่า model_type: deepseek_v3 และ architectures: DeepseekV3ForCausalLM ซึ่งพารามิเตอร์รวม 671B ตัว กระตุ้น 37B ตัว และบริบท 128K ตัวเดียวกันกับ DeepSeek V3 แสดงว่าโมเดลนี้เป็นการปรับแต่งด้วยข้อมูลภาษาญี่ปุ่นบนพื้นฐานของ DeepSeek V3

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น