จีน AI สตาร์ทอัพ Moonshot AI ภายใต้โมเดล Kimi ได้เผยแพร่รายงานทางเทคนิคเมื่อเร็วๆ นี้ โดยเสนอกรอบงานใหม่ชื่อว่า “Attention Residuals” ซึ่งพยายามปรับเปลี่ยนการออกแบบ residual ที่ Transformer ใช้งานมายาวนาน หลังจากรายงานเผยแพร่ไม่นาน Elon Musk ก็ได้แสดงความคิดเห็นในโซเชียลมีเดียว่า “Impressive work from Kimi (ผลงานของ Kimi น่าประทับใจ)” ทำให้เทคโนโลยีนี้ได้รับความสนใจอย่างรวดเร็ว
โมเดล AI ของจีน Kimi ขยาย attention ไปยังระหว่างโมเดล
จุดสำคัญของ Kimi ในครั้งนี้จริงๆ แล้วคือการจัดการกับกลไกที่สำคัญมาก แต่ถูกคิดใหม่ใน Transformer น้อยมาก: Residual Connection ตั้งแต่ ResNet เป็นต้นมา โมเดลส่วนใหญ่จะนำผลลัพธ์จากแต่ละชั้น “กลับไปบวกโดยตรง” และน้ำหนักก็เหมือนกัน วิธีนี้ทำให้ทำได้ง่ายและมีเสถียรภาพ แต่เมื่อโมเดลลึกขึ้น ปัญหาก็เริ่มปรากฏ: ข้อมูลที่สะสมไว้ก่อนหน้านี้จะมากขึ้นเรื่อยๆ สัญญาณใหม่กลับยากที่จะทำงานได้ หรือแม้กระทั่งถูกกลืนหาย ทำให้การฝึกโมเดลยากขึ้น
วิธีการของ Kimi คือการนำกลไก attention จากที่เคยใช้กับ “ระหว่าง token” ขยายไปยัง “ระหว่างชั้นโมเดล” ใน Attention Residuals แต่ละชั้นจะไม่รับข้อมูลจากชั้นก่อนหน้าทั้งหมดเฉลี่ยกันอีกต่อไป แต่จะใช้ attention เพื่อ “เลือก” ว่าชั้นไหนสำคัญกว่า กล่าวคือ โมเดลจะไม่เพียงแค่สะสมข้อมูลต่อไป แต่จะเลือกข้อมูลที่มีประโยชน์ตามข้อมูลนำเข้าขณะนั้น
Kimi ประสบความสำเร็จในการเพิ่มประสิทธิภาพ 1.25 เท่าโดยไม่เพิ่มการหน่วงเวลาในการอนุมาน
แต่ถ้าทุกชั้นต้องดูทุกชั้นประวัติ ต้นทุนจะสูงเกินไป ดังนั้น Kimi จึงเสนอวิธีการประนีประนอมที่เรียกว่า Block Attention Residuals: โดยการแบ่งโมเดลออกเป็นหลายบล็อก บล็อกภายในยังคงใช้วิธีการบวกเดิม แต่ระหว่างบล็อกจะใช้ attention ในการเลือก วิธีนี้สามารถรักษาความสามารถในการ “เลือกข้อมูล” ได้ และยังลดภาระหน่วยความจำและการคำนวณอย่างมาก สามารถนำไปใช้ในโมเดลที่มีอยู่จริงได้โดยตรง
จากผลลัพธ์ Kimi แทบไม่เพิ่มการหน่วงเวลาในการอนุมาน (น้อยกว่า 2%) แต่กลับได้ประสิทธิภาพที่เพิ่มขึ้นประมาณ 1.25 เท่า และยังมีความก้าวหน้าในหลายตัวชี้วัดการทดสอบ ซึ่งแสดงว่าการปรับเปลี่ยนนี้ไม่ใช่แค่ทฤษฎีที่สวยงาม แต่ยังมีคุณค่าที่สามารถนำไปใช้ได้จริง ในอดีต attention แก้ไขปัญหา “ความสัมพันธ์ระหว่างคำ” แต่ Kimi ได้นำโมเดลไปคิดต่อว่า “ข้อมูลใดที่ควรใช้ระหว่างชั้นต่างๆ”
กล่าวง่ายๆ คือ โมเดลไม่เพียงแค่อ่านข้อมูล แต่ยังเริ่มเรียนรู้วิธีการย้อนกลับไปค้นหาสิ่งที่เคยคำนวณไว้ในอดีต
บทความนี้ Musk ชมเชย: น่าประทับใจ! อาวุธลับของโมเดล AI ของจีน Kimi คืออะไร? ปรากฏครั้งแรกใน Chain News ABMedia.