แพลตฟอร์ม Workers AI ของ Cloudflare ได้เชื่อมต่อกับ Kimi K2.5 ของ Moonshot AI อย่างเป็นทางการ โดยรองรับบริบท 256K การเรียกใช้เครื่องมือหลายรอบ และการป้อนข้อมูลภาพ การตรวจสอบความปลอดภัยภายในของ Cloudflare ซึ่งเป็นเอเจนต์ จะประมวลผล token มากกว่า 7 พันล้านต่อวัน หลังจากเปลี่ยนมาใช้ต้นทุนลดลง 77% เมื่อเทียบกับโมเดลเชิงพาณิชย์ระดับกลาง
(เรื่องราวก่อนหน้า: Cursor ใช้ Kimi K2.5 ในการฝึกโมเดล แต่ไม่ได้แจ้งให้ทราบ นักพัฒนาจับแพ็กเกจ ลบคำแนะนำ และบันทึกการเปลี่ยนแปลงอย่างเร่งด่วน)
(ข้อมูลเพิ่มเติม: Cloudflare เปิดตัว API สำหรับการเก็บรวบรวมข้อมูลเว็บไซต์แบบครบวงจร ซึ่งรองรับ RAG การอัปเดตแบบเพิ่มขึ้น และการฝึกโมเดลอย่างสมบูรณ์แบบ เพื่อป้องกันบอทเก็บข้อมูล)
สารบัญบทความ
Toggle
แพลตฟอร์ม Workers AI ของ Cloudflare ได้ทำสิ่งสำคัญอย่างเงียบ ๆ ตามบล็อกของทางบริษัท ซึ่งได้ตั้งค่า Kimi K2.5 ของ Moonshot AI เป็นโมเดลเริ่มต้นสำหรับ SDK ของ Agents เป็นค่าเริ่มต้นเอง นักวิศวกรของ Cloudflare ก็ใช้งานมันในการทำงานด้านการตรวจสอบความปลอดภัยจริง ๆ และยังประหยัดงบประมาณได้มากอีกด้วย
Kimi K2.5 เป็นหนึ่งในโมเดลไม่กี่รุ่นในชุมชนโอเพนซอร์สที่รองรับ “มาตรฐานล้ำหน้า” ซึ่งรองรับบริบท 256K การเรียกใช้เครื่องมือหลายรอบ (multi-turn tool calling) การป้อนข้อมูลภาพ และการส่งออกแบบมีโครงสร้าง สำหรับงานเอเจนต์ที่ต้องใช้การวิเคราะห์ข้อความยาว ๆ ตัวเลขเหล่านี้ถือว่าสำคัญและใช้งานได้จริง
นักวิศวกรของ Cloudflare ใช้ Kimi K2.5 เป็นหลักในสภาพแวดล้อม OpenCode สำหรับงานด้านการเขียนโปรแกรม และยังได้เปิดตัวเอเจนต์ตรวจสอบโค้ดแบบสาธาราชื่อ “Bonk” ซึ่งเชื่อมต่อกับสายงานอัตโนมัติ
ที่น่าประทับใจยิ่งกว่าคือในสถานการณ์การตรวจสอบความปลอดภัยภายใน เอเจนต์นี้จะประมวลผล token มากกว่า 7 พันล้านต่อวัน หากใช้โมเดลเชิงพาณิชย์ระดับมาตรฐานสำหรับงานเดียวกัน ค่าใช้จ่ายต่อปีจะอยู่ที่ประมาณ 2.4 ล้านดอลลาร์สหรัฐ แต่เมื่อเปลี่ยนมาใช้ Kimi K2.5 ค่าใช้จ่ายลดลงถึง 77% ประหยัดได้เกือบ 1.85 ล้านดอลลาร์สหรัฐ
ตัวเลขนี้ไม่ได้เป็นการโฆษณา แต่เป็นข้อมูลที่นักวิศวกรของ Cloudflare เปิดเผยโดยตรงในบล็อกของบริษัท
แค่เปลี่ยนโมเดลอย่างเดียวไม่พอ Cloudflare ยังเปิดตัวการปรับปรุงระดับแพลตฟอร์มอีก 3 รายการ เพื่อแก้ปัญหาด้านต้นทุนและประสิทธิภาพในสถานการณ์การสนทนายาวของเอเจนต์:
Cloudflare ไม่ได้ใช้เฟรมเวิร์กการวิเคราะห์สำเร็จรูป แต่พัฒนาขึ้นเองด้วยเอนจิน Infire ซึ่งเป็นแกนหลักที่ปรับแต่งเอง โดยใช้การประมวลผลแบบขนานข้อมูล (data parallelism) การประมวลผลแบบเทนเซอร์ (tensor parallelism) และการกระจายความเชี่ยวชาญ (expert parallelism) ควบคู่กับโครงสร้างการจัดการคำหน้าแบบแยกส่วน
ปัจจุบัน Kimi K2.5 เป็นกรณีแรกของการใช้งานโมเดลขนาดใหญ่บน Workers AI ซึ่งแสดงให้เห็นถึงความทะเยอทะยานของ Cloudflare ในด้านโครงสร้างพื้นฐาน AI ที่สามารถใช้งานร่วมกับแพลตฟอร์มเครือข่าย และยังคุ้มค่าอีกด้วย