Cloudflare بعد دمج Kimi K2.5 تشغل 7 مليارات token يومياً، توفير 77% من تكاليف التدقيق الأمني

動區BlockTempo

سيرفرات Cloudflare الذكية (Workers AI) تتبنى رسمياً نموذج Kimi K2.5 من Moonshot AI، الذي يدعم سياقًا يصل إلى 256K، واستدعاءات أدوات متعددة الجولات، ومدخلات بصرية. يقوم وكيل الأمان الداخلي في Cloudflare بمعالجة أكثر من 7 مليارات رمز يومياً، مع تقليل التكاليف بنسبة 77% عند التحول إليه مقارنة بالنماذج التجارية المتوسطة.

(ملخص سابق: Cursor يستخدم Kimi K2.5 لتدريب النماذج لكنه لم يعلن، المطورون يلتقطون الحزم، ويحذفون التحديثات، والتغييرات الرسمية تسجل كل ذلك)

(معلومات إضافية: Cloudflare، التي تحمي من زواحف الويب، أطلقت “API الزحف الشامل بنقرة واحدة”، الذي يدعم بشكل مثالي RAG، والتحديثات التدريجية، وتدريب النماذج)

فهرس المقال

Toggle

  • وكيل أمان يومي يعالج 7 مليارات رمز
  • Cloudflare تطلق ثلاث تحسينات
  • محرك الاستنتاج الأساسي: Infire يدعمه، وليس مجرد إطار جاهز

أجرت Cloudflare خطوة مهمة على منصة Workers AI، وفقاً لمدونة Cloudflare الرسمية، حيث تم تعيين نموذج Kimi K2.5 من Moonshot AI كنموذج افتراضي لبداية SDK الوكيل. يستخدم مهندسو Cloudflare هذا النموذج في مهام تدقيق الأمان الحقيقية، مع توفير كبير في التكاليف.

Kimi K2.5 هو واحد من النماذج القليلة المفتوحة المصدر التي تدعم “المواصفات المتقدمة”، مع سياق يصل إلى 256K، واستدعاءات أدوات متعددة الجولات، ومدخلات بصرية، وإخراج منظم. بالنسبة لمهام الوكيل التي تتطلب استنتاجات طويلة، تعتبر هذه الأرقام عملية جدًا.

وكيل أمان يومي يعالج 7 مليارات رمز

استخدم مهندسو Cloudflare في بيئة OpenCode نموذج Kimi K2.5 كوكيل رئيسي للبرمجة، وأنشأوا وكيل مراجعة الكود العام “Bonk” الذي يدمج في خطوط الأتمتة.

الأكثر إثارة هو سيناريو تدقيق الأمان الداخلي. هذا الوكيل يعالج أكثر من 7 مليارات رمز يومياً. إذا استخدمنا نموذج تجاري قياسي لنفس الحجم، فستكون التكاليف حوالي 2.4 مليون دولار سنوياً، لكن مع Kimi K2.5، تم خفض التكاليف بنسبة 77%، موفرة حوالي 1.85 مليون دولار.

هذه الأرقام ليست إعلانات، بل حسابات مباشرة من مهندسي Cloudflare في المدونة الرسمية.

Cloudflare تطلق ثلاث تحسينات

ليس فقط تغيير النموذج، بل أطلقت Cloudflare ثلاث تحسينات على مستوى المنصة لمعالجة تكاليف وكفاءة سيناريوهات الحوار الطويلة:

  • خصم التخزين المسبق (Prefix Caching): لا يتم فرض رسوم على الرموز التي تم معالجتها مسبقاً في الحوار، مع الاستفادة من التخزين المسبق. يوفر هذا الكثير من المال عند تنفيذ مهام طويلة.
  • رأس التوجيه الخاص بالجلسة (Session Affinity Header): إضافة رأس طلب x-session-affinity، الذي يوجه نفس الجلسة إلى نفس النموذج، مما يزيد من معدل التخزين المسبق. مدعوم بشكل مدمج في OpenCode و SDK الوكيل.
  • API الاستنتاج غير المتزامن: الطلبات التي تتجاوز الحد الأقصى للسرعة المتزامنة يمكن جدولتها بشكل غير متزامن، وعادة ما تكتمل خلال 5 دقائق. مناسب لفحص الشفرات، والمهام البحثية التي لا تتطلب استجابة فورية.

محرك الاستنتاج الأساسي: Infire يدعمه، وليس مجرد إطار جاهز

لم تستخدم Cloudflare إطار استنتاج جاهز، بل طورت محرك Infire الخاص بها كمحرك مخصص، يعتمد على المعالجة المتوازية للبيانات، والمعالجة المتوازية للمتجهات، والتوازي بين الخبراء، مع بنية فصل معالجة الرأس.

حالياً، يُعد Kimi K2.5 أول حالة لنموذج كبير يُشغل على منصة Workers AI، ويعكس طموح Cloudflare في بنية تحتية للذكاء الاصطناعي، يمكن أن تتكامل مع منصات الإنترنت، وتكون رخيصة بما يكفي.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات