Cloudflare після підключення Kimi K2.5 обробляє 7 мільярдів токенів на день, скоротивши витрати на аудит безпеки на 77%

動區BlockTempo

Cloudflare платформа Workers AI офіційно інтегрувала Kimi K2.5 з Moonshot AI, підтримкою 256K контексту, багатокругового виклику інструментів та візуального вводу. Внутрішній аудит безпеки Cloudflare Agent щодня обробля понад 7 мільярдів токенів, при переході на цю модель витрати зменшилися на 77% порівняно з середньоринковими моделями.
(Передісторія: Cursor використовує Kimi K2.5 для тренування моделей, але про це не повідомлялося; розробники фіксували пакети, видаляли підказки, офіційні заяви — всі записи)
(Додатковий фон: Cloudflare, що захищає від крадіжки даних, запустила API для одноклікового сканування всього сайту, ідеально підтримуючи RAG, інкрементальні оновлення та тренування моделей)

Зміст статті

Перемикач

  • Безпечний агент, що щодня обробля 7 мільярдів токенів
  • Три покращення від Cloudflare
  • Глибока рушійна сила: Infire — не просто готовий фреймворк

Платформа Cloudflare Workers AI зробила важливий крок: згідно з офіційним блогом Cloudflare, модель Kimi K2.5 за замовчуванням встановлена як базова для SDK Agents. Самі інженери Cloudflare використовують її для реальних завдань безпеки, економлячи значні кошти.

Kimi K2.5 — одна з небагатьох моделей у відкритому доступі, що підтримують «передові стандарти»: 256K контексту, багатокруговий виклик інструментів, візуальний ввід та структуровані виходи. Для агентських задач, що вимагають довгого аналізу тексту, ці характеристики дуже корисні.

Безпечний агент, що щодня обробля 7 мільярдів токенів

Інженери Cloudflare у середовищі OpenCode використовують Kimi K2.5 як основний інструмент для програмування агентів, зокрема запустили відкритий агент для автоматичної перевірки коду під назвою «Bonk», інтегрований у автоматизовані пайплайни.

Ще більш вражаючий сценарій — внутрішній аудит безпеки. Цей агент щодня обробля понад 7 мільярдів токенів. Якщо б використовували стандартну комерційну модель, річні витрати склали б близько 2,4 мільйона доларів. З переходом на Kimi K2.5 ці витрати знизилися на 77%, економлячи майже 1,85 мільйона доларів.

Це не реклама — інженери Cloudflare прямо оприлюднили цю цифру у блозі.

Три покращення від Cloudflare

Просто заміна моделі недостатньо, тому Cloudflare запустила три додаткові оновлення платформи, спрямовані на зменшення витрат і підвищення ефективності у сценаріях довгих діалогів:

  • Кешування префіксів (Prefix Caching): токени, оброблені у багатокругових діалогах, не повторно враховуються, а при кешуванні — отримують знижку. Це суттєво знижує витрати на довгі задачі.
  • Заголовок Session Affinity: додано заголовок x-session-affinity, що маршрутизує запити однієї сесії до одного й того ж моделі, підвищуючи ймовірність кешування. Підтримка вже вбудована у OpenCode та SDK Agents.
  • Асинхронний API для пакетного виведення: запити, що перевищують швидкісні обмеження, можуть ставати у чергу асинхронно. Тестування показало, що зазвичай завершуються за 5 хвилин. Це підходить для сканування коду, досліджень та інших задач, що не потребують миттєвої відповіді.

Глибока рушійна сила: Infire — не просто готовий фреймворк

Cloudflare не використовує готові фреймворки для інференсу, а створила власний інфраструктурний движок Infire, що дозволяє кастомізувати ядро. Він підтримує паралельну обробку даних, тензорну паралельність і експертну паралельність, а також роздільну архітектуру обробки префіксів.

Зараз Kimi K2.5 — перший великий кейс інференсу моделей на Workers AI, що демонструє амбіції Cloudflare у сфері AI-інфраструктури: вона може працювати з мережею і при цьому бути економічно вигідною.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів