Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Mistral повертається з родиною Frontier AI, що безпосередньо конкурує з DeepSeek

Хаб мистецтва, моди та розваг Decrypt.


Відкрийте SCENE

Французький стартап у сфері ШІ Mistral, якого часто недооцінювали як європейського аутсайдера на ринку, де домінують американські гіганти та китайські новачки, щойно наздогнав їх: у вівторок він випустив свою найамбітнішу розробку, що реально конкурує з іншими open-source моделями. (Або навіть безкоштовно, у цьому випадку.)

Сімейство з чотирьох моделей охоплює від кишенькових асистентів до передової системи з 675 мільярдами параметрів — усі під відкритою ліцензією Apache 2.0. Моделі доступні для публічного завантаження — будь-хто з відповідним обладнанням може запускати їх локально, змінювати, донавчати або створювати на їх основі власні застосунки.

Флагман компанії, Mistral Large 3, використовує розріджену архітектуру Mixture-of-Experts, яка активує лише 41 мільярд із загальних 675 мільярдів параметрів на токен. Такий інженерний підхід дозволяє їй досягати продуктивності моделей найвищого рівня, споживаючи ресурси на рівні систем із 40 мільярдами параметрів.

Mistral Large 3 навчалася з нуля на 3 000 NVIDIA H200 GPU та дебютувала на другому місці серед open-source моделей без навичок міркування у рейтингу LMArena.

Конкуренція в бенчмарках із DeepSeek має складну динаміку. За результатами тестів Mistral, їхня найкраща модель випереджає DeepSeek V3.1 за кількома показниками, але трохи поступається новішій V3.2 у LMArena.

У завданнях загальних знань та експертного міркування сімейство Mistral тримається впевнено. Там, де DeepSeek має перевагу, — це швидкість кодування та математична логіка. Але це очікувано: у цьому релізі немає моделей для міркування, тож ці моделі не мають вбудованого ланцюжка думок.

Менші моделі “Ministral” особливо цікаві для розробників. Три розміри — 3B, 8B та 14B параметрів — кожна з базовою та інструктивною версією. Усі моделі нативно підтримують вхід зображень. Модель 3B привернула увагу дослідника ШІ Саймона Віллісона, який відзначив, що її можна повністю запускати в браузері через WebGPU.

Якщо хочете спробувати цю модель, у цьому просторі Hugginface можна завантажити її локально та взаємодіяти через вебкамеру.

Компетентний ШІ із підтримкою зору у файлі близько 3 ГБ відкриває нові можливості для розробників, яким потрібна ефективність, — або навіть для ентузіастів: дрони, роботи, ноутбуки, що працюють офлайн, вбудовані системи у транспорті тощо.

Перші тести показують різний характер у різних моделей. У швидкому тесті ми виявили, що Mistral 3 Large добре підходить для розмовної взаємодії. Іноді вона має стиль форматування GPT-5 (подібну мовну манеру та любов до емодзі), але з природнішою подачею.

Mistral 3 Large також досить вільна у плані цензури, що робить її кращим вибором для швидкої рольової гри порівняно з ChatGPT, Claude чи Gemini.

Для завдань природної мови, креативного письма й рольових ігор користувачі вважають інструктивну версію 14B досить хорошою, але не видатною. Теми на Reddit у r/LocalLLaMA відзначають проблеми з повтореннями та іноді надмірною залежністю від шаблонних фраз із навчальних даних, але здатність моделі генерувати великі тексти — великий плюс, особливо для її розміру.

Розробники, які запускають локальний inference, повідомляють, що моделі 3B і 8B іноді зациклюються або видають шаблонні відповіді, особливо у творчих завданнях.

Втім, модель 3B настільки мала, що може працювати навіть на слабких пристроях, наприклад смартфонах, і її можна навчати/доопрацьовувати під конкретні цілі. Єдина альтернатива в цій точці — найменша версія Google Gemma 3.

Корпоративне впровадження вже розпочалося. HSBC у понеділок оголосив про багаторічне партнерство з Mistral для впровадження генеративного ШІ у свої процеси. Банк запускатиме моделі на власній інфраструктурі, поєднуючи внутрішні технічні можливості з експертизою Mistral. Для фінансових установ, які працюють із чутливими даними клієнтів згідно з GDPR, привабливість європейського постачальника ШІ із відкритими вагами — очевидна.

Mistral і NVIDIA спільно створили NVFP4-компресований чекпоїнт, що дозволяє Large 3 запускатися на одному вузлі з вісьмома топовими картами. NVIDIA стверджує, що Ministral 3B видає приблизно 385 токенів за секунду на RTX 5090 та понад 50 токенів за секунду на Jetson Thor для робототехніки. Це означає, що модель дуже ефективна та швидка під час inference, дає відповіді швидко, не втрачаючи якості.

За анонсом, найближчим часом з’явиться версія Large 3, оптимізована для міркувань. До того часу DeepSeek R1 та інші китайські моделі, як GLM чи Qwen Thinking, зберігають перевагу в явних reasoning-завданнях. Але для підприємств, яким потрібні передові можливості, відкриті ваги, багатомовність для європейських мов і компанія, що не підпадає під закони нацбезпеки Китаю чи США, вибір зріс із нуля до одного.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити