DeepSeek 8 апреля незаметно развернул тест трех режимов: быстрый, экспертный, визуальный; три отдельных потока по разным сценариям, и в сообществе это рассматривают как последнюю «разминку» перед официальным запуском V4.
(Хронология: DeepSeek V4 отказывается от Nvidia, берет курс на Huawei! Alibaba, ByteDance, Tencent — все спешат купить чипы Ascend 950PR)
(Дополнение к контексту: DeepSeek V4 объявил, что отказывается от Nvidia! На какой стадии находится «бой за прорыв» китайского ИИ в сторону «независимости вычислительных мощностей»?)
Оглавление статьи
Переключить
В ночь на 8 апреля DeepSeek синхронно обновил свой сайт и приложение: интерфейс стал доступен с выбором из трех режимов. Это не полноценный официальный релиз с полным набором функций, а предварительное тестирование для части пользователей, но как только сообщение появилось, сообщество сразу связало его с графиком выхода V4.
Распределение трех режимов довольно четкое:
Быстрый режим (Fast Mode) — режим по умолчанию, ориентирован на повседневные диалоги и мгновенные ответы; используется легкий, низколатентный модельный вариант. Ограничения на использование не установлены, но поддержка вложений ограничена только извлечением текста — изображения или аудио не обрабатываются.
Экспертный режим (Expert Mode) позиционируется для сложных задач рассуждения; поддерживает режим глубокого размышления. Практика тестов в сообществе показывает, что единичный сеанс рассуждений может запускать время размышления более 500 секунд. В пиковые часы этот режим требует ожидания, он также не поддерживает вложения и загрузку аудио. В настоящее время он все еще находится на стадии тестирования и пока не открыт для всех пользователей.
Визуальный режим (Vision Mode) — самый «конкретный» по смыслу из трех. Это первый случай, когда DeepSeek официально поддерживает визуальный ввод на потребительском клиенте: мультимодальные возможности больше не являются лишь техническим вариантом на уровне API, а напрямую ориентированы на обычных пользователей.
Общая логика такова: распределить расход вычислительных мощностей по типам задач. Высокочастотные сценарии с низкими требованиями идут по быстрому каналу, задачи с высокими вычислениями рассуждения — по экспертному каналу, ввод текста и изображений — по визуальному каналу. Эта задумка сама по себе не является чем-то новым, но DeepSeek — первая в числе ведущих китайских моделей, кто реализовал подобное на уровне потребительского продукта.
Дискуссии в сообществе по этому тесту довольно быстро сосредоточились на одном техническом сомнении.
Часть тестирующих пользователей обнаружила, что качество ответов в экспертном режиме по сравнению с быстрым повышается лишь незначительно — разница не настолько велика, как ожидали. Более того, один из пользователей напрямую спросил модель, и получил ответ: две модели используют одинаковую базовую архитектуру, различия в основном связаны с настройкой system prompt.
Если это правда, то «экспертный режим» по своей сути ближе к отстроенной конфигурации системной подсказки, а не к отдельной модели рассуждения.
DeepSeek не дал официального ответа на это возражение. С внешней точки зрения есть два возможных толкования: во‑первых, это может быть временная конфигурация на этапе градации, а реальное разнесение моделей по слоям начнет работать только после выхода V4; во‑вторых, изначальная цель слоистой архитектуры не в переключении на уровне модели, а в том, чтобы через разные бюджеты рассуждения и системные настройки управлять расходом вычислительных мощностей — позволяя большему числу пользователей использовать сервис одновременно.
Сами три режима в интерфейсе — это апгрейд на уровне пользовательского опыта. Но именно V4, к которому это все привязано, и является реальным «весом» этого обновления.
Команда DeepSeek подтвердила, что V4 перенесут на апрель; главная причина — глубокая адаптация чипов Huawei Ascend. Известные технические спецификации довольно смелые: масштаб в 1 трлн параметров, тестирование кодирующих возможностей SWE-bench с 81% прохода, цена API $0.30/MTok, а также собственная технология долгосрочной памяти Engram: условный механизм памяти, который позволяет модели сохранять предпочтения пользователя и контекст через диалоги.
Но самое важное в наблюдении за V4 — все же выбор на уровне вычислительных мощностей.
Если V4 действительно будет полностью выполняться на отечественных чипах вроде Huawei Ascend и Cambricon, то она станет первой серийно масштабируемой на потребительском уровне и полностью обходящей экосистему Nvidia CUDA mainstream-моделью (хотя, поскольку мы знаем, что значительное количество чипов Nvidia контрабандой попадает в Китай, реальная картина за кулисами оказывается еще более сложной).