После запуска 18 марта модели для генерации изображений MAI-Image-2 Microsoft 2 апреля вновь выпустила две модели, связанные с аудио: MAI-Transcribe-1 и MAI-Voice-1. За короткое время она последовательно дополнила возможности в области изображения и голоса, что рассматривается как важное продвижение ее много-модального AI-стратегического направления. Эти три модели не являются фрагментарными обновлениями: это цельный пазл — от визуальной генерации, понимания речи до речевого вывода, — демонстрирующий, что Microsoft пытается выстроить базовые AI-возможности, которые можно напрямую встраивать в рабочие процессы компаний.
Microsoft MAI-Image-2 нацелена на генерацию изображений для бизнеса
MAI-Image-2, которую Microsoft впервые представила 18 марта, явно делает акцент на «готовности для коммерческого использования», а не на простой творческой генерации. В отличие от более ранних моделей изображений, ориентированных на развлечения или экспериментальный характер, MAI-Image-2 сильнее подчеркивает стабильность вывода и точность соответствия смыслу: она способна сохранять единообразие композиции и полноту деталей при сложных командах. Благодаря этому она лучше подходит для сценариев, связанных с бренд-маркетинговыми материалами, продуктовой визуализацией и рекламным дизайном.
Для компаний ценность таких моделей заключается не в том, удастся ли сгенерировать впечатляющие изображения, а в том, сможет ли система постоянно выдавать «полезный и контролируемый» контент — и именно это является ключевым направлением усиления MAI-Image-2.
Clipto затыкнуто, но! Microsoft выпускает модель расшифровки встреч в виде текста MAI-Transcribe-1
Следом, 2 апреля, была представлена MAI-Transcribe-1 с фокусом на способность понимать речь. Позиционирование этой модели довольно четкое: это базовый уровень технологий, превращающих речь в структурированные текстовые данные. Она умеет обрабатывать входящий речевой поток в реальном времени и при работе в условиях нескольких языков и разных акцентов сохранять высокую точность распознавания, при этом обладает определенной устойчивостью к фоновому шуму.
Такие возможности особенно критичны для корпоративных сценариев. Будь то расшифровка встреч, записи звонков в службу поддержки или систематизация медиа-контента — все это опирается на стабильное качество распознавания и перевода речи в текст. Как только речевые данные могут быть точно преобразованы в текст, последующие процессы поиска, суммирования и анализа можно полностью автоматизировать — именно поэтому MAI-Transcribe-1 играет ключевую роль во всей AI-архитектуре.
С моделью MAI-Voice-1 для поддержки клиентов, подкастов — голос
Соответствующая ей MAI-Voice-1 отвечает за сторону речевого вывода. Основная цель этой модели — сделать сгенерированный AI-голос более похожим на живое исполнение: естественность интонации, ритма и эмоциональной подачи. Это позволяет применять ее в сценариях с голосом для службы поддержки, AI-ассистентами, озвучкой видео, а также при производстве podcast. По сравнению с более механистичным синтезом речи в прошлом, MAI-Voice-1 делает акцент на настраиваемых интонациях и стилях, так что голос становится не просто инструментом передачи информации, а интерфейсом для общения и самовыражения.
Сводка по трем AI-моделям Microsoft «видеть, слышать, говорить»
Если рассматривать три модели в одном контексте, можно увидеть, что стратегия Microsoft — это не единичный прорыв, а быстрый курс на интеграцию мультимодальных возможностей. MAI-Image-2 занимается визуальной генерацией, MAI-Transcribe-1 — пониманием речи, а MAI-Voice-1 — генерацией голоса; вместе они образуют базовую структуру способностей «видеть, слышать, говорить».
Как только эти возможности будут объединены с имеющимися языковыми моделями и облачными сервисами, они смогут сформировать полноценный AI-процесс работы: от ввода данных, через понимание и генерацию, до вывода — все будет выполняться в рамках одной системы.
Характеристики
MAI-Transcribe-1
(речь в текст)
MAI-Voice-1 (текст в речь) MAI-Image-2 (генерация изображений по тексту) Основные функции
Преобразование речи в расшифровку
Генерация естественного, плавного голоса с эмоциями
Генерация изображений по текстовому описанию
Дата публикации
2 апреля 2026 г.
2 апреля 2026 г.
18 марта 2026 г.
Ключевые технологии и особенности
Высокая устойчивость к шуму, автоматическое распознавание языка
Контроль эмоций, копирование голоса (Voice Prompting)
Архитектура диффузионной модели (Diffusion-based), высокая реалистичность
Поддерживаемые языки
Английский, китайский, испанский и др.; всего 25 языков
Пока только английский (в ближайшем будущем — расширение до 10+ языков)
Основной ввод — текст (без специальных отметок о поддержке многоязычности)
Модель ценообразования
$0.36 за час аудио
$22.00 за миллион слов
Зависит от платформы развертывания (например, MAI Playground)
Ограничения на ввод/вывод
Ввод: WAV, MP3, FLAC
Ввод: чистый текст или SSML
Вывод: максимум 1024×1024 пикселей
Эта статья Microsoft выпускает три AI-модели «видеть, слышать, говорить» для корпоративных рабочих процессов AI коммерческого уровня впервые появилась в Цепь новостей ABMedia.