Після того як 18 березня Microsoft випустила модель для генерації зображень MAI-Image-2, 2 квітня вона знову опублікувала дві мовні моделі, пов’язані зі звуком, — MAI-Transcribe-1 та MAI-Voice-1. За короткий час компанія послідовно доповнила можливості в галузі зображень і голосу, що розглядається як важливий крок уперед у її мультимодальній стратегії AI. Ці три моделі — не разові оновлення, а цілісний набір: від візуальної генерації, розуміння мови до виведення голосу. Це демонструє, що Microsoft намагається створити базові можливості AI, які можна напряму вбудувати в бізнесові робочі процеси.
Microsoft MAI-Image-2 орієнтується на комерційну генерацію зображень
MAI-Image-2, яку 18 березня Microsoft представила першою, очевидно робить акцент на «можливості використання в бізнесі», а не просто на творчій генерації. Порівняно з попередніми моделями зображень, що більше тяжіли до розваг або експериментального характеру, MAI-Image-2 більше сфокусовує увагу на стабільності виводу та точності семантики. Вона здатна зберігати узгодженість композиції та повноту деталей навіть за складних команд. Це робить її більш придатною для таких сценаріїв, як бренд-маркетингові матеріали, візуал для продуктів і дизайн реклами.
Для підприємств цінність таких моделей полягає не в тому, чи можуть вони згенерувати вражаючі картинки, а в тому, чи здатні вони постійно продукувати «корисний і контрольований» контент — і саме це є основним акцентом, посиленим у MAI-Image-2.
Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1
Далі, 2 квітня, було випущено MAI-Transcribe-1, який фокусується на можливостях розпізнавання мови. Позиціонування цієї моделі доволі чітке: вона є базовою технологією, що перетворює голос на структуровані текстові дані. Вона може обробляти вхідні аудіо в реальному часі та підтримувати високу точність розпізнавання в різномовних сценаріях і за різних акцентів, водночас маючи певну стійкість до фонового шуму.
Такі можливості особливо критичні для корпоративних сценаріїв. Незалежно від того, йдеться про стенограми засідань, записи дзвінків служби підтримки чи впорядкування медійного контенту, усе це спирається на стабільну якість перетворення голосу на текст. Як тільки аудіодані можна точно перетворити на текст, подальші процеси пошуку, підсумовування та аналізу можуть бути повністю автоматизовані — саме тому MAI-Transcribe-1 відіграє ключову роль у загальній архітектурі AI.
Використання MAI-Voice-1 для служби підтримки та подкастів
Відповідно до цього, MAI-Voice-1 відповідає за блок виведення голосу. У центрі уваги цієї моделі — щоб голос, який генерує AI, був ближчим до виступу людини, з природністю інтонації, ритму та емоцій. Це дає змогу застосовувати її в таких сценаріях, як голосові канали підтримки клієнтів, AI-помічники, озвучення відео, а також у виробництві подкастів. На відміну від більш механічного голосового синтезу в минулому, MAI-Voice-1 робить акцент на керованих інтонаціях і стилях, тож голос стає не лише інструментом передавання інформації, а й інтерфейсом для комунікації та вираження.
Підсумок трьох AI-моделей Microsoft «бачити, чути, говорити»
Якщо розглядати трійку в одному контексті, можна побачити, що розгортання Microsoft — це не одиночний прорив, а швидке просування до інтеграції мультимодальності. MAI-Image-2 обробляє генерацію зображень, MAI-Transcribe-1 відповідає за розуміння мови, а MAI-Voice-1 завершує генерацію голосу — разом вони формують базову структуру можливостей «бачити, чути, говорити».
Коли ці можливості поєднуються з наявними мовними моделями та хмарними сервісами, вони можуть утворити цілісний AI-робочий процес: від введення даних, розуміння, генерації до виведення — усе в межах однієї системи.
Характеристики
MAI-Transcribe-1
(голос у текст)
MAI-Voice-1 (текст у голос) MAI-Image-2 (текст у зображення) Основні функції
Перетворення голосу на стенограму
Генерація природного й плавного голосу з емоціями
Генерація зображень за текстовим описом
Дата випуску
2026 року 4 дня 2 числа
2026 року 4 дня 2 числа
2026 року 3 дня 18 числа
Ключові технології та особливості
Висока стійкість до шуму , автоматичне розпізнавання мови
Керування емоціями , голосове клонування (Voice Prompting)
Архітектура дифузійної моделі (Diffusion-based) , висока правдоподібність
Підтримувані мови
Англійська, китайська, іспанська тощо 25 мов
Наразі лише англійська (згодом буде розширено до 10+ мов)
Переважно текстовий ввід (без окремо позначеної підтримки багатьох мовних наборів)
Модель ціноутворення
За годину аудіо $0.36 доларів США
За мільйон слів $22.00 доларів США
Залежить від платформи розгортання (наприклад MAI Playground)
Обмеження на вхід/вихід
Ввід:WAV, MP3, FLAC
Ввід:чистий текст або SSML
Вивід:максимум 1024×1024 пікселів
Ця стаття «Microsoft випускає три AI-моделі “бачити, чути, говорити”, орієнтовані на бізнесовий робочий процес рівня підприємства» вперше з’являється на «Lienews ABMedia».