微軟發佈三款 AI「看、聽、說」模型,瞄準商用級 AI 企業工作流

ChainNewsAbmedia

繼 3 月 18 日推出影像生成模型 MAI-Image-2 後,Microsoft 在 4 月 2 日再度釋出兩款語音相關模型 MAI-Transcribe-1 與 MAI-Voice-1,短時間內連續補齊影像與語音能力,被視為其多模態 AI 戰略的重要推進。這三款模型並非零散更新,而是從視覺生成、語音理解到語音輸出的完整拼圖,顯示微軟正試圖建立一套可直接嵌入企業工作流程的 AI 基礎能力。

微軟 MAI-Image-2 瞄準商用影像生成

3 月 18 日微軟首先推出的 MAI-Image-2,明顯將重心放在「可商用」而非單純創意生成。相較於早期偏向娛樂或實驗性質的圖像模型,MAI-Image-2 更強調輸出穩定性與語意準確度,能在複雜指令下維持構圖一致與細節完整。這使其更適合用於品牌行銷素材、產品視覺與廣告設計等場景。

對企業而言,這類模型的價值不在於能否生成驚艷圖像,而在於是否能持續產出「可用且可控」的內容,而這正是 MAI-Image-2 強化的核心。

Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1

緊接著在 4 月 2 日推出的 MAI-Transcribe-1,聚焦語音理解能力。這款模型的定位相當清晰,是將語音轉換為結構化文字資料的基礎層技術。它能處理即時語音輸入,並在多語言與不同口音情境下維持高辨識準確度,同時對背景噪音具備一定抗干擾能力。

這類能力對企業場景尤其關鍵,無論是會議逐字稿、客服通話紀錄,或媒體內容整理,都仰賴穩定的語音轉文字品質。一旦語音資料能被準確轉換為文字,後續的搜尋、摘要與分析流程便能全面自動化,這也是 MAI-Transcribe-1 在整體 AI 架構中的關鍵角色。

用 MAI-Voice-1 模型做客服、Podcast 語音

與之對應的 MAI-Voice-1,則負責語音輸出端。該模型的重點在於讓 AI 生成的語音更接近真人表現,包括語調、節奏與情緒的自然度。這使其能應用於客服語音、AI 助理、影音配音甚至 podcast 製作等場景。與過去較為機械式的語音合成相比,MAI-Voice-1 更強調可調整的語氣與風格,使語音不再只是資訊傳遞工具,而是具備溝通與表達能力的介面。

微軟「看、聽、說」三款 AI 模型總整理

若將三者放在同一脈絡觀察,可以發現微軟的佈局並非單點突破,而是朝向多模態整合快速推進。MAI-Image-2 處理視覺生成,MAI-Transcribe-1 負責語音理解,而 MAI-Voice-1 則完成語音生成,三者共同構成「看、聽、說」的基本能力結構。

這樣的能力一旦與既有的語言模型與雲端服務結合,便能形成完整的 AI 工作流程,從資料輸入、理解、生成到輸出,全部在同一體系內完成。

特性

MAI-Transcribe-1

(語音轉文字)

MAI-Voice-1 (文字轉語音) MAI-Image-2 (文字生成圖像) 主要功能

將語音轉換為逐字稿

生成自然流暢且具情感的語音

根據文字描述生成圖像

發布日期

2026 年 4 月 2 日

2026 年 4 月 2 日

2026 年 3 月 18 日

關鍵技術與特性

高抗噪性 、自動語言辨識

情感控制 、聲音複製 (Voice Prompting)

擴散模型架構 (Diffusion-based) 、擬真度高

支援語言

英文、中文、西班牙文等 25 種語言

目前僅限英文 (即將擴充至 10+ 種)

以文字輸入為主 (未特別標註多國語系支援)

定價方式

每小時音訊 $0.36 美元

每百萬字 $22.00 美元

視部署平台而定 (如 MAI Playground)

輸入/輸出限制

輸入:WAV, MP3, FLAC

輸入:純文字或 SSML

輸出:最大 1024×1024 像素

這篇文章 微軟發佈三款 AI「看、聽、說」模型,瞄準商用級 AI 企業工作流 最早出現於 鏈新聞 ABMedia。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento