Après avoir lancé le modèle de génération d’images MAI-Image-2 le 18 mars, Microsoft a de nouveau publié, le 2 avril, deux modèles liés à la voix, à savoir MAI-Transcribe-1 et MAI-Voice-1. En peu de temps, l’entreprise a complété consécutivement ses capacités en image et en audio, ce qui est perçu comme une avancée importante de sa stratégie d’IA multimodale. Ces trois modèles ne relèvent pas de simples mises à jour éparses : ils constituent un puzzle complet allant de la génération visuelle à la compréhension de la voix, puis jusqu’à la sortie vocale, montrant que Microsoft cherche à bâtir des capacités d’IA de base pouvant s’intégrer directement aux processus de travail des entreprises.
Microsoft MAI-Image-2 vise la génération d’images à usage commercial
Le MAI-Image-2 lancé pour la première fois le 18 mars par Microsoft met clairement l’accent sur le caractère « exploitable en entreprise » plutôt que sur une simple génération créative. Par rapport aux modèles d’images antérieurs davantage orientés vers le divertissement ou l’expérimentation, MAI-Image-2 met davantage l’accent sur la stabilité des sorties et la précision sémantique. Il peut conserver une composition cohérente et des détails complets sous des instructions complexes. Cela le rend plus adapté à des cas d’usage comme des supports marketing de marque, la visualisation de produits et la conception publicitaire.
Pour les entreprises, la valeur de ce type de modèle ne réside pas dans la capacité à générer des images spectaculaires, mais dans celle de produire en continu du contenu « utilisable et contrôlable », et c’est précisément le cœur de l’amélioration apportée par MAI-Image-2.
Clipto se débout ! Microsoft lance un modèle de transcription mot à mot pour réunions MAI-Transcribe-1
Juste après, le 2 avril, Microsoft a lancé MAI-Transcribe-1, qui se concentre sur les capacités de compréhension de la voix. La vocation de ce modèle est très claire : une technologie de base qui transforme la parole en données textuelles structurées. Il peut traiter des entrées vocales en temps réel, tout en conservant une grande précision de reconnaissance dans des contextes multilingues et avec des accents variés. En même temps, il présente une certaine résistance aux bruits de fond, limitant les perturbations.
Ces capacités sont particulièrement cruciales dans les environnements professionnels. Qu’il s’agisse de transcriptions mot à mot de réunions, de relevés d’appels du service client ou de l’organisation de contenu médiatique, tout dépend de la qualité stable de la conversion voix-texte. Dès lors que les données vocales peuvent être converties avec précision en texte, les processus ultérieurs de recherche, de résumé et d’analyse peuvent être entièrement automatisés. C’est aussi le rôle clé de MAI-Transcribe-1 dans l’ensemble de l’architecture IA.
Utiliser le modèle MAI-Voice-1 pour le service client, les podcasts et la voix
En correspondance, MAI-Voice-1 est chargé du côté de la sortie vocale. L’accent de ce modèle est de faire en sorte que la voix générée par l’IA se rapproche davantage d’une performance humaine, y compris la naturel de l’intonation, du rythme et des émotions. Cela lui permet d’être utilisé dans des scénarios comme la voix du service client, des assistants IA, le doublage de contenus vidéo et même la production de podcast. Par rapport à la synthèse vocale plus mécanique d’autrefois, MAI-Voice-1 met davantage l’accent sur des paramètres permettant d’ajuster le ton et le style. Ainsi, la voix n’est plus seulement un outil de transmission d’informations, mais devient une interface de communication et d’expression.
Récapitulatif des trois modèles IA « voir, écouter, parler » de Microsoft
En observant l’ensemble dans le même contexte, on constate que le déploiement de Microsoft ne relève pas d’une percée ponctuelle, mais d’une progression rapide vers l’intégration multimodale. MAI-Image-2 traite la génération visuelle, MAI-Transcribe-1 s’occupe de la compréhension de la voix, et MAI-Voice-1 réalise la génération de voix ; les trois ensemble forment la structure des capacités de base « voir, écouter, parler ».
Une fois ces capacités combinées avec les modèles de langage existants et des services cloud, elles peuvent former un flux de travail IA complet : de l’entrée des données, à la compréhension, jusqu’à la génération et la sortie, le tout effectué au sein d’un même système.
Caractéristiques
MAI-Transcribe-1
(de la voix vers le texte)
MAI-Voice-1 (du texte vers la voix) MAI-Image-2 (génération d’images à partir de texte) Fonction principale
Convertir la voix en transcription mot à mot
Générer une voix naturelle, fluide et porteuse d’émotion
Générer des images à partir de descriptions textuelles
Date de publication
2 avril 2026
2 avril 2026
18 mars 2026
Technologies clés et caractéristiques
Forte résistance au bruit, reconnaissance automatique de la langue
Contrôle des émotions, copie de la voix (Voice Prompting)
Architecture de modèles de diffusion (Diffusion-based), forte exactitude
Langues prises en charge
Anglais, chinois, espagnol, etc. 25 langues
Pour l’instant uniquement l’anglais (extension à 10+ langues à venir)
S’appuie principalement sur l’entrée texte (sans mention particulière de prise en charge multilingue)
Méthode de tarification
Par heure d’audio $0.36
Par million de caractères $22.00
Dépend de la plateforme de déploiement (par ex. MAI Playground)
Limites d’entrée/sortie
Entrée : WAV, MP3, FLAC
Entrée : texte brut ou SSML
Sortie : jusqu’à 1024×1024 pixels
Dans cet article, « Microsoft publie trois modèles IA “voir, écouter, parler” visant les flux de travail IA d’entreprise de niveau commercial » apparaît pour la première fois sur Chaîne News ABMedia.