1M AI Newsのモニタリングによると、Tongyi Labはマルチモーダル全般モデルQwen3.5-Omniを発表し、テキスト、画像、音声、および音声・映像(音動画)の入力をサポートしており、タイムスタンプ付きのきめ細かな音声・映像Captionを生成できます。公式によれば、Qwen3.5-Omni-Plusは、音声および音動画分析、推論、対話、翻訳などのタスクで215項目のSOTAを獲得しており、関連能力はGemini-3.1-Proを上回ります。
今回いちばん特別な増分は、ランキングではなく「自然に湧き上がるAudio-Visual Vibe Coding能力」です。Tongyiは、このモデルは特別なトレーニングを受けていないにもかかわらず、音声・映像の指示に基づいて直接実行可能なコードを生成できると述べています。公式ではさらに、このモデルは256Kのコンテキスト、113種類の言語認識に対応し、10時間分の音声または1時間分の動画を扱え、ネイティブでWebSearchおよび複雑なFunction Callをサポートするとしています。
Qwen3.5-OmniはThinker-Talkerの分業アーキテクチャを継承し、2つの部分はいずれもHybrid-Attention MoEへアップグレードされています。TongyiはAlibaba Cloudの百炼を通じてPlus、Flash、Lightの3つのサイズを提供し、さらにリアルタイム版Qwen3.5-Omni-Plus-Realtimeを公開しています。