За моніторингом 1M AI News, лабораторія Tongyi опублікувала повномодальну модель Qwen3.5-Omni, яка підтримує текстові, зображення, аудіо та аудіо-візуальні (audio and video) входи, а також може генерувати детальні аудіо-візуальні Caption із часовими мітками. Офіційно заявляють, що Qwen3.5-Omni-Plus у завданнях аналізу аудіо та аудіо-візуальних даних, міркувань, діалогів, перекладу тощо здобув 215 пунктів SOTA, а відповідні можливості перевищують Gemini-3.1-Pro.
Найособливіший приріст цього разу — не рейтинг, а «здатність Audio-Visual Vibe Coding, що природно проявляється (natural emergent)». У Tongyi стверджують, що модель не проходила спеціального тренування й уже може безпосередньо генерувати виконуваний код за аудіо-візуальними інструкціями. Офіційно також заявлено, що модель підтримує контекст 256K, розпізнає 113 мов, може обробляти 10 годин аудіо або 1 годину відео, а також має вбудовану підтримку WebSearch і складних Function Call.
Qwen3.5-Omni продовжує Thinker-Talker розподілену архітектуру: обидві частини оновлено до Hybrid-Attention MoE. У Tongyi вже через Alibaba Cloud BaiLian надали Plus, Flash та Light трьох розмірів і запустили реальний час версію Qwen3.5-Omni-Plus-Realtime.