وفقًا لمراقبة 1M AI News، أطلقت شركة Tongyi Lab نموذجًا شاملًا متعدد الوسائط Qwen3.5-Omni يدعم إدخال النص والصور والصوت والفيديو، ويمكنه توليد تسميات Caption تفصيلية لفيديو وصوت مع طوابع زمنية. وتذكر الشركة رسميًا أن Qwen3.5-Omni-Plus حقق 215 إنجازًا ضمن SOTA في مهام مثل تحليل الصوت والوسائط المرئية والفهم والاستدلال والحوار والترجمة وغيرها، وأن قدراته تتجاوز Gemini-3.1-Pro.
أكثر الإضافات تميزًا في هذه المرة ليست القائمة، بل «قدرة Audio-Visual Vibe Coding التي تنبثق بشكل طبيعي». وتقول Tongyi إن النموذج لم يتم تدريبه تدريبًا متخصصًا، لكنه أصبح قادرًا على توليد كود قابل للتشغيل مباشرة استنادًا إلى تعليمات الوسائط الصوتية والمرئية. كما تشير الشركة رسميًا إلى أن النموذج يدعم سياق 256K، والتعرّف على 113 لغة، ويمكنه معالجة ما يصل إلى 10 ساعات من الصوت أو ساعة واحدة من الفيديو، كما يدعم أصليًا WebSearch و Function Call معقدة.
يواصل Qwen3.5-Omni اعتماد بنية التقسيم Thinker-Talker، حيث تمت ترقية الجزأين إلى Hybrid-Attention MoE. وقد وفّرت Tongyi ثلاثة أحجام Plus وFlash وLight عبر منصة Alibaba Cloud Bailian، كما أطلقت النسخة الفورية Qwen3.5-Omni-Plus-Realtime.