Según el monitoreo de 1M AI News, el laboratorio Tongyi lanzó el modelo multimodal Qwen3.5-Omni, que admite entradas de texto, imágenes, audio y audio/video, y puede generar subtítulos de audio/video de grano fino con marcas de tiempo. La versión oficial afirma que Qwen3.5-Omni-Plus logró 215 SOTA en tareas como análisis de audio y audio/video, razonamiento, conversaciones, traducción, etc., y que sus capacidades superan a Gemini-3.1-Pro.
Lo más especial de esta actualización no es el ranking, sino la «capacidad de Audio-Visual Vibe Coding que emerge de manera natural». Tongyi afirma que el modelo no recibió un entrenamiento específico y aun así ya puede, a partir de instrucciones de audio/video, generar código ejecutable directamente. La fuente oficial también indica que el modelo admite un contexto de 256K, reconocimiento de 113 tipos de idioma, puede procesar 10 horas de audio o 1 hora de video, y tiene soporte nativo para WebSearch y llamadas complejas a Function Call.
Qwen3.5-Omni continúa la arquitectura de división de trabajo Thinker-Talker, y ambas partes se actualizan a Hybrid-Attention MoE. Tongyi ya ofreció Plus, Flash y Light de tres tamaños mediante el programa Bai Lian de Alibaba Cloud, y además lanzó la versión en tiempo real Qwen3.5-Omni-Plus-Realtime.