توميي يدمج Vibe Coding في النموذج متعدد الأوضاع، وQwen3.5-Omni يحقق 215 إنجازًا قياسيًا في المجال

BlockBeatNews

وفقًا لمراقبة 1M AI News، أطلقت شركة Tongyi Lab نموذجًا شاملًا متعدد الوسائط Qwen3.5-Omni يدعم إدخال النص والصور والصوت والفيديو، ويمكنه توليد تسميات Caption تفصيلية لفيديو وصوت مع طوابع زمنية. وتذكر الشركة رسميًا أن Qwen3.5-Omni-Plus حقق 215 إنجازًا ضمن SOTA في مهام مثل تحليل الصوت والوسائط المرئية والفهم والاستدلال والحوار والترجمة وغيرها، وأن قدراته تتجاوز Gemini-3.1-Pro.

أكثر الإضافات تميزًا في هذه المرة ليست القائمة، بل «قدرة Audio-Visual Vibe Coding التي تنبثق بشكل طبيعي». وتقول Tongyi إن النموذج لم يتم تدريبه تدريبًا متخصصًا، لكنه أصبح قادرًا على توليد كود قابل للتشغيل مباشرة استنادًا إلى تعليمات الوسائط الصوتية والمرئية. كما تشير الشركة رسميًا إلى أن النموذج يدعم سياق 256K، والتعرّف على 113 لغة، ويمكنه معالجة ما يصل إلى 10 ساعات من الصوت أو ساعة واحدة من الفيديو، كما يدعم أصليًا WebSearch و Function Call معقدة.

يواصل Qwen3.5-Omni اعتماد بنية التقسيم Thinker-Talker، حيث تمت ترقية الجزأين إلى Hybrid-Attention MoE. وقد وفّرت Tongyi ثلاثة أحجام Plus وFlash وLight عبر منصة Alibaba Cloud Bailian، كما أطلقت النسخة الفورية Qwen3.5-Omni-Plus-Realtime.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات