التعرف الصوتي بالذكاء الاصطناعي

تفسير نموذج Qwen3.5-Omni متعدد الوسائط الأصلي: بنية Thinker-Talker تحقق المعالجة الموحدة لـ 4 وسائط والتعرف على الكلام بـ 113 لغة

بواسطةAPIYI - Stable and affordable AI API 2026年 4月 4日

ملاحظة من المؤلف: شرح تفصيلي لبنية Thinker-Talker MoE في نموذج اللغة الكبير متعدد الوسائط الأصلي Qwen3.5-Omni، مع استعراض قدرات نافذة السياق 256K، وإمكانات ترميز الصوت والفيديو، وقدرة "Audio-Visual Vibe Coding" الناشئة. أطلق فريق "通义千问" (Qwen) في شركة علي بابا رسمياً نموذج Qwen3.5-Omni في 30 مارس 2026، وهو نموذج متعدد الوسائط أصلي وموحد يعالج النصوص والصور…