فهم الصوت - Apiyi.com Blog

إطلاق نموذج اللغة الكبير متعدد الوسائط Seed-2.0-lite-260428 على APIYI: تحليل القدرات الأربع للفيديو والصورة والصوت والنص

بواسطةAPIYI - Stable and affordable AI API 2026年 5月 20日

إليك تحديث يستحق اهتمام المطورين! أطلقت عائلة نماذج Dola الأساسية من ByteDance في 28 أبريل 2026 أول نموذج فهم "متعدد الوسائط بالكامل" (Omnimodal) وهو Seed-2.0-lite-260428، والذي يدعم بشكل أصلي أربعة أنواع من المدخلات: الفيديو، الصور، الصوت، والنصوص. يُعد هذا النموذج الأول في عائلة Dola Seed الذي يتمتع بقدرة "الرؤية والسمع" معاً، كما شهد تحسينات متزامنة…