خبر

علي بابا تطلق نموذجًا يحلل مقاطع الفيديو الطويلة

أطلقت علي بابا إصدارًا جديدًا من نموذجها اللغوي للرؤية Qwen2-VL الذي يستطيع فهم الصور بدقة وتنسيقات مختلفة، بالإضافة إلى مقاطع الفيديو التي تزيد مدتها على 20 دقيقة.

ويأتي Qwen2-VL بثلاثة أحجام، وهي مليارا معلمة و 7 مليارات معلمة و 72 مليار معلمة. ويتوفر إصدارا الملياري معلمة و 7 مليارات معلمة بصفتهما نماذج مفتوحة المصدر عبر GitHub و Hugging Face بموجب ترخيص Apache 2.0، مما يسمح للشركات باستخدامهما حسب الرغبة لأغراض تجارية.

وأفاد فريق Qwen البحثي للذكاء الاصطناعي التابع لشركة علي بابا بأن النموذج يحقق نتائج رائدة في مجموعة من معايير الفهم البصري، ويشمل ذلك MathVista و DocVQA و RealWorldQA و MTVQA.

وتُعد إحدى السمات الرئيسية لنموذج الذكاء الاصطناعي Qwen2-VL قدرته على تحليل مقاطع الفيديو التي تزيد مدتها على 20 دقيقة، والإجابة عن الأسئلة، وإجراء الحوارات، أو توليد محتوى بناءً عليها.

وصممت علي بابا النموذج للعمل بصفته وكيلًا مرئيًا يمكن إدماجه في أجهزة، مثل الهواتف أو الروبوتات.

وباستخدام المعلومات المرئية والتعليمات النصية، يمكن للنموذج استخلاص استنتاجات معقدة واتخاذ القرارات وتنفيذ إجراءات آلية، كما يقول الفريق.

وبالإضافة إلى اللغة الإنجليزية والصينية، يستطيع نموذج Qwen2-VL فهم النص في الصور بلغات عديدة، ويشمل ذلك معظم اللغات الأوروبية واليابانية والكورية والعربية والفيتنامية.

وتتضمن القيود الحالية الافتقار إلى دعم الصوت، ونقاط الضعف في عد الكائنات والمنطق المكاني في البيئات الثلاثية الأبعاد، كما أن معرفته محدودة حتى شهر يونيو 2023.

وتقدم علي بابا واجهة برمجة تطبيقات للإصدار البالغ قدره 72 مليار معلمة من خلال منصة DashScope.

ومن أجل استخدام النماذج مع محولات Hugging Face، توصي علي بابا بتثبيتها من التعليمات البرمجية المصدرية. كما توفر مجموعة أدوات تسمى “qwen-vl-utils” للمساعدة في معالجة تنسيقات الإدخال المرئي المختلفة.

وشهدت نماذج Qwen، التي طورتها وحدة الحوسبة السحابية التابعة لشركة علي بابا، تحسينات كبيرة في مجالات، مثل البرمجة والرياضيات والمنطق والفهم المتعدد اللغات مع الإصدار الحديث Qwen 2 الصادر في أوائل شهر يونيو.

ودربت الشركة هذه النماذج على البيانات بما يصل إلى 27 لغة بخلاف الإنجليزية والصينية. وأصدرت سابقًا Qwen2 math، وهو نموذج ذكاء اصطناعي مُحسَّن لحل المشكلات الرياضية.

ومن خلال Qwen-2VL، تسعى علي بابا إلى وضع معايير جديدة لتفاعل نماذج الذكاء الاصطناعي مع البيانات المرئية، ويشمل ذلك القدرة على تحليل الكتابة اليدوية بلغات متعددة وتمييزها، وتحديد مجموعة من الكائنات في الصور الثابتة ووصفها والتمييز بينها، وتحليل الفيديو المباشر في الوقت الحقيقي تقريبًا، وتوفير الملخصات أو الملاحظات قد يفتح الباب لاستخدام النموذج في الدعم التقني وغيرها من العمليات الحية المفيدة.

نسخ الرابط تم نسخ الرابط

أخبار متعلقة :