ما الذي يميز نموذج Jina-VLM عن النماذج المشابهة؟

يتميز بكفاءته العالية في التعامل مع الرموز البصرية عبر تقنية تجميع الانتباه، وتصميمه المتعدد اللغات الذي يدعم العربية، وقدرته على العمل على أجهزة ذات موارد محدودة.

كم لغة يدعمها نموذج Jina-VLM؟

يدعم النموذج أكثر من 30 لغة، بما في ذلك العربية والإنجليزية والصينية والألمانية والإسبانية والفرنسية واليابانية والكورية.

ما هي التطبيقات العملية لنموذج Jina-VLM؟

يمكن استخدامه في الإجابة على الأسئلة البصرية، وفهم الوثائق والمستندات، وتحليل المخططات والرسوم البيانية، والتطبيقات التي تتطلب فهمًا مشتركًا للنص والصورة عبر لغات متعددة.

جينا إيه آي تطلق نموذج Jina-VLM متعدد اللغات لفهم الصور والوثائق بكفاءة...

إطلاق نموذج رائد لفهم الصور واللغات

أعلنت شركة Jina AI عن إطلاق نموذجها الجديد Jina-VLM، وهو نموذج لغوي بصري متعدد اللغات يحتوي على 2.4 مليار معلمة، مصمم خصيصاً للإجابة على الأسئلة البصرية وفهم الوثائق على الأجهزة ذات الموارد المحدودة. يجمع النموذج بين مُشفر بصري من نوع SigLIP2 وبنية لغوية من Qwen3، مع استخدام موصل تجميع بالانتباه لتقليل الرموز البصرية مع الحفاظ على الهيكل المكاني.

التصميم المعماري المبتكر

يتميز النموذج بتصميم معماري فريد يعتمد على تقسيم الصور عالية الدقة إلى مجموعة من البلاط المتداخل يصل إلى 12 بلاطة، بدلاً من تغيير حجم الصورة بالكامل. كل بلاطة بحجم 378×378 بكسل، مع تداخل بين البلاطات المجاورة لضمان عدم فقدان المعلومات. ثم يستخدم النموذج تقنية تجميع الانتباه لضغط الرموز البصرية بأربع مرات، مما يقلل بشكل كبير من الحمل الحسابي وحجم ذاكرة التخزين المؤقت الرئيسية للغة.

تدريب متعدد المراحل واللغات

تم تدريب النموذج على مرحلتين رئيسيتين باستخدام مزيج بيانات يضم حوالي 5 ملايين عينة متعددة الوسائط و12 مليار رمز نصي عبر أكثر من 30 لغة، بما في ذلك العربية والإنجليزية والصينية. ركزت المرحلة الأولى على المحاذاة البصرية اللغوية عبر اللغات، بينما ركزت المرحلة الثانية على ضبط التعليمات للإجابة على الأسئلة البصرية والاستدلال.

أداء متميز في المعايير العالمية

سجل النموذج أداءً متقدماً في العديد من المعايير القياسية، حيث حقق متوسط 72.3 في مهام الإجابة على الأسئلة البصرية الإنجليزية التي تشمل المخططات والوثائق. كما تفوق في المعايير متعددة اللغات، مسجلاً 78.8 على معيار MMMB و74.3 على معيار Multilingual MMBench، وهي نتائج تعتبر الأفضل بين النماذج المفتوحة بحجم 2 مليار معلمة. كما أظهر النموذج تحكماً قوياً في الهلوسة البصرية، مسجلاً 90.3 على معيار POPE.

الخلاصة

يمثل إطلاق Jina-VLM خطوة مهمة في تطوير النماذج اللغوية البصرية الكفؤة والمتعددة اللغات، خاصة للأجهزة محدودة الموارد. يجمع النموذج بين الكفاءة الحسابية والأداء العالي عبر مجموعة واسعة من المهام واللغات، مما يجعله أداة واعدة لتطبيقات الذكاء الاصطناعي في فهم المحتوى المرئي والنصي حول العالم.

المصدر: MarkTechPost AI | تغطية حصرية من AI Tools Oasis

جينا إيه آي تطلق نموذج Jina-VLM متعدد اللغات لفهم الصور والوثائق بكفاءة عالية

إطلاق نموذج رائد لفهم الصور واللغات

التصميم المعماري المبتكر

تدريب متعدد المراحل واللغات

أداء متميز في المعايير العالمية

الخلاصة

أسئلة شائعة

فريق AI Tools Oasis

أخبار ذات صلة

DeepMind تستثمر 75 مليون دولار في هوليوود عبر شراكة مع A24

نفيديا تهدف لخفض استهلاك المياه في مراكز البيانات لكنها لا تحل مشكلة المياه في الذكاء الاصطناعي

جروق تؤكد جمع 650 مليون دولار وإعادة التوظيف بعد صفقة إنفيديا