أعلنت شركة جينا إيه آي عن إطلاق نموذج Jina-VLM، وهو نموذج لغوي بصري متعدد اللغات يحتوي على 2.4 مليار معلمة، مصمم خصيصاً للإجابة على الأسئلة البصرية وفهم الوثائق على الأجهزة المحدودة الموارد. يتميز النموذج بكفاءة عالية في التعامل مع الرموز البصرية ويحقق نتائج رائدة في المعايير متعددة اللغات.
أعلنت شركة Jina AI عن إطلاق نموذجها الجديد Jina-VLM، وهو نموذج لغوي بصري متعدد اللغات يحتوي على 2.4 مليار معلمة، مصمم خصيصاً للإجابة على الأسئلة البصرية وفهم الوثائق على الأجهزة ذات الموارد المحدودة. يجمع النموذج بين مُشفر بصري من نوع SigLIP2 وبنية لغوية من Qwen3، مع استخدام موصل تجميع بالانتباه لتقليل الرموز البصرية مع الحفاظ على الهيكل المكاني.
يتميز النموذج بتصميم معماري فريد يعتمد على تقسيم الصور عالية الدقة إلى مجموعة من البلاط المتداخل يصل إلى 12 بلاطة، بدلاً من تغيير حجم الصورة بالكامل. كل بلاطة بحجم 378×378 بكسل، مع تداخل بين البلاطات المجاورة لضمان عدم فقدان المعلومات. ثم يستخدم النموذج تقنية تجميع الانتباه لضغط الرموز البصرية بأربع مرات، مما يقلل بشكل كبير من الحمل الحسابي وحجم ذاكرة التخزين المؤقت الرئيسية للغة.
تم تدريب النموذج على مرحلتين رئيسيتين باستخدام مزيج بيانات يضم حوالي 5 ملايين عينة متعددة الوسائط و12 مليار رمز نصي عبر أكثر من 30 لغة، بما في ذلك العربية والإنجليزية والصينية. ركزت المرحلة الأولى على المحاذاة البصرية اللغوية عبر اللغات، بينما ركزت المرحلة الثانية على ضبط التعليمات للإجابة على الأسئلة البصرية والاستدلال.
سجل النموذج أداءً متقدماً في العديد من المعايير القياسية، حيث حقق متوسط 72.3 في مهام الإجابة على الأسئلة البصرية الإنجليزية التي تشمل المخططات والوثائق. كما تفوق في المعايير متعددة اللغات، مسجلاً 78.8 على معيار MMMB و74.3 على معيار Multilingual MMBench، وهي نتائج تعتبر الأفضل بين النماذج المفتوحة بحجم 2 مليار معلمة. كما أظهر النموذج تحكماً قوياً في الهلوسة البصرية، مسجلاً 90.3 على معيار POPE.
يمثل إطلاق Jina-VLM خطوة مهمة في تطوير النماذج اللغوية البصرية الكفؤة والمتعددة اللغات، خاصة للأجهزة محدودة الموارد. يجمع النموذج بين الكفاءة الحسابية والأداء العالي عبر مجموعة واسعة من المهام واللغات، مما يجعله أداة واعدة لتطبيقات الذكاء الاصطناعي في فهم المحتوى المرئي والنصي حول العالم.
المصدر: MarkTechPost AI | تغطية حصرية من AI Tools Oasis

نقدم لك أحدث الأخبار والتحليلات في عالم الذكاء الاصطناعي بدقة ومصداقية. تابعنا للحصول على كل جديد.

تواصل OpenAI العمل على تطبيقها الشامل الخارق الذي يهدف إلى دمج الذكاء الاصطناعي في منصة واحدة متعددة الوظائف. يأتي هذا التطور في إطار سعي الشركة لتوسيع نطاق خدماتها وتقديم تجربة مستخدم متكاملة. تعرف على التفاصيل الكاملة والتأثير المتوقع لهذه الخطوة.

أعلنت منصة نوتيون عن استعادة الوصول إلى خدمة أنثروبيك بعد انقطاع مؤقت أثر على المستخدمين. يأتي هذا الإجراء بعد ساعات من تعطل الخدمة، مما أثار تساؤلات حول استقرار التكامل بين أدوات الإنتاجية وخدمات الذكاء الاصطناعي. نستعرض تفاصيل الحادثة وتأثيرها على المستخدمين.

تتزايد المخاوف في عالم العملات الرقمية من ظاهرة تُعرف بـ Tokenpocalypse، حيث قد يؤدي تضخم عدد الرموز إلى انهيار السوق. تحليل TechCrunch يكشف عن علامات تحذيرية وتأثيرات محتملة على المستثمرين.