أعلنت شركة جينا إيه آي عن إطلاق نموذج Jina-VLM، وهو نموذج لغوي بصري متعدد اللغات يحتوي على 2.4 مليار معلمة، مصمم خصيصاً للإجابة على الأسئلة البصرية وفهم الوثائق على الأجهزة المحدودة الموارد. يتميز النموذج بكفاءة عالية في التعامل مع الرموز البصرية ويحقق نتائج رائدة في المعايير متعددة اللغات.
أعلنت شركة Jina AI عن إطلاق نموذجها الجديد Jina-VLM، وهو نموذج لغوي بصري متعدد اللغات يحتوي على 2.4 مليار معلمة، مصمم خصيصاً للإجابة على الأسئلة البصرية وفهم الوثائق على الأجهزة ذات الموارد المحدودة. يجمع النموذج بين مُشفر بصري من نوع SigLIP2 وبنية لغوية من Qwen3، مع استخدام موصل تجميع بالانتباه لتقليل الرموز البصرية مع الحفاظ على الهيكل المكاني.
يتميز النموذج بتصميم معماري فريد يعتمد على تقسيم الصور عالية الدقة إلى مجموعة من البلاط المتداخل يصل إلى 12 بلاطة، بدلاً من تغيير حجم الصورة بالكامل. كل بلاطة بحجم 378×378 بكسل، مع تداخل بين البلاطات المجاورة لضمان عدم فقدان المعلومات. ثم يستخدم النموذج تقنية تجميع الانتباه لضغط الرموز البصرية بأربع مرات، مما يقلل بشكل كبير من الحمل الحسابي وحجم ذاكرة التخزين المؤقت الرئيسية للغة.
تم تدريب النموذج على مرحلتين رئيسيتين باستخدام مزيج بيانات يضم حوالي 5 ملايين عينة متعددة الوسائط و12 مليار رمز نصي عبر أكثر من 30 لغة، بما في ذلك العربية والإنجليزية والصينية. ركزت المرحلة الأولى على المحاذاة البصرية اللغوية عبر اللغات، بينما ركزت المرحلة الثانية على ضبط التعليمات للإجابة على الأسئلة البصرية والاستدلال.
سجل النموذج أداءً متقدماً في العديد من المعايير القياسية، حيث حقق متوسط 72.3 في مهام الإجابة على الأسئلة البصرية الإنجليزية التي تشمل المخططات والوثائق. كما تفوق في المعايير متعددة اللغات، مسجلاً 78.8 على معيار MMMB و74.3 على معيار Multilingual MMBench، وهي نتائج تعتبر الأفضل بين النماذج المفتوحة بحجم 2 مليار معلمة. كما أظهر النموذج تحكماً قوياً في الهلوسة البصرية، مسجلاً 90.3 على معيار POPE.
يمثل إطلاق Jina-VLM خطوة مهمة في تطوير النماذج اللغوية البصرية الكفؤة والمتعددة اللغات، خاصة للأجهزة محدودة الموارد. يجمع النموذج بين الكفاءة الحسابية والأداء العالي عبر مجموعة واسعة من المهام واللغات، مما يجعله أداة واعدة لتطبيقات الذكاء الاصطناعي في فهم المحتوى المرئي والنصي حول العالم.
المصدر: MarkTechPost AI | تغطية حصرية من AI Tools Oasis

نقدم لك أحدث الأخبار والتحليلات في عالم الذكاء الاصطناعي بدقة ومصداقية. تابعنا للحصول على كل جديد.
أعلنت Google DeepMind عن استثمار بقيمة 75 مليون دولار في شراكة مع استوديو A24 السينمائي، بهدف تطوير أدوات ذكاء اصطناعي للإبداع السينمائي. تهدف الصفقة إلى دمج تقنيات الذكاء الاصطناعي في صناعة الأفلام، مما يثير تساؤلات حول مستقبل الإبداع في هوليوود.
تسعى نفيديا لتقليل استهلاك المياه في مراكز البيانات، لكن خبراء يرون أن هذا لا يعالج جذور مشكلة المياه المرتبطة بتقنيات الذكاء الاصطناعي. المقال يستعرض جهود الشركة وتحديات الاستدامة البيئية في قطاع التكنولوجيا.
أكدت شركة جروق (Groq) لصناعة رقاقات الذكاء الاصطناعي جمعها 650 مليون دولار في جولة تمويلية جديدة، بالتزامن مع إعادة هيكلة فريق العمل بعد فشل صفقة استحواذ محتملة من إنفيديا بقيمة 20 مليار دولار. تهدف الشركة لتوسيع إنتاج رقاقات LPU المنافسة لـ Nvidia H100.