كشفت جوجل عن نموذجين جديدين هما تيتانز وميراس لإعادة تصور نمذجة السياقات الطويلة. يجمع تيتانز بين الذاكرة قصيرة المدى للانتباه وذاكرة عصبية عميقة طويلة المدى تتعلم أثناء الاختبار، بينما يقدم ميراس إطاراً موحداً للنماذج التسلسلية كذاكرة ترابطية.
تطرح جوجل ريسيرش رؤية جديدة لما بعد نماذج المحولات (Transformers) عبر مشروعي تيتانز (Titans) وميراس (MIRAS)، بهدف منح نماذج التسلسل ذاكرة طويلة المدى قابلة للاستخدام مع الحفاظ على التدريب المتوازي والاستدلال شبه الخطي. يأتي هذا الابتكار لمعالجة قيود النماذج الحالية، حيث تزداد تكلفة الانتباه القياسي تربيعياً مع طول السياق، بينما تفقد النماذج الخطية الكفؤة المعلومات في التسلسلات الطويلة جداً.
يقدم تيتانز بنية معمارية ملموسة تضيف ذاكرة عصبية عميقة إلى هيكل محولات. يعمل الانتباه كذاكرة قصيرة المدى دقيقة على النافذة الحالية، بينما توفر وحدة عصبية منفصلة ذاكرة طويلة المدى تتعلم أثناء وقت الاختبار. تستخدم تيتانز مقياس "المفاجأة" القائم على التدرج لتخزين الرموز غير المتوقعة وتجاهل المتوقع منها. من الناحية المعمارية، يستخدم تيتانز ثلاثة فروع للذاكرة: فرع أساسي للتعلم في السياق، وفرع ذاكرة سياقية تتعلم من التسلسل الحديث، وفرع ذاكرة دائمة بأوزان ثابتة تشفر معرفة ما قبل التدريب.
أما ميراس فهو إطار عمل عام ينظر إلى معظم نماذج التسلسل الحديثة كحالات من التحسين عبر الإنترنت لذاكرة ترابطية. يعرّف أي نموذج تسلسلي من خلال أربعة خيارات تصميم: هيكل الذاكرة، والتحيز الانتباهي، وبوابة الاحتفاظ، وخوارزمية الذاكرة. من خلال هذه العدسة، يستعيد ميراس عدة عائلات من النماذج ويسمح ببناء نماذج جديدة خالية من الانتباه مثل مونيتا ويااد وميمورا.
في النمذجة اللغوية ومهام التفكير المنطقي مثل C4 وWikiText وHellaSwag، تفوقت بنية تيتانز على أحدث النماذج الخطية المتكررة مثل Mamba-2 وGated DeltaNet ونماذج Transformer++ ذات الحجم المماثل. في مهمة استرجاع السياق الطويل المتطرف (BABILong)، حيث يتم توزيع الحقائق عبر مستندات طويلة جداً، تفوق تيتانز على جميع النماذج الأساسية، بما في ذلك النماذج الكبيرة جداً مثل GPT-4، مع استخدام عدد أقل من المعلمات، ووصل إلى نوافذ سياق تتجاوز 2,000,000 رمز. كما حافظ تيتانز على التدريب المتوازي الكفؤ والاستدلال الخطي السريع.
يمثل تيتانز وميراس نقلة نوعية في معالجة السياقات الطويلة، حيث يجمعان بين دقة الذاكرة قصيرة المدى وقدرة الذاكرة طويلة المدى في إطار موحد وكفؤ. تفتح هذه الابتكارات الباب أمام نماذج ذكاء اصطناعي أكثر قدرة على فهم التفاعلات المعقدة والطويلة في النصوص والجينوم وغيرها من البيانات التسلسلية، مع الحفاظ على الكفاءة الحسابية. يُظهر الأداء المتفوق في المهام المعيارية إمكانات هذين النموذجين ليكونا حجر الأساس للجيل القادم من نماذج اللغة الكبيرة.
المصدر: MarkTechPost AI | تغطية حصرية من AI Tools Oasis

Bringing you the latest news and analysis in the world of Artificial Intelligence with accuracy and credibility. Follow us for all updates.

OpenAI is advancing its ambitious super app project, aiming to integrate advanced AI capabilities into a single, multifunctional platform. This development is part of the company's strategy to expand services and deliver a unified user experience. Discover the full details and expected impact of this move.

Notion has restored access to its Anthropic AI integration after a 4-hour outage disrupted users relying on Claude-powered features. The incident highlights the growing dependency on AI productivity tools and raises questions about infrastructure stability. All user data remained secure during the disruption.

A new report from TechCrunch AI warns of a potential 'Tokenpocalypse'—a massive collapse of digital tokens due to oversupply. With over 80% of new tokens losing 90% of their value, the market faces a crisis reminiscent of the dot-com bubble. This analysis explores the risks, impacts, and how investors can protect themselves.