اقترح باحثون مقاييس جديدة غير خاضعة للإشراف لتقييم دقة نماذج اللغة الكبيرة (LLMs) في الالتزام بالمهام الموكلة إليها. تعتمد المقاييس على نظريات المعلومات والديناميكا الحرارية لقياس مدى أمانة النموذج في تحويل السياق إلى إجابات، مما يساعد في السيطرة على ظاهرة الهلوسة. تم اختبار الإطار المقترح على نماذج تلخيص التقارير المالية.
في تطور مهم لمواجهة تحديات الهلوسة في نماذج اللغة الكبيرة (LLMs)، قدم باحثون ورقة علمية جديدة على منصة arXiv تقترح إطاراً مبتكراً لتقييم الدقة الدلالية وأمانة النموذج للمهمة الموكلة إليه. تعتمد المقاييس الجديدة على مفاهيم من نظرية المعلومات والديناميكا الحرارية، وتقدم أدوات موضوعية لقياس مدى التزام النموذج بالسياق المقدم له دون ابتكار أو تحريف.
يعامل الإطار المقترح نموذج اللغة الكبيرة على أنه محرك معلومات ثنائي، حيث تعمل الطبقات المخفية كـ "شيطان ماكسويل" يتحكم في تحويل السياق (C) إلى إجابة (A) عبر المطالبة (Q). يتم نمذجة ثلاثيات السؤال-السياق-الإجابة (QCA) كتوزيعات احتمالية عبر مواضيع مشتركة. يتم تمثيل تحولات الموضوعات من السياق إلى السؤال والإجابة بواسطة مصفوفتي انتقال (Q و A) ترمزان على التوالي لهدف الاستعلام والنتيجة الفعلية.
يقيس مقياس الأمانة الدلالية (SF) مدى أمانة أي ثلاثية QCA من خلال تباعد كولباك-ليبلر (KL) بين هاتين المصفوفتين. يتم استنتاج المصفوفتين في وقت واحد عبر التحسين المحدب لهذا التباعد، ويتم الحصول على القيمة النهائية للمقياس عن طريق تعيين الحد الأدنى من التباعد على الفترة الوحدة [0,1]، حيث تشير الدرجات الأعلى إلى أمانة أكبر.
بالإضافة إلى ذلك، يقترح الباحثون مقياساً ثانوياً يعتمد على الديناميكا الحرارية يسمى إنتاج الإنتروبيا الدلالية (SEP) في توليد الإجابات، ويظهرون أن الأمانة العالية تعني بشكل عام إنتاج إنتروبيا منخفض. يمكن استخدام مقياسي SF و SEP معاً أو بشكل منفصل لتقييم نماذج LLM والتحكم في الهلوسة.
تم توضيح فعالية الإطار المقترح من خلال تطبيقه على مهمة تلخيص التقارير المالية للشركات (تقرير SEC 10-K)، مما يظهر قدرته على تمييز الردود الدقيقة من تلك التي تعاني من الهلوسة أو الانحراف عن السياق. تفتح هذه المقاييس الباب أمام تطوير نماذج لغة أكثر موثوقية وشفافية، خاصة في التطبيقات الحساسة التي تتطلب دقة عالية والتزاماً تاماً بالمعلومات المصدر.
المصدر: arXiv AI Papers | تغطية حصرية من AI Tools Oasis

نقدم لك أحدث الأخبار والتحليلات في عالم الذكاء الاصطناعي بدقة ومصداقية. تابعنا للحصول على كل جديد.

تواصل OpenAI العمل على تطبيقها الشامل الخارق الذي يهدف إلى دمج الذكاء الاصطناعي في منصة واحدة متعددة الوظائف. يأتي هذا التطور في إطار سعي الشركة لتوسيع نطاق خدماتها وتقديم تجربة مستخدم متكاملة. تعرف على التفاصيل الكاملة والتأثير المتوقع لهذه الخطوة.

أعلنت منصة نوتيون عن استعادة الوصول إلى خدمة أنثروبيك بعد انقطاع مؤقت أثر على المستخدمين. يأتي هذا الإجراء بعد ساعات من تعطل الخدمة، مما أثار تساؤلات حول استقرار التكامل بين أدوات الإنتاجية وخدمات الذكاء الاصطناعي. نستعرض تفاصيل الحادثة وتأثيرها على المستخدمين.

تتزايد المخاوف في عالم العملات الرقمية من ظاهرة تُعرف بـ Tokenpocalypse، حيث قد يؤدي تضخم عدد الرموز إلى انهيار السوق. تحليل TechCrunch يكشف عن علامات تحذيرية وتأثيرات محتملة على المستثمرين.