ما هي مشكلة الهلوسة في نماذج الذكاء الاصطناعي؟

الهلوسة هي عندما ينتج النموذج معلومات تبدو مقنعة لكنها غير صحيحة أو غير مبنية على البيانات المدخلة، مما يقلل الموثوقية.

كيف يقيس مقياس الأمانة الدلالية (SF) الدقة؟

يقيس SF مدى التزام الإجابة بالسياق من خلال حساب التباعد الإحصائي بين تمثيل هدف السؤال وتمثيل الإجابة الفعلية على المواضيع المشتركة.

ما فائدة المقياسين SF و SEP للمطورين والمستخدمين؟

تمكنهم من تقييم واختيار النماذج الأكثر دقة وأمانة، والتحكم في جودة المخرجات، خاصة في المجالات الدقيقة مثل التحليل المالي أو الطبي.

مقاييس جديدة لضبط الذكاء الاصطناعي: تقليل الهلوسة وزيادة الدقة الدلالية...

مقاييس جديدة لمواجهة هلوسة الذكاء الاصطناعي

في تطور مهم لمواجهة تحديات الهلوسة في نماذج اللغة الكبيرة (LLMs)، قدم باحثون ورقة علمية جديدة على منصة arXiv تقترح إطاراً مبتكراً لتقييم الدقة الدلالية وأمانة النموذج للمهمة الموكلة إليه. تعتمد المقاييس الجديدة على مفاهيم من نظرية المعلومات والديناميكا الحرارية، وتقدم أدوات موضوعية لقياس مدى التزام النموذج بالسياق المقدم له دون ابتكار أو تحريف.

كيف تعمل المقاييس المقترحة؟

يعامل الإطار المقترح نموذج اللغة الكبيرة على أنه محرك معلومات ثنائي، حيث تعمل الطبقات المخفية كـ "شيطان ماكسويل" يتحكم في تحويل السياق (C) إلى إجابة (A) عبر المطالبة (Q). يتم نمذجة ثلاثيات السؤال-السياق-الإجابة (QCA) كتوزيعات احتمالية عبر مواضيع مشتركة. يتم تمثيل تحولات الموضوعات من السياق إلى السؤال والإجابة بواسطة مصفوفتي انتقال (Q و A) ترمزان على التوالي لهدف الاستعلام والنتيجة الفعلية.

يقيس مقياس الأمانة الدلالية (SF) مدى أمانة أي ثلاثية QCA من خلال تباعد كولباك-ليبلر (KL) بين هاتين المصفوفتين. يتم استنتاج المصفوفتين في وقت واحد عبر التحسين المحدب لهذا التباعد، ويتم الحصول على القيمة النهائية للمقياس عن طريق تعيين الحد الأدنى من التباعد على الفترة الوحدة [0,1]، حيث تشير الدرجات الأعلى إلى أمانة أكبر.

بالإضافة إلى ذلك، يقترح الباحثون مقياساً ثانوياً يعتمد على الديناميكا الحرارية يسمى إنتاج الإنتروبيا الدلالية (SEP) في توليد الإجابات، ويظهرون أن الأمانة العالية تعني بشكل عام إنتاج إنتروبيا منخفض. يمكن استخدام مقياسي SF و SEP معاً أو بشكل منفصل لتقييم نماذج LLM والتحكم في الهلوسة.

تطبيق عملي ونتائج واعدة

تم توضيح فعالية الإطار المقترح من خلال تطبيقه على مهمة تلخيص التقارير المالية للشركات (تقرير SEC 10-K)، مما يظهر قدرته على تمييز الردود الدقيقة من تلك التي تعاني من الهلوسة أو الانحراف عن السياق. تفتح هذه المقاييس الباب أمام تطوير نماذج لغة أكثر موثوقية وشفافية، خاصة في التطبيقات الحساسة التي تتطلب دقة عالية والتزاماً تاماً بالمعلومات المصدر.

المصدر: arXiv AI Papers | تغطية حصرية من AI Tools Oasis

مقاييس جديدة لضبط الذكاء الاصطناعي: تقليل الهلوسة وزيادة الدقة الدلالية

مقاييس جديدة لمواجهة هلوسة الذكاء الاصطناعي

كيف تعمل المقاييس المقترحة؟

تطبيق عملي ونتائج واعدة

أسئلة شائعة

فريق AI Tools Oasis

أخبار ذات صلة

OpenAI تواصل تطوير تطبيقها الشامل الخارق: ما الجديد؟

نوتيون تستعيد الوصول إلى أنثروبيك بعد انقطاع الخدمة

هل نشهد فجر انهيار الرموز الرقمية؟ تحذيرات من Tokenpocalypse