يقدس الهلوسة من الذكاء الاصطناعى سوءًا – وهم هنا للبقاء

تميل الأخطاء إلى ظهور محتوى تم إنشاؤه بواسطة الذكاء الاصطناعي
بول تايلور/غيتي الصور
حصلت AI chatbots من شركات التكنولوجيا مثل Openai و Google على ما يسمى بالترقيات المنطقية خلال الأشهر الماضية-من الناحية المثالية لجعلها أفضل في إعطاء الإجابات التي يمكننا الوثوق بها ، لكن الاختبارات الأخيرة تشير إلى أنها تعمل في بعض الأحيان أسوأ من النماذج السابقة. كانت الأخطاء التي ارتكبتها chatbots ، والمعروفة باسم “الهلوسة” ، مشكلة منذ البداية ، وأصبح من الواضح أننا قد لا نتخلص منها أبدًا.
الهلوسة عبارة عن مصطلح شامل لأنواع معينة من الأخطاء التي ارتكبتها نماذج اللغة الكبيرة (LLMS) التي تشبه أنظمة الطاقة مثل chatgpt من Openai أو Google’s Gemini. من المعروف باسم وصف الطريقة التي يقدمون بها في بعض الأحيان معلومات خاطئة على أنها صحيحة. ولكن يمكن أن يشير أيضًا إلى إجابة تم إنشاؤها بواسطة الذكاء الاصطناعى والتي تكون دقيقة في الواقع ، ولكنها ليست ذات صلة في الواقع بالسؤال الذي تم طرحه ، أو فشل في اتباع التعليمات بطريقة أخرى.
أظهر تقرير فني Openai الذي يقيم أحدث LLMs أن نماذج O3 و O4-MINI ، التي تم إصدارها في أبريل ، كان لها معدلات هلوسة أعلى بكثير من نموذج O1 السابق للشركة الذي صدر في أواخر عام 2024. على سبيل المثال ، عند تلخيص الحقائق المتاحة للجمهور حول الأشخاص ، مصنفة O3 33 في المائة من الوقت بينما كانت O4-MINI 48 في المائة من الوقت. بالمقارنة ، كان لدى O1 معدل الهلوسة 16 في المائة.
المشكلة لا تقتصر على Openai. يشير أحد المتصدرين الشهير من شركة Vectara التي تقوم بتقييم معدلات الهلوسة إلى بعض نماذج “التفكير”-بما في ذلك نموذج Deepseek-R1 من المطور Deepseek-يرتفع من رقمين في معدلات الهلوسة مقارنة بالنماذج السابقة من مطوريها. يمر هذا النوع من النماذج من خلال خطوات متعددة لإظهار خط التفكير قبل الرد.
يقول Openai إن عملية التفكير ليست مسؤولية. يقول متحدث باسم Openai: “إن الهلوسة ليست بطبيعتها أكثر انتشارًا في نماذج التفكير ، على الرغم من أننا نعمل بنشاط على تقليل معدلات الهلوسة المرتفعة التي رأيناها في O3 و O4-Mini”. “سنواصل أبحاثنا حول الهلوسة في جميع النماذج لتحسين الدقة والموثوقية.”
يمكن أن تخرج بعض التطبيقات المحتملة لـ LLMs عن طريق الهلوسة. لن يكون النموذج الذي يوضح باستمرار الأكاذيب ويتطلب التحقق من الحقائق مساعد باحث مفيد ؛ إن البوت القانوني الذي يستشهد بالقضايا الوهمية ستجعل المحامين في مشكلة ؛ إن وكيل خدمة العملاء الذي يدعي أن السياسات التي عفا عليها الزمن لا تزال نشطة سيخلق صداع للشركة.
ومع ذلك ، ادعت شركات الذكاء الاصطناعى في البداية أن هذه المشكلة ستتضح بمرور الوقت. في الواقع ، بعد إطلاقها لأول مرة ، تميل النماذج إلى الهلوسة أقل مع كل تحديث. لكن معدلات الهلوسة المرتفعة للإصدارات الحديثة تعقد تلك السرد – سواء كان المنطق على خطأ أم لا.
تصنف اللوحة المتصدرين في Vectara النماذج بناءً على اتساقها الواقعي في تلخيص المستندات التي يتم تقديمها. هذا أظهر أن “معدلات الهلوسة هي نفسها تقريبًا بالنسبة للتفكير مقابل النماذج غير المعدنية” ، على الأقل بالنسبة للأنظمة من Openai و Google ، كما يقول Forrest Sheng Bao في Vectara. لم تقدم Google تعليقًا إضافيًا. لأغراض المتصدرين ، فإن أرقام معدلات الهلوسة المحددة أقل أهمية من الترتيب العام لكل نموذج ، كما يقول BAO.
لكن هذا الترتيب قد لا يكون أفضل طريقة لمقارنة نماذج الذكاء الاصطناعي.
لسبب واحد ، فإنه يخلط بين أنواع مختلفة من الهلوسة. أشار فريق Vectara إلى أنه على الرغم من أن نموذج Deepseek-R1 هلوس 14.3 في المائة من الوقت ، فإن معظمها كانت “حميدة”: الإجابات التي يتم دعمها فعليًا عن طريق التفكير المنطقي أو المعرفة العالمية ، ولكنها لم تكن موجودة فعليًا في النص الأصلي الذي طُلب من الروبوت تلخيصه. لم يقدم Deepseek تعليقًا إضافيًا.
مشكلة أخرى في هذا النوع من الترتيب هي أن الاختبار بناءً على تلخيص النص “لا يقول شيئًا عن معدل المخرجات غير الصحيحة متى [LLMs] تقول إميلي بندر من جامعة واشنطن ، وهي تقول إن نتائج المتصدرين قد لا تكون أفضل طريقة للحكم على هذه التكنولوجيا لأن LLMs لم تكن مصممة خصيصًا لتلخيص النصوص.
تعمل هذه النماذج بشكل متكرر على الإجابة على سؤال “ما هي الكلمة التالية المحتملة” لصياغة إجابات للمطالبات ، وبالتالي فهي لا تعالج المعلومات بالمعنى المعتاد في محاولة فهم المعلومات المتوفرة في مجموعة من النصوص. لكن العديد من شركات التكنولوجيا لا تزال تستخدم مصطلح “الهلوسة” بشكل متكرر عند وصف أخطاء الإخراج.
يقول بندر: “الهلوسة” كمصطلح يمثل مشكلة مضاعفة “. “من ناحية ، يشير إلى أن المخرجات غير الصحيحة هي انحراف ، وربما يمكن تخفيفه ، في حين أن بقية الوقت تتسع على أساسها وموثوقة وجديرة بالثقة. [and] نماذج اللغة الكبيرة لا تتصور أي شيء. “
يقول Arvind Narayanan في جامعة برينستون إن القضية تتجاوز الهلوسة. ترتكب النماذج أيضًا أحيانًا أخطاء أخرى ، مثل الرسم على مصادر غير موثوقة أو استخدام معلومات قديمة. وببساطة لم يساعد رمي المزيد من بيانات التدريب وقوة الحوسبة في الذكاء الاصطناعي بالضرورة.
النتيجة هي ، قد يتعين علينا أن نعيش مع الذكاء الاصطناعي المعرض للخطأ. وقال نارايانان في منشور على وسائل التواصل الاجتماعي إنه من الأفضل في بعض الحالات استخدام مثل هذه النماذج فقط للمهام عندما لا يزال فحص الإجابة على الحقائق أسرع من إجراء البحث بنفسك. ولكن قد تكون أفضل خطوة هي تجنب الاعتماد تمامًا على مفاتيح الدردشة الذكرية لتقديم معلومات واقعية ، كما يقول بندر.
الموضوعات: