الطريقة التي ندرب بها AIS تجعلهم أكثر عرضة لتفريغ الثور

قد تشجع بعض تقنيات تدريب الذكاء الاصطناعي النماذج على أن تكون غير صادقة
Cravetiger/Getty Images
يبدو أن الطرق الشائعة المستخدمة لتدريب نماذج الذكاء الاصطناعي تزيد من ميلها إلى إعطاء إجابات مضللة ، وفقًا للباحثين الذين يهدفون إلى إنتاج “أول تحليل منهجي لهراء الآلة”.
من المعروف على نطاق واسع أن نماذج اللغة الكبيرة (LLMs) تميل إلى توليد معلومات خاطئة – أو “الهلوسة” – لكن هذا مجرد مثال ، كما يقول Jaime Fernández Fisac في جامعة برينستون. يعرّف هو وزملاؤه الهراء بأنه “خطاب يهدف إلى التلاعب بمعتقدات الجمهور ، يتم تسليمهم بتجاهل لقيمة الحقيقة”.
يقول Fisac: “لقد وجد تحليلنا أن مشكلة الهراء في نماذج اللغة الكبيرة خطيرة للغاية واسعة النطاق”.
قام الفريق بتقسيم هذه الحالات إلى خمس فئات: الخطاب الفارغ ، مثل “هذه السيارة الحمراء تجمع بين الأسلوب والسحر والمغامرة التي تؤسر الجميع” ؛ كلمات ابن عرس – بيانات غير مؤكدة مثل “الدراسات تشير إلى أن منتجاتنا قد تساعد في تحسين النتائج في بعض الحالات” ؛ paltering – باستخدام بيانات صادقة لإعطاء انطباع مضلل ؛ مطالبات غير التحقق منها ؛ و sycophancy.
لقد درسوا ثلاث مجموعات بيانات تضم آلاف الاستجابات التي تم إنشاؤها بواسطة الذكاء الاصطناعى إلى مجموعة واسعة من المطالبات ، من نماذج بما في ذلك GPT-4 و Gemini و Llama. تحتوي مجموعة بيانات واحدة على مجموعة من الاستفسارات المصممة لاختبار هراء عندما يُطلب من AIS تقديم إرشادات أو توصيات ، في حين تضمنت مجموعات البيانات الأخرى أسئلة حول التسوق عبر الإنترنت والقضايا السياسية.
استخدم Fisac وزملاؤه لأول مرة LLM لتحديد ما إذا كانت الردود التي تنطوي عليها أي من الفئات الخمس ، ثم حصلت على المتطوعين للتحقق من أن أحكام الذكاء الاصطناعى تتماشى مع المصادر البشرية.
وجد الفريق أن أخطر القضايا المتعلقة بالحقيقة بدا أنها تنشأ نتيجة لطريقة التدريب المعروفة باسم تعلم التعزيز من ردود الفعل البشرية. تهدف هذه التقنية إلى جعل استجابات الماكينة أكثر فائدة من خلال إعطاء ردود الفعل الفورية LLM على ردودها.
لكن هذا النهج يمثل مشكلة ، كما يقول Fisac ، لأنه يجعل النماذج تعطي الأولوية للموافقة البشرية الفورية والمساعدة المتصورة ، والتي “في بعض الأحيان تتعارض مع قول الحقيقة”.
“من يحب أن يسمع أخبارًا سيئة أو ترفيه عن دحض طويل ودقيق لشيء يبدو صحيحًا بشكل واضح؟” يقول فيساك. “من خلال محاولة الالتزام بمقياس السلوك الجيد الذي نقدمه لهم ، تتعلم النماذج تخفيض الحقيقة لصالح الاستجابات الواثقة والبلاغة ، حتى يتمكنوا من تأمين موافقتنا”.
ووجدت الدراسة أن التعلم التعزيز من ردود الفعل البشرية زاد بشكل كبير من سلوكيات الهراء: ارتفع الخطاب الفارغ بنسبة حوالي 40 في المائة ، ويتأرجح بنسبة ما يقرب من 60 في المائة ، وكلمات ابن عرس بأكثر من ربع ، ومطالبات لم يتم التحقق منها بأكثر من النصف.
يقول عضو الفريق كايك ليانغ ، إن الزيادة في Paltering ضارة بشكل خاص. عندما كان النموذج غير مؤكد ما إذا كان لدى المنتج ميزة مطلوبة ، قفزت المطالبات الإيجابية الخادعة من خمس إلى أكثر من ثلاثة أرباع بعد التدريب البشري.
يقول ليانج: “إن الهراء الآخر هو أن الهراء كان شائعًا بشكل خاص في المناقشات السياسية ، حيث” يلجأ نماذج الذكاء الاصطناعى إلى لغة غامضة وغامضة لتجنب الالتزام بالبيانات الملموسة “.
ووجد الباحثون أن AIS من المرجح أيضًا أن تتصرف بهذه الطريقة عندما يكون هناك تضارب في المصالح ، لأن النظام يخدم أطراف متعددة ، مثل الشركة وعملائها.
قد تكون طريقة التغلب على المشكلة هي الانتقال إلى نموذج “ردود الفعل بعد فوات الأوان”. بدلاً من طلب ملاحظات فورية بعد إخراج نموذج الذكاء الاصطناعى ، يجب على النظام أولاً إنشاء محاكاة معقولة لما قد يحدث إذا كان المستخدم يتصرف على المعلومات المستلمة. بعد ذلك ، سيقدم النتيجة للمقيّم البشري للحكم.
يقول فيساك: “في النهاية ، أملنا هو أنه من خلال فهم أفضل للطرق الخفية ولكن المنهجية التي يمكن أن تهدف منظمة العفو الدولية إلى تضليلنا ، يمكننا توجيه الجهود المستقبلية نحو تطوير أنظمة الذكاء الاصطناعى الصادقة”.
دانييل تيغارد من جامعة سان دييغو ، الذي لم يشارك في الدراسة ، يشك في مناقشة LLMs ومخرجاتها في مثل هذه المصطلحات. يجادل بأنه لمجرد أن LLM ينتج هراء ، فهذا لا يعني أنه من المقبول أن يفعل ذلك عن عمد ، بالنظر إلى أن أنظمة الذكاء الاصطناعى ، كما هي في الوقت الحالي ، لا تشرع في خداعنا ولا تهتم بذلك.
يقول تيجارد: “السبب الرئيسي هو أن هذا الإطار يبدو أنه يتعارض مع بعض الاقتراحات المعقولة للغاية حول كيفية عدم التعايش مع هذه التقنيات ولا ينبغي أن نتعايش معها”. “قد يكون استدعاء الهراء طريقة أخرى لتجميع هذه الأنظمة ، والتي بدورها قد تسهم بشكل جيد في إمكاناتها الخادعة.”
الموضوعات:




