يمكن للمعلومات الخاطئة المتعلقة باللقاحات أن تسمم الذكاء الاصطناعي بسهولة، ولكن هناك حل لذلك

من السهل نسبيًا تسميم مخرجات برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي
نيكولاس ميترلينك / بيلجا ماج / وكالة الصحافة الفرنسية عبر Getty Images
تعاني روبوتات الدردشة التي تعمل بالذكاء الاصطناعي بالفعل من مشكلة التضليل، ومن السهل نسبياً تسميم نماذج الذكاء الاصطناعي هذه عن طريق إضافة القليل من المعلومات الطبية الخاطئة إلى بيانات التدريب الخاصة بها. ولحسن الحظ، لدى الباحثين أيضًا أفكار حول كيفية اعتراض المحتوى الذي ينتجه الذكاء الاصطناعي والذي يكون ضارًا طبيًا.
قام دانيال ألبر من جامعة نيويورك وزملاؤه بمحاكاة هجوم تسميم البيانات، والذي يحاول التلاعب بمخرجات الذكاء الاصطناعي عن طريق إفساد بيانات التدريب الخاصة به. أولاً، استخدموا خدمة الدردشة الآلية OpenAI – ChatGPT-3.5-turbo – لإنشاء 150 ألف مقالة مليئة بالمعلومات الطبية الخاطئة حول الطب العام وجراحة الأعصاب والأدوية. لقد أدخلوا تلك المعلومات الطبية الخاطئة التي أنشأها الذكاء الاصطناعي في إصداراتهم التجريبية لمجموعة بيانات تدريب الذكاء الاصطناعي الشهيرة.
بعد ذلك، قام الباحثون بتدريب ستة نماذج لغوية كبيرة – تشبه في الهندسة المعمارية نموذج GPT-3 الأقدم من OpenAI – على تلك الإصدارات التالفة من مجموعة البيانات. لقد جعلوا النماذج الفاسدة تولد 5400 عينة من النصوص، والتي قام خبراء الطب البشري بمراجعتها بعد ذلك للعثور على أي معلومات طبية خاطئة. كما قارن الباحثون نتائج النماذج المسمومة مع نتائج نموذج أساسي واحد لم يتم تدريبه على مجموعة البيانات التالفة. ولم تستجب OpenAI لطلب التعليق.
أظهرت تلك التجارب الأولية أن استبدال 0.5% فقط من مجموعة بيانات تدريب الذكاء الاصطناعي بمجموعة واسعة من المعلومات الطبية الخاطئة يمكن أن يجعل نماذج الذكاء الاصطناعي المسمومة تولد محتوى أكثر ضررًا طبيًا، حتى عند الإجابة على أسئلة حول مفاهيم لا علاقة لها بالبيانات التالفة. على سبيل المثال، رفضت نماذج الذكاء الاصطناعي المسمومة بشكل قاطع فعالية لقاحات كوفيد-19 ومضادات الاكتئاب بعبارات لا لبس فيها، وذكرت كذبا أن عقار الميتوبرولول – المستخدم لعلاج ارتفاع ضغط الدم – يمكن أن يعالج أيضا الربو.
يقول ألبير: “باعتباري طالب طب، لدي بعض الحدس حول قدراتي – وأعرف بشكل عام عندما لا أعرف شيئًا ما”. “لا تستطيع النماذج اللغوية القيام بذلك، على الرغم من الجهود الكبيرة المبذولة من خلال المعايرة والمواءمة.”
وفي تجارب إضافية، ركز الباحثون على المعلومات الخاطئة حول التحصين واللقاحات. ووجدوا أن إفساد ما يصل إلى 0.001% من بيانات تدريب الذكاء الاصطناعي باستخدام معلومات مضللة عن اللقاحات يمكن أن يؤدي إلى زيادة بنسبة 5% تقريبًا في المحتوى الضار الناتج عن نماذج الذكاء الاصطناعي المسمومة.
تم تنفيذ الهجوم الذي يركز على اللقاح باستخدام 2000 مقالة ضارة فقط، تم إنشاؤها بواسطة ChatGPT بتكلفة 5 دولارات. ووفقاً للباحثين، فإن هجمات تسميم البيانات المماثلة التي تستهدف حتى أكبر نماذج اللغات حتى الآن يمكن تنفيذها بأقل من 1000 دولار.
كأحد الحلول الممكنة، طور الباحثون خوارزمية للتحقق من الحقائق يمكنها تقييم مخرجات أي نموذج للذكاء الاصطناعي بحثًا عن معلومات طبية خاطئة. ومن خلال فحص العبارات الطبية التي تم إنشاؤها بواسطة الذكاء الاصطناعي ومقارنتها بالرسم البياني للمعرفة الطبية الحيوية، تمكنت هذه الطريقة من اكتشاف أكثر من 90% من المعلومات الطبية الخاطئة الناتجة عن النماذج المسمومة.
لكن خوارزمية التحقق من الحقائق المقترحة ستظل بمثابة تصحيح مؤقت أكثر من كونها حلاً كاملاً للمعلومات الطبية الخاطئة الناتجة عن الذكاء الاصطناعي، كما يقول ألبير. في الوقت الحالي، يشير إلى أداة أخرى مجربة وحقيقية لتقييم روبوتات الدردشة الطبية المعتمدة على الذكاء الاصطناعي. ويقول: “يجب أن تكون التجارب المعشاة ذات الشواهد جيدة التصميم هي المعيار لنشر أنظمة الذكاء الاصطناعي هذه في أماكن رعاية المرضى”.
المواضيع:
- الذكاء الاصطناعي/
- التكنولوجيا الطبية