المخاوف التي أثيرت على الرصاص الذي تم تدريب AI على 57 مليون سجلات طبية في NHS

يستخدم نموذج الذكاء الاصطناعى البصيرة بيانات مأخوذة من سجلات الطبيب والأسرة في إنجلترا
هانا مكاي/رويترز/بلومبرج عبر غيتي إيمس
وادعى أن نموذج الذكاء الاصطناعي المدربين على البيانات الطبية التي تضم 57 مليون شخص استخدموا الخدمة الصحية الوطنية في إنجلترا يمكن أن تساعد الأطباء ذات يوم في التنبؤ بأمراض أو توقعات الاستشفاء. ومع ذلك ، يقول باحثون آخرون أنه لا يزال هناك مخاوف كبيرة من الخصوصية والبيانات حول هذا الاستخدام على نطاق واسع للبيانات الصحية ، في حين يقول المهندسون المعماريون في الذكاء الاصطناعى أنهم لا يستطيعون ضمان أنه لن يكشف عن غير قصد عن بيانات المريض الحساسة.
تم تطوير النموذج ، المسمى Foresight ، لأول مرة في عام 2023. وقد استخدم تلك النسخة الأولية GPT-3 من Openai ، ونموذج اللغة الكبير (LLM) خلف الإصدار الأول من ChatGPT ، وتم تدريبه على 1.5 مليون سجل للمريض الحقيقي من مستشفيين في لندن.
الآن ، قام كريس توملينسون في جامعة كوليدج في لندن وزملاؤه بتوسيع نطاق البصر لإنشاء ما يقولونه هو أول “نموذج من الذكاء الاصطناعي للبيانات الصحية الوطنية” وأكبره من نوعه.
يستخدم Foresight ثماني مجموعات بيانات مختلفة من المعلومات الطبية التي تم جمعها بشكل روتيني من قبل NHS في إنجلترا بين نوفمبر 2018 إلى ديسمبر 2023 وتستند إلى Meta Open Open Open Llm Lama 2. وتشمل مجموعات البيانات هذه المواعيد الخارجية ، وزيارات المستشفيات ، وبيانات التطعيم والسجلات ، والتي تضم ما مجموعه 10 مليارات أحداث صحية مختلفة ل 57 مليون شخص في كل شخص في England.
يقول توملينسون إن فريقه لا يطلق معلومات حول مدى أداء التبصر لأن النموذج لا يزال يجري اختباره ، لكنه يدعي أنه يمكن استخدامه في يوم من الأيام للقيام بكل شيء من إجراء تشخيصات فردية إلى التنبؤ بالاتجاهات الصحية المستقبلية الواسعة ، مثل المستشفيات أو النوبات القلبية. وقال في مؤتمر صحفي في 6 مايو: “إن الإمكانات الحقيقية للبصيرة هي التنبؤ بمضاعفات المرض قبل حدوثها ، مما يمنحنا نافذة قيمة للتدخل مبكرًا ، وتمكين التحول نحو المزيد من الرعاية الصحية الوقائية على نطاق واسع”.
على الرغم من أن الفوائد المحتملة لم يتم دعمها بعد ، إلا أن هناك بالفعل مخاوف بشأن تغذية البيانات الطبية للأشخاص إلى الذكاء الاصطناعي على نطاق واسع. يصر الباحثون على أن جميع السجلات “غير محددة” قبل استخدامها لتدريب الذكاء الاصطناعي ، ولكن مخاطر أن يكون شخص ما قادر على استخدام الأنماط في البيانات لإعادة تحديد السجلات يتم تسجيلها جيدًا ، خاصة عندما يتعلق الأمر بمجموعات البيانات الكبيرة.
يقول لوك روتشر من جامعة أكسفورد: “بناء نماذج من الذكاء الاصطناعى القوية التي تحمي خصوصية المريض مشكلة علمية مفتوحة ، لم يتم حلها”. “إن ثراء البيانات التي تجعلها ذات قيمة بالنسبة لمنظمة العفو الدولية تجعل من الصعب للغاية عدم الكشف عن هويتها. يجب أن تظل هذه النماذج تحت التحكم الصارم في NHS حيث يمكن استخدامها بأمان.”
وقال مايكل تشابمان في NHS Digital ، متحدثًا في المؤتمر الصحفي: “يتم إلغاء تحديد البيانات التي تدخل النموذج ، وبالتالي تتم إزالة المعرفات المباشرة”. لكن تشابمان ، الذي يشرف على البيانات المستخدمة لتدريب التبصر ، اعترف بأن هناك دائمًا خطر إعادة تحديد هوية: “من الصعب للغاية مع بيانات صحية غنية لإعطاء اليقين بنسبة 100 في المائة أنه لا يمكن رصد شخص ما في مجموعة البيانات هذه.”
لتخفيف هذا المخاطر ، قال تشابمان إن الذكاء الاصطناعى يعمل ضمن بيئة بيانات NHS “الآمنة” التي تم بناؤها حسب الطلب لضمان عدم تسرب المعلومات من النموذج ولا يمكن الوصول إليها إلا للباحثين المعتمدين. وقال توملينسون إن خدمات الويب لشركة Amazon و Data DataBricks قدمت أيضًا “البنية التحتية الحسابية” ، لكنها لا تستطيع الوصول إلى البيانات.
تقول Yves-Alexandre de Montjoye في Imperial College London أن إحدى الطرق للتحقق مما إذا كانت النماذج يمكن أن تكشف عن معلومات حساسة هي التحقق مما إذا كان بإمكانهم حفظ البيانات التي شوهدت أثناء التدريب. عندما سئل من قبل عالم جديد ما إذا كان فريق البصيرة قد أجرى هذه الاختبارات ، قال توملينسون إنها لم تفعل ذلك ، لكنها كانت تبحث في ذلك في المستقبل.
تقول كارولين جرين في جامعة أكسفورد ، إن استخدام مجموعة بيانات شاسعة دون التواصل مع الناس يمكن أن يضعف ثقة الجمهور ، كما تقول كارولين جرين في جامعة أكسفورد. “حتى لو كان مجهول الهوية ، فهذا شيء يشعر به الناس بقوة شديدة من وجهة نظر أخلاقية ، لأن الناس يرغبون عادة في الاستمرار في التحكم في بياناتهم ويريدون معرفة إلى أين تسير الأمور.”
لكن عناصر التحكم الحالية تتيح للناس فرصة ضئيلة لإلغاء الاشتراك في بياناتهم التي يتم استخدامها من خلال التبصر. جميع البيانات المستخدمة لتدريب النموذج تأتي من مجموعات بيانات NHS التي تم جمعها على المستوى الوطني ، ولأنها “تم إلغاء تحديدها” ، فإن آليات إلغاء الاشتراك الحالية لا تنطبق ، كما يقول متحدث باسم NHS إنجلترا ، على الرغم من أن الأشخاص الذين اختاروا عدم تبادل البيانات من طبيب الأسرة لن يتغذى على هذا النموذج.
بموجب لائحة حماية البيانات العامة (GDPR) ، يجب أن يكون لدى الأشخاص خيار سحب الموافقة على استخدام بياناتهم الشخصية ، ولكن نظرًا للطريقة التي يتم بها تدريب LLMs مثل Foresialt ، لا يمكن إزالة سجل واحد من أداة AI. يقول المتحدث الرسمي باسم NHS England: “نظرًا لأن البيانات المستخدمة لتدريب النموذج مجهولة الهوية ، فإنها لا تستخدم البيانات الشخصية وبالتالي لن يتم تطبيقها”.
بالضبط كيف ينبغي أن يعالج الناتج المحلي الإجمالي استحالة إزالة البيانات من LLM مسألة قانونية غير مختبرة ، لكن موقع مكتب مفوض المعلومات في المملكة المتحدة ينص على أنه لا ينبغي استخدام البيانات “غير المحددة” كمرادف للبيانات المجهولة. “هذا لأن قانون حماية البيانات في المملكة المتحدة لا يحدد المصطلح ، لذلك يمكن أن يؤدي استخدامه إلى الارتباك”.
يقول توملينسون إن الموقف القانوني أكثر تعقيدًا لأن التبصر يتم استخدامه حاليًا فقط للبحث المتعلق بـ Covid-19. هذا يعني استثناءات لقوانين حماية البيانات التي تم سنها أثناء الوباء ، كما لا تزال سام سميث في MedConfidential ، وهي منظمة خصوصية للبيانات في المملكة المتحدة. يقول: “من المؤكد أن من المؤكد أن AI من الذكاء الاصطناعى Covid فقط مضمّنة فيه ، والتي لا يمكن السماح بها من المختبر”. “يجب أن يكون للمرضى السيطرة على كيفية استخدام بياناتهم.”
في نهاية المطاف ، فإن الحقوق والمسؤوليات المتنافسة حول استخدام البيانات الطبية ل AI تترك البصيرة في وضع غير مؤكد. يقول جرين: “هناك مشكلة في ذلك عندما يتعلق الأمر بتطوير الذكاء الاصطناعي ، حيث يكون الأخلاق والناس فكرة ثانية ، وليس نقطة البداية”. “لكن ما نحتاجه هو البشر ويجب أن يكون الأخلاق نقطة البداية ، ثم تأتي التكنولوجيا”.
تم تعديل المادة في 7 مايو 2025
لقد نسبنا بشكل صحيح التعليقات التي أدلى بها متحدث باسم NHS England
الموضوعات: