Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
منوعات

تفشل روبوتات الدردشة المدعمة بالذكاء الاصطناعي في تشخيص المرضى من خلال التحدث معهم


لا تستدعي “طبيبك” المفضل في مجال الذكاء الاصطناعي حتى الآن

جوست_سوبر / جيتي إيماجيس

تحقق نماذج الذكاء الاصطناعي المتقدمة نتائج جيدة في الاختبارات الطبية المهنية، ولكنها لا تزال تفشل في واحدة من أهم مهام الطبيب: التحدث مع المرضى لجمع المعلومات الطبية ذات الصلة وتقديم تشخيص دقيق.

يقول براناف راجبوركار من جامعة هارفارد: “بينما تُظهر النماذج اللغوية الكبيرة نتائج مبهرة في اختبارات الاختيار من متعدد، فإن دقتها تنخفض بشكل كبير في المحادثات الديناميكية”. “تكافح النماذج بشكل خاص مع المنطق التشخيصي المفتوح.”

أصبح ذلك واضحًا عندما طور الباحثون طريقة لتقييم القدرات المنطقية لنموذج الذكاء الاصطناعي السريري بناءً على محاكاة المحادثات بين الطبيب والمريض. واستند “المرضى” إلى 2000 حالة طبية مستمدة في المقام الأول من امتحانات المجلس الطبي الأمريكي المهنية.

تقول شريا جوهري، التي تعمل أيضًا في جامعة هارفارد: “إن محاكاة تفاعلات المريض تتيح تقييم مهارات تسجيل التاريخ الطبي، وهو عنصر حاسم في الممارسة السريرية، ولا يمكن تقييمه باستخدام المقالات القصيرة عن الحالة”. وتقول إن معيار التقييم الجديد، المسمى CRAFT-MD، “يعكس أيضًا سيناريوهات من الحياة الواقعية، حيث قد لا يعرف المرضى ما هي التفاصيل التي يجب مشاركتها، وقد يكشفون فقط عن المعلومات المهمة عندما تطرح عليهم أسئلة محددة”.

يعتمد معيار CRAFT-MD نفسه على الذكاء الاصطناعي. لعب نموذج GPT-4 الخاص بشركة OpenAI دور “الذكاء الاصطناعي المريض” في المحادثة مع “الذكاء الاصطناعي السريري” الذي يتم اختباره. ساعد GPT-4 أيضًا في تصنيف النتائج من خلال مقارنة تشخيص الذكاء الاصطناعي السريري بالإجابة الصحيحة لكل حالة. قام خبراء الطب البشري بالتحقق من هذه التقييمات. قاموا أيضًا بمراجعة المحادثات للتحقق من دقة الذكاء الاصطناعي للمريض ومعرفة ما إذا كان الذكاء الاصطناعي السريري قد تمكن من جمع المعلومات الطبية ذات الصلة.

أظهرت تجارب متعددة أن أربعة نماذج لغوية كبيرة رائدة – نماذج GPT-3.5 وGPT-4 من OpenAI، ونموذج Llama-2-7b من Meta، ونموذج Mistral-v2-7b من Mistral AI – كان أداؤها أسوأ بكثير في المعيار القائم على المحادثة مما كان عليه الحال عندما إجراء التشخيص بناءً على ملخصات مكتوبة للحالات. ولم تستجب OpenAI وMeta وMistral AI لطلبات التعليق.

على سبيل المثال، كانت دقة تشخيص GPT-4 مثيرة للإعجاب بنسبة 82% عندما تم تقديمها مع ملخصات حالة منظمة وسمح لها باختيار التشخيص من قائمة إجابات متعددة الخيارات، وانخفضت إلى ما يقل قليلاً عن 49% عندما لم يكن لديها خيارات متعددة الخيارات. ولكن عندما اضطرت إلى إجراء تشخيصات من محادثات محاكاة للمرضى، انخفضت دقتها إلى 26% فقط.

وكان GPT-4 هو نموذج الذكاء الاصطناعي الأفضل أداءً الذي تم اختباره في الدراسة، حيث يأتي GPT-3.5 غالبًا في المرتبة الثانية، ويأتي نموذج Mistral AI في بعض الأحيان في المرتبة الثانية أو الثالثة، ويسجل نموذج Meta’s Llama أدنى مستوى بشكل عام.

فشلت نماذج الذكاء الاصطناعي أيضًا في جمع التاريخ الطبي الكامل في نسبة كبيرة من الوقت، حيث لم يفعل النموذج الرائد GPT-4 ذلك إلا في 71% من محادثات المرضى المحاكاة. وحتى عندما قامت نماذج الذكاء الاصطناعي بجمع التاريخ الطبي ذي الصلة للمريض، فإنها لم تنتج دائمًا التشخيص الصحيح.

تمثل محادثات محاكاة المرضى هذه طريقة “أكثر فائدة بكثير” لتقييم قدرات الذكاء الاصطناعي على الاستدلال السريري مقارنة بالفحوصات الطبية، كما يقول إريك توبول من معهد سكريبس للأبحاث التحويلية في كاليفورنيا.

يقول راجبوركار: إذا نجح نموذج الذكاء الاصطناعي في نهاية المطاف في تجاوز هذا المعيار، وإجراء تشخيصات دقيقة باستمرار بناءً على محادثات محاكاة للمرضى، فإن هذا لن يجعله بالضرورة متفوقًا على الأطباء البشريين. ويشير إلى أن الممارسة الطبية في العالم الحقيقي هي “أكثر فوضوية” مما هي عليه في المحاكاة. وهو ينطوي على إدارة العديد من المرضى، والتنسيق مع فرق الرعاية الصحية، وإجراء الفحوصات البدنية وفهم “العوامل الاجتماعية والنظامية المعقدة” في مواقف الرعاية الصحية المحلية.

يقول راجبوركار: “إن الأداء القوي وفقًا لمعيارنا المعياري يشير إلى أن الذكاء الاصطناعي يمكن أن يكون أداة قوية لدعم العمل السريري – ولكن ليس بالضرورة بديلاً عن الحكم الشامل للأطباء ذوي الخبرة”.

المواضيع:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى