توقع الذكاء الاصطناعي الجديد في Meta للتو شكل 600 مليون بروتين في أسبوعين
استخدم العلماء في Meta ، الشركة الأم لـ Facebook و Instagram ، نموذج لغة ذكاء اصطناعي (AI) للتنبؤ بالتراكيب غير المعروفة لأكثر من 600 مليون بروتين تنتمي إلى الفيروساتوالبكتيريا والميكروبات الأخرى.
استخدم البرنامج ، المسمى ESMFold ، نموذجًا تم تصميمه في الأصل لفك تشفير اللغات البشرية لعمل تنبؤات دقيقة للالتواءات والانعطافات التي اتخذتها البروتينات التي تحدد هيكلها ثلاثي الأبعاد. التنبؤات التي جمعت في المصدر المفتوح أطلس ميتاجينوميك ESM، للمساعدة في تطوير عقاقير جديدة ، وتوصيف الوظائف الميكروبية غير المعروفة ، وتتبع الروابط التطورية بين الأنواع ذات الصلة البعيدة.
ESMFold ليس أول برنامج يقوم بتنبؤات البروتين. في عام 2022 ، أعلنت شركة DeepMind المملوكة لشركة Google عن برنامجها للتنبؤ بالبروتين AlphaFold قام بفك رموز أشكال ما يقرب من 200 مليون بروتين معروف للعلم. ESMFold ليس دقيقًا مثل AlphaFold ، لكنه أسرع 60 مرة من برنامج DeepMind ، كما يقول Meta. النتائج لم تتم مراجعتها من قبل الزملاء.
متعلق ب: فاز علماء DeepMind بـ 3 ملايين دولار “جائزة الاختراق” للذكاء الاصطناعي التي تتنبأ بتركيب كل بروتين
“سيسمح أطلس Metagenomic أطلس ESM للعلماء بالبحث عن هياكل البروتينات الميتاجينومية وتحليلها على نطاق مئات الملايين من البروتينات ،” فريق البحث Meta كتب في منشور مدونة المصاحبة لإصدار الورقة إلى قاعدة بيانات ما قبل الطباعة bioRxiv. “يمكن أن يساعد هذا الباحثين على تحديد الهياكل التي لم يتم توصيفها من قبل ، والبحث عن العلاقات التطورية البعيدة ، واكتشاف البروتينات الجديدة التي يمكن أن تكون مفيدة في الطب والتطبيقات الأخرى.”
البروتينات هي اللبنات الأساسية لجميع الكائنات الحية وتتكون من سلاسل طويلة ومتعرجة من الأحماض الأمينية – وحدات جزيئية صغيرة تلتصق ببعضها البعض في مجموعات لا تعد ولا تحصى لتشكيل الشكل ثلاثي الأبعاد للبروتين.
إن معرفة شكل البروتين هو أفضل طريقة لفهم وظيفته ، ولكن هناك عددًا مذهلاً من الطرق التي يمكن أن تتشكل بها نفس تركيبة الأحماض الأمينية في تسلسلات مختلفة. على الرغم من أن البروتينات تتخذ أشكالًا معينة بسرعة وبشكل موثوق بمجرد إنتاجها ، فإن عدد التكوينات الممكنة ما يقرب من 10 ^ 300. الطريقة القياسية الذهبية لتحديد بنية البروتين هي استخدام علم البلورات بالأشعة السينية – رؤية كيف تنعكس أشعة الضوء عالية الطاقة حول البروتينات – ولكن هذه طريقة شاقة قد تستغرق شهورًا أو سنوات لتحقيق نتائج ، وهي غير مجدية لجميع أنواع البروتين. بعد عقود من العمل ، أكثر من تم فك تشفير 100000 بنية بروتينية عن طريق علم البلورات بالأشعة السينية.
لإيجاد طريقة للتغلب على هذه المشكلة ، لجأ باحثو Meta إلى نموذج حاسوبي متطور مصمم لفك التشفير والتنبؤ باللغات البشرية ، وطبقوا النموذج بدلاً من ذلك على لغة تسلسل البروتين.
كتب الباحثون: “باستخدام شكل من أشكال التعلم الذاتي الإشراف المعروف باسم نمذجة اللغة المقنعة ، قمنا بتدريب نموذج لغوي على تسلسل ملايين البروتينات الطبيعية”. “باستخدام هذا النهج ، يجب أن يملأ النموذج الفراغات بشكل صحيح في مقطع من النص ، مثل” إلى __ أو لا __ ، هذا هو ________. “لقد قمنا بتدريب نموذج لغوي لملء الفراغات في تسلسل البروتين ، مثل “GL_KKE_AHY_G” عبر ملايين البروتينات المتنوعة. وجدنا أن المعلومات حول بنية ووظيفة البروتينات تنبثق من هذا التدريب. “
لاختبار نموذجهم ، لجأ العلماء إلى قاعدة بيانات للحمض النووي الميتاجينومي (سميت بهذا الاسم لأنه تم تسلسلها بكميات كبيرة من مصادر بيئية أو سريرية) مأخوذة من أماكن متنوعة مثل التربة ومياه البحر والأمعاء البشرية والجلد. من خلال إدخال بيانات الحمض النووي في برنامج ESMFold ، توقع الباحثون تراكيب أكثر من 617 مليون بروتين في أسبوعين فقط.
هذا يزيد بأكثر من 400 مليون عما أعلنت شركة AlphaFold أنها قامت بفك تشفيرها قبل أربعة أشهر ، عندما ادعت أنها استنتجت بنية البروتين لكل بروتين معروف تقريبًا. هذا يعني أن العديد من هذه البروتينات لم يسبق رؤيتها من قبل ، على الأرجح لأنها أتت من كائنات غير معروفة. يُعتقد أن أكثر من 200 مليون من تنبؤات بروتين ESMFold عالية الجودة ، وفقًا للنموذج ، مما يعني أن البرنامج كان قادرًا على التنبؤ بالأشكال بدقة وصولاً إلى مستوى الذرات.
يأمل الباحثون في استخدام هذا البرنامج لمزيد من العمل الذي يركز على البروتين. كتب ميتا: “لتوسيع هذا العمل إلى أبعد من ذلك ، ندرس كيف يمكن استخدام النماذج اللغوية لتصميم بروتينات جديدة والمساهمة في حل التحديات في الصحة والمرض والبيئة”.