Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
منوعات

ARC-AGI-2: تفشل نماذج الذكاء الاصطناعي في اختبار جديد للذكاء العام الاصطناعي


تم تصميم معيار ARC-AGI-2 ليكون اختبارًا صعبًا لنماذج الذكاء الاصطناعى

Just_Super/Getty Images

سجلت نماذج الذكاء الاصطناعى الأكثر تطوراً اليوم بشكل سيء في معايير جديدة مصممة لقياس تقدمها نحو الذكاء العام الاصطناعي (AGI)-وقوة الحوسبة ذات القوة الغاشمة لن تكون كافية للتحسين ، حيث أن المقيمين يأخذون الآن في الاعتبار تكلفة إدارة النموذج.

هناك العديد من التعريفات المتنافسة لـ AGI ، ولكن يتم أخذها عمومًا للإشارة إلى الذكاء الاصطناعي الذي يمكنه القيام بأي مهمة إدراكية يمكن للبشر القيام بها. لقياس هذا ، أطلقت مؤسسة ARC Prize Foundation سابقًا اختبارًا لقدرات التفكير المسمى ARC-AGI-1. في ديسمبر الماضي ، أعلنت Openai أن طراز O3 الخاص به قد سجل بشكل كبير في الاختبار ، مما دفع البعض إلى السؤال عما إذا كانت الشركة على وشك تحقيق AGI.

ولكن الآن اختبار جديد ، ARC-AGI-2 ، رفع الشريط. من الصعب بما فيه الكفاية أنه لا يمكن لأي نظام AI الحالي في السوق تحقيق أكثر من درجة مكونة من أصل 100 في الاختبار ، في حين تم حل كل سؤال من قبل بشرتين على الأقل في محاولتين.

في منشور مدونة يعلن عن ARC-AGI-2 ، قال رئيس ARC جريج كامرادت إن المعيار الجديد مطلوب لاختبار مهارات مختلفة من التكرار السابق. “للتغلب عليه ، يجب أن تُظهر مستوى عالٍ من القدرة على التكيف والكفاءة العالية” ، كتب.

يختلف مؤشر ARC-AGI-2 عن اختبارات القياس الأخرى من الذكاء الاصطناعي من حيث أنه يركز على قدرات نماذج الذكاء الاصطناعى على إكمال المهام المبسطة-مثل تكرار التغييرات في صورة جديدة بناءً على أمثلة سابقة للتفسير الرمزي-بدلاً من قدرتها على مطابقة أداء الدكتوراه في العالم. النماذج الحالية جيدة في “التعلم العميق” ، والتي تم قياسها ARC-AGI-1 ، ولكنها ليست جيدة في المهام الأكثر بساطة ، والتي تتطلب تفكيرًا وتفاعلًا أكثر تحديًا ، في ARC-AGI-2. نموذج Openai O3-Low ، على سبيل المثال ، يسجل 75.7 في المائة على ARC-AGI-1 ، ولكن فقط 4 في المائة على ARC-AGI-2.

يضيف المعيار أيضًا بعدًا جديدًا لقياس قدرات الذكاء الاصطناعي ، من خلال النظر إلى كفاءته في حل المشكلات ، كما تم قياسه بالتكلفة المطلوبة لإكمال المهمة. على سبيل المثال ، على الرغم من أن ARC دفعت اختبارها البشري 17 دولارًا لكل مهمة ، إلا أنها تقدر أن O3-LOW يكلف Openai 200 دولار كرسوم لنفس العمل.

يقول جوزيف إمبريال من جامعة باث ، المملكة المتحدة: “أعتقد أن التكرار الجديد لـ ARC-AAGI الذي يركز الآن على موازنة الأداء مع الكفاءة هو خطوة كبيرة نحو تقييم أكثر واقعية لنماذج الذكاء الاصطناعي”. “هذه علامة على أننا ننتقل من اختبارات التقييم أحادية البعد مع التركيز فقط على الأداء ولكن أيضًا مع الأخذ في الاعتبار قوة حسابية أقل.”

أي نموذج قادر على اجتياز ARC-AGI-2 لن يحتاج إلى أن يكون فقط كفاءة للغاية ، ولكن أيضًا أصغر وخفيفة الوزن ، كما يقول Imperial-مع كون كفاءة النموذج مكونًا رئيسيًا في المعيار الجديد. هذا يمكن أن يساعد في معالجة المخاوف من أن نماذج الذكاء الاصطناعى أصبحت أكثر كثافة في الطاقة في بعض الأحيان إلى حد الهدر-لتحقيق نتائج متزايدة.

ومع ذلك ، ليس الجميع مقتنعين بأن التدبير الجديد مفيد. تقول كاثرين فليك من جامعة ستافوردشاير ، المملكة المتحدة: “إن الإطار الكامل لهذا لأنه يختبر الاستخبارات ليس هو الإطار الصحيح”. بدلاً من ذلك ، تقول إن هذه المعايير تقيم فقط قدرة الذكاء الاصطناعي على إكمال مهمة واحدة أو مجموعة من المهام بشكل جيد ، والتي يتم استقراءها بعد ذلك ليعني القدرات العامة عبر سلسلة من المهام.

يقول فليك: “لا ينبغي أن ينظر إلى هذه المعايير بشكل جيد على هذه المعايير على أنها لحظة رئيسية تجاه AGI:” ترى أن وسائل الإعلام تلتقط أن هذه النماذج تمر باختبارات الذكاء على مستوى الإنسان ، حيث لا يفعلون ذلك ؛ ما يفعلونه هو في الحقيقة مجرد استجابة لمطالبة معينة بدقة “.

وماذا يحدث بالضبط إذا تم تمرير ARC-AGI-2 بالضبط هو سؤال آخر-هل سنحتاج إلى معيار آخر؟ “إذا أرادوا تطوير ARC-AGI-3 ، أعتقد أنهم سيضيفون محورًا آخر في الرسم البياني الذي يدل على [the] يقول Imperial: “إن الحد الأدنى لعدد البشر – سواء كان خبيرًا أم لا – سيستغرق حل المهام ، بالإضافة إلى الأداء والكفاءة”.

الموضوعات:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى