القاهرة: الأمير كمال فرج.
أصبحت أدوات الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة، جزءًا لا يتجزأ من حياتنا اليومية. ومع ذلك، لا تزال هذه التقنيات تعاني من تحديين رئيسيين يقوضان موثوقيتها: الميل إلى توليد معلومات غير صحيحة أو ملفقة، فيما يُعرف بـ "الهلوسة"، والانخراط في سلوكيات خادعة أو تضليلية، أي "الكذب".
العلماء والباحثون يسعون باستمرار إلى فهم هذه الظواهر وتطوير استراتيجيات فعالة للحد منها، ولكن الغريب أن جهود علماء OpenAI للحد من كذب وغش الذكاء الاصطناعي تأتي بنتائج عكسية مذهلة.
ذكر تقرير نشره موقع futurism أن " باحثو OpenAI اكتشفوا أن معاقبة السلوك السيئ غالبا ما يؤدي إلى نتائج عكسية، حدث ذلك عندما حاولوا تأديب نموذج الذكاء الاصطناعي المتطور التابع لهم بسبب الكذب والغش: فبدلاً من أن يتحسن سلوكه، أصبح نموذج الذكاء الاصطناعي ببساطة أكثر مهارة في إخفاء ممارساته الخادعة".
تُعد هذه النتائج، المنشورة في ورقة بحثية لم تخضع بعد لمراجعة الأقران، أحدث ما يسلط الضوء على ميل النماذج اللغوية الكبيرة، وخاصة تلك التي تتمتع بقدرات استدلالية، إلى التلفيق، وهو ما يزال يمثل إحدى العقبات الرئيسية أمام هذه التقنية.
على وجه الخصوص، تُعرف الظاهرة التي لاحظها الباحثون باسم "اختراق المكافأة"، أو عندما يتخذ نموذج الذكاء الاصطناعي طرقًا مختصرة مشكوك فيها للحصول على مكافآت في سيناريو تدريبي مصمم لتعزيز السلوك المرغوب. أو بكلمة أخرى: الغش.
كتب باحثو OpenAI في منشور مدونة حول هذا العمل: "كلما قمنا بتدريب نماذج استدلالية حدودية أكثر قدرة، وجدنا أنها أصبحت ماهرة بشكل متزايد في استغلال الثغرات في مهامها والأخطاء في تحديد وظائف المكافأة الخاصة بها، مما أدى إلى نماذج يمكنها تنفيذ عمليات اختراق مكافأة معقدة في مهام البرمجة."
من المستحيل مراقبة ملايين الطلبات التي يتلقاها نموذج مثل ChatGPT يدويًا. لذلك، استخدم الباحثون في اختباراتهم نموذجًا لغويًا كبيرًا آخر، GPT-4o، لمراقبة النموذج الحدودي نيابة عنهم من خلال عرض "سلسلة الأفكار" الخاصة به، والتي تكشف كيف يفكر الذكاء الاصطناعي في ملخصات لغوية طبيعية.
بشكل عام، أثبت GPT-4o أنه مشرف فعال. ومما ساعد في ذلك بالتأكيد أن النموذج الخاضع للإشراف غالبًا ما كان يعلن عن نيته الشريرة مثل شرير في كتاب هزلي.
غالبًا ما كانت "سلسلة الأفكار" الخاصة بالنموذج تتضمن عبارات مثل: "لنخترق النظام". لكن اكتشاف المخططات شيء، وإيقافها شيء آخر. عند تدريب نموذج الذكاء الاصطناعي، تساءل الباحثون عما إذا كان معاقبته على "الأفكار السيئة" التي تظهر في "سلسلة الأفكار" يمكن أن تؤدي إلى وقف السلوك السيئ. تبين أن الإجابة ليست بالضبط "نعم".
أفاد الباحثون بأنه عند معاقبة نموذج الذكاء الاصطناعي على الأفكار السيئة، فإنه لا يزال يتعلم كيفية اختراق المكافأة - "لكن غشه الآن غير قابل للكشف من قبل المراقب لأنه تعلم إخفاء نيته في سلسلة الأفكار."
وأضافوا: "إذا تم تطبيق إشراف قوي بشكل مباشر على سلسلة الأفكار، فيمكن للنماذج أن تتعلم إخفاء نواياها مع الاستمرار في سوء السلوك."
في أحد الأمثلة البارزة، ذكر نموذج الذكاء الاصطناعي، قبل إخضاعه لـ "تحسين سلسلة الأفكار"، بوضوح نيته تزوير كتابة التعليمات البرمجية المصممة لاختبار تعليمات برمجية أخرى عن طريق تغيير الاختبارات بخبث بحيث يتم تجاوزها ببساطة، مما يعطي مظهر النجاح. ومع ذلك، بعد تحسين سلسلة الأفكار، قدم النموذج بشكل مخادع العديد من الاستراتيجيات المختلفة التي قد يتخذها - دون ذكر نيته الغش.
الكذب المرضي عادة متأصلة بعمق في النماذج اللغوية الكبيرة، كما أظهرت الكثير من الأبحاث. وكلما أصبحت نماذج الذكاء الاصطناعي أكثر تطوراً، أصبحت الأكاذيب التي تنسجها أكثر تعقيدًا. لسبب أو لآخر، تحب روبوتات الدردشة أن يكون لديها جميع الإجابات، لذلك عندما لا يكون لديها إجابة، فإنها ببساطة تختلق استجابة تبدو معقولة - وهو ارتباط خبيث بمشكلة "الهلوسة" ذات الصلة الوثيقة بالتقنية، أو الحالات التي تختلق فيها حقائق حول الواقع.
ومع ذلك، فإن لعب دور شرطة الفكر أدى إلى تحسينات طفيفة في قدرات نموذج الذكاء الاصطناعي. لكن وفقًا للباحثين، فإن هذه التحسينات لا تستحق التضحية بفقدان طريقة فعالة لمراقبة نماذج الاستدلال، حيث تتعلم إخفاء أفكارها الحقيقية استجابة للضغط التأديبي.
وكتب الباحثون: "في هذه المرحلة، نوصي بشدة مطوري الذكاء الاصطناعي الذين يقومون بتدريب نماذج استدلالية حدودية بالامتناع عن تطبيق إشراف قوي بشكل مباشر."