نموذج GPT-5 يعتمد على التخمين

القاهرة: الأمير كمال فرج.

مرّ أكثر من شهر بقليل على إطلاق شركة OpenAI لنموذجها اللغوي الضخم LLM الذي طال انتظاره، GPT-5، ومنذ ذلك الحين لم يتوقف عن ارتكاب عدد هائل من المغالطات الغريبة.

ذكر تقرير نشره موقع Futurism أن "من خبراء الذكاء الاصطناعي في مركز والتر برادلي للذكاء الاصطناعي التابع لمعهد ديسكفري، ومستخدمي Reddit الغاضبين على مجتمع r/ChatGPTPro، وحتى الرئيس التنفيذي لـ OpenAI، سام ألتمان نفسه، هناك أدلة كثيرة تشير إلى أن ادعاء الشركة بأن GPT-5 يتمتع "بذكاء على مستوى الدكتوراه" يأتي مع علامات استفهام كبيرة".

في منشور على Reddit، أدرك أحد المستخدمين أن GPT-5 لا يولد "معلومات خاطئة في الحقائق الأساسية أكثر من نصف الوقت" مشيرا إلى إنه قد يكون قد فاته ملاحظة هلوسات أخرى.

تجربة هذا المستخدم تسلط الضوء على مدى شيوع ظاهرة "هلوسة" روبوتات الدردشة، وهي مصطلح في عالم الذكاء الاصطناعي يعني قدرتها على اختلاق المعلومات بثقة. ورغم أن هذه المشكلة ليست حصرية على ChatGPT، إلا أن أحدث نماذج OpenAI يبدو أن لديه شغفًا خاصًا بالكلام الفارغ — وهو ما يتحدى ادعاء الشركة بأن GPT-5 يهلوس أقل من سابقاته.

هلوسات كثيرة

في تدوينة حديثة حول الهلوسات، والتي ادعت فيها OpenAI مرة أخرى أن GPT-5 ينتج "هلوسات أقل بكثير"، حاولت الشركة شرح كيف ولماذا تحدث هذه الأكاذيب.

جاء في منشور 5 سبتمبر: "تستمر الهلوسات جزئياً لأن أساليب التقييم الحالية تضع حوافز خاطئة. وبينما لا تسبب التقييمات في حد ذاتها الهلوسات بشكل مباشر، إلا أن معظم التقييمات تقيس أداء النموذج بطريقة تشجع على التخمين بدلاً من الاعتراف بعدم العلم".

باختصار: النماذج اللغوية الكبيرة تهلوس لأنها مُدرَّبة على تقديم الإجابات الصحيحة، حتى لو كان ذلك يعني التخمين. وبينما تم تدريب بعض النماذج، مثل Claude من Anthropic، على الاعتراف عندما لا تعرف الإجابة، لم تُدرّب نماذج OpenAI على ذلك، وبالتالي، فإنها تغامر بتقديم تخمينات غير صحيحة.

الجزء المخيف

كما أشار مستخدم Reddit (مدعمًا برابط لسجل محادثته)، فقد حصل على أخطاء واقعية جسيمة عندما سأل عن الناتج المحلي الإجمالي (GDP) لعدة دول، حيث قدم له الروبوت الدردشة "أرقاماً كانت ضعف القيم الفعلية حرفياً".

على سبيل المثال، ذكر أن الناتج المحلي الإجمالي لبولندا تجاوز تريليوني دولار، بينما في الواقع، ووفقاً لصندوق النقد الدولي، يبلغ حوالي 979 مليار دولار. ولو أردنا التخمين، فقد تُعزى هذه الهلوسة إلى الادعاءات الأخيرة من رئيس البلاد بأن اقتصادها (وليس ناتجها المحلي الإجمالي) قد تجاوز تريليون دولار.

قال المستخدم: "الجزء المخيف؟ لم ألاحظ هذه الأخطاء إلا لأن بعض الإجابات بدت غريبة جداً لدرجة أنها أثارت شكوكي. على سبيل المثال، عندما رأيت أرقام الناتج المحلي الإجمالي تبدو عالية جداً، تحققت مرة أخرى ووجدت أنها خاطئة تماماً".

واختتم متسائلاً: "هذا يجعلني أتساءل: كم مرة لا أتحقق من الحقائق وأقبل المعلومات الخاطئة كحقيقة مسلم بها؟"

حيوان الأبوسوم

وفي الوقت نفسه، أشار غاري سميث، وهو من المتشككين في الذكاء الاصطناعي في مركز والتر برادلي، إلى أنه أجرى ثلاث تجارب بسيطة مع GPT-5 منذ إطلاقه - لعبة "إكس أو" معدلة، وطرح أسئلة حول نصائح مالية، وطلب رسم حيوان الأبوسوم مع تسمية خمسة أجزاء من جسده - "لإثبات أن GPT 5.0 بعيد كل البعد عن أن يكون على مستوى خبرة الدكتوراه".

كان مثال الأبوسوم فظيعًا بشكل خاص، حيث قدم النموذج أسماء الأجزاء الصحيحة تقنياً، لكنه وضعها في أماكن غريبة، مثل الإشارة إلى ساقه على أنها أنفه وذيله على أنه قدمه الخلفية اليسرى. وعندما حاول سميث تكرار التجربة في منشور أحدث، اكتشف أنه حتى عندما ارتكب خطأ إملائياً وكتب "posse" بدلاً من "possum"، قام GPT-5 بتسمية الأجزاء بطريقة غريبة ومماثلة.

بدلاً من الأبوسوم المقصود، أنتج النموذج صورة لما يبدو أنه تصوره عن كلمة "posse" (عصابة): خمسة رعاة بقر، بعضهم يحمل بنادق، مع خطوط تشير إلى أجزاء مختلفة. كانت بعض هذه الأجزاء - الرأس، والقدم، وربما الأذن - دقيقة، بينما كانت الإشارة إلى الكتف على إحدى قبعات رعاة البقر الكبيرة، وكلمة "fand"، التي قد تكون مزيجاً من كلمتي قدم (foot) ويد (hand)، تشير إلى إحدى سيقانهم.

أخطاء متكررة

قررنا أن نجري اختباراً مشابهاً، حيث طلبنا من GPT-5 تقديم صورة لـ "عصابة مع تسمية ستة أجزاء من أجسادهم". وبعد التوضيح أن Futurism تريد صورة مصنفة وليس وصفاً نصياً، بدأ ChatGPT في العمل - وإذا كانت محاولة سميث كانت فاشلة ومضحكة، فإن محاولتنا كانت أشد فشلاً وسخافة، مما يؤكد أن المشكلة التي يعاني منها GPT-5 ليست حادثة معزولة، بل هي نمط متكرر يظهر عجز النموذج عن تقديم إجابات منطقية وصحيحة.

يبدو واضحاً جداً من هذا الجانب من إصدار GPT-5 أنه ليس قريباً من ذكاء طالب دكتوراه، أو على الأقل ليس لديه أي فرصة حقيقية للحصول على شهادته.

الخلاصة من هذه القصة، كما يبدو، هي أن عليك التحقق من الحقائق في أي شيء يخرجه لك روبوت الدردشة - أو الامتناع عن استخدام الذكاء الاصطناعي والبحث عن المعلومات بنفسك.