القاهرة: الأمير كمال فرج.
أدى الصعود السريع لـ ChatGPT - وما تبعه من نماذج تنافسية مولدة للمحتوى - إلى إغراق الإنترنت بكمية هائلة من المحتوى عديم الفائدة، بما يهدد بالفعل نماذج الذكاء الاصطناعي.
مع تزايد المحتوى الناتج عن الذكاء الاصطناعي، واعتماد هذه النماذج على إبداعات البشر بشكل كبير، يصبح من المحتم أن تكون نسبة أكبر مما تتعلمه هذه "الذكاءات" وتُقلِّده هو في حد ذاته إبداع اصطناعي زائف.
وبتكرار هذه العملية بما يكفي، يبدأ تطور الذكاء الاصطناعي في أن يشبه لعبة الهاتف المكسور، حيث لا تتضاءل جودة المحتوى المنتج فحسب، ليصبح أقل فأقل شبهاً بما يُفترض أن يحل محله في الأصل، بل يصبح المشاركون أنفسهم أكثر غباءً. تصف الصناعة هذا السيناريو بـ "انهيار نموذج الذكاء الاصطناعي".
نتيجة لذلك، تصبح الكمية المحدودة من البيانات التي سبقت ظهور "ChatGPT" ذات قيمة بالغة. في مقال جديد، شبهت مجلة "The Register" هذا الأمر بالطلب على "الصلب منخفض الخلفية"، أو الصلب الذي تم إنتاجه قبل تفجير أولى القنابل النووية، بدءاً من يوليو 1945 باختبار "ترينيتي" في الولايات المتحدة.
تماماً كما لوث انفجار روبوتات الدردشة المدعومة بالذكاء الاصطناعي الإنترنت بشكل لا رجعة فيه، أدى تفجير القنبلة الذرية إلى إطلاق نويدات مشعة وجزيئات أخرى تسربت إلى كل الصلب المنتج بعد ذلك تقريباً. وهذا يجعل المعادن الحديثة غير مناسبة للاستخدام في بعض المعدات العلمية والطبية عالية الحساسية.
وهكذا، يعود القديم ليصبح جديداً: أحد المصادر الرئيسية للصلب منخفض الخلفية، حتى اليوم، هو سفن المعارك من حقبتي الحرب العالمية الأولى والثانية، بما في ذلك أسطول بحري ضخم أغرقه الأدميرال الألماني لودفيغ فون رويتر عام 1919.
وصف موريس كيودو، باحث مشارك في مركز دراسة المخاطر الوجودية بجامعة كامبريدج، أفعال الأدميرال بأنها "أعظم مساهمة في الطب النووي في العالم".
وصرح لـ "The Register": "لقد مكننا ذلك من الحصول على هذا الإمداد شبه اللانهائي من الصلب منخفض الخلفية. لو لم يكن الأمر كذلك، لكنا عالقين إلى حد ما". "لذا فإن التشبيه يعمل هنا لأنك تحتاج إلى شيء حدث قبل تاريخ معين."
وأضاف: "ولكن إذا كنت تجمع بيانات قبل عام 2022، فأنت واثق إلى حد ما من أنها تحتوي على الحد الأدنى من التلوث، إن وجد، من الذكاء الاصطناعي التوليدي". "كل شيء قبل هذا التاريخ 'آمن، جيد، نظيف'، وكل شيء بعده 'قذر'."
في عام 2024، شارك كيودو في تأليف ورقة بحثية تجادل بضرورة وجود مصدر بيانات "نظيف" ليس فقط لتجنب انهيار النموذج، بل لضمان المنافسة العادلة بين مطوري الذكاء الاصطناعي. وإلا، فإن الرواد الأوائل لهذه التقنية، بعد إفساد الإنترنت للجميع بفضل نفايات الذكاء الاصطناعي الخاص بهم، سيتمتعون بميزة هائلة لكونهم الوحيدين الذين استفادوا من مصدر أنقى لبيانات التدريب.
سواء كان انهيار النموذج، خاصة نتيجة للبيانات الملوثة، يمثل تهديداً وشيكاً، فهذا أمر محل نقاش. لكن العديد من الباحثين يدقون ناقوس الخطر منذ سنوات، بمن فيهم كيودو.
وقال كيودو لـ "The Register": "الآن، ليس من الواضح إلى أي مدى سيكون انهيار النموذج مشكلة، ولكن إذا كان مشكلة، وقمنا بتلويث بيئة البيانات هذه، فإن التنظيف سيكون باهظ التكلفة، وربما مستحيلاً".
أحد المجالات التي ظهرت فيها المشكلة بالفعل هو تقنية "التوليد المعزز بالاسترجاع" (RAG)، التي تستخدمها نماذج الذكاء الاصطناعي لتكملة بياناتها التدريبية القديمة بمعلومات يتم سحبها من الإنترنت في الوقت الفعلي. لكن هذه البيانات الجديدة ليست مضمونة أن تكون خالية من تلاعب الذكاء الاصطناعي، وقد أظهرت بعض الأبحاث أن هذا يؤدي إلى إنتاج روبوتات الدردشة لردود "غير آمنة" أكثر بكثير.
تعكس هذه المعضلة أيضاً النقاش الأوسع حول التوسع، أو تحسين نماذج الذكاء الاصطناعي عن طريق إضافة المزيد من البيانات وقوة المعالجة. بعد أن أبلغت "OpenAI" ومطورون آخرون عن تناقص العوائد من نماذجهم الأحدث في أواخر عام 2024، أعلن بعض الخبراء أن التوسع قد وصل إلى "حائط سد". وإذا كانت هذه البيانات تتزايد في محتواها عديم الفائدة، فإن هذا الحائط سيصبح أكثر صعوبة في التجاوز.
يتكهن كيودو بأن اللوائح الأكثر صرامة مثل تصنيف محتوى الذكاء الاصطناعي يمكن أن تساعد في "تنظيف" بعض هذا التلوث، لكن سيكون من الصعب تطبيق ذلك. في هذا الصدد، قد تكون صناعة الذكاء الاصطناعي، التي احتجت على أي تدخل حكومي، هي أسوأ عدو لنفسها.
وقال روبريشت بودزون، أستاذ القانون المدني والمنافسة بجامعة هاينريش هاينه دوسلدورف، الذي شارك في تأليف ورقة عام 2024 مع كيودو، لـ "The Register": "حالياً نحن في مرحلة أولى نبتعد فيها قليلاً عن التنظيم لأننا نعتقد أنه يجب أن نكون مبتكرين". "وهذا أمر نموذجي جداً لأي ابتكار نتوصل إليه.