ذكاء Meta الاصطناعي يسرق الكتب بالنص

القاهرة: الأمير كمال فرج.

اكتشف خبير قانوني أن الذكاء الاصطناعي الخاص بشركة Meta قادر على إنتاج أجزاء كاملة من الكتب حرفيًا، وإذا كان هذا صحيحًا، فقد تكون هذه أخبارًا سيئة للغاية للشركة ورئيسها التنفيذي مارك زوكربيرج.

لفهم الأمر بشكل سريع، يتم تدريب جميع أنظمة الذكاء الاصطناعي الرائجة تجاريًا في الوقت الحالي، مثل ChatGPT من OpenAI أو Llama من Meta، عن طريق تغذيتها بكميات هائلة من البيانات. يقوم الباحثون بعد ذلك بإجراء الكثير من المعالجة العددية باستخدام الخوارزميات، وهو ما يعلم النظام التعرف على الأنماط في جميع تلك البيانات بدقة تامة، لدرجة أنه يمكنه بعد ذلك إنشاء أنماط جديدة.

تكمن المشكلة، كما أوضح خبير قانون التكنولوجيا بجامعة ستانفورد، مارك ليملي، في مقابلة مع مجلة New Scientist، في أن بحث فريقه وجد أن نموذج LLaMA من Meta قادر على تكرار المحتوى الدقيق للكتب المحمية بحقوق الطبع والنشر حرفيًا، وذلك يعني أن الذكاء الاصطناعي لا يقوم فقط بفهم أو تلخيص محتوى الكتب، بل يقوم بإعادة إنتاج (نسخ) أجزاء كبيرة من هذا المحتوى تمامًا كما هي مكتوبة في الأصل، كلمة بكلمة وحرفًا بحرف، ومن الأمثلة التي وجدها، مقاطع طويلة من سلسلة "هاري بوتر" التي تبلغ قيمتها مليارات الدولارات.

بالنسبة لـ Meta، تمثل هذه مسؤولية قانونية ضخمة. لماذا؟ لأنه إذا كان الذكاء الاصطناعي الخاص بها ينتج مقتطفات كاملة من المواد المستخدمة لتدريبه، فإنه يبدو أقل وكأنه ينتج أعمالًا تحويلية بناءً على أنماط عامة حول اللغة والعالم الذي تعلمه من بيانات التدريب الخاصة به، ويبدو أكثر وكأنه يعمل كملف مضغوط (.ZIP) عملاق للأعمال المحمية بحقوق الطبع والنشر، والذي يمكن للمستخدمين بعد ذلك إعادة إنتاجه حسب الرغبة.

ويبدو الأمر كذلك بالفعل. عند اختبار نماذج ذكاء اصطناعي مختلفة من شركات بما في ذلك OpenAI و DeepSeek و Microsoft، وجد فريق ليملي أن LLaMA من Meta كان النموذج الوحيد الذي أخرج محتوى الكتب حرفيًا. على وجه التحديد، وجد الباحثون أن LLaMA يبدو أنه قد حفظ مواد بما في ذلك الكتاب الأول من سلسلة "هاري بوتر" لـ ج. ك. رولينج، و"غاتسبي العظيم" لـ إف. سكوت فيتزجيرالد، و"1984" لـ جورج أورويل.

لا جدال في أن Meta، مثل أقرانها في صناعة التكنولوجيا، استخدمت مواد محمية بحقوق الطبع والنشر لتدريب ذكائها الاصطناعي. لكن منهجيتها المحددة للقيام بذلك تعرضت للانتقاد: فقد ظهر في دعوى قضائية بشأن حقوق الطبع والنشر ضد Meta من قبل مؤلفين بما في ذلك الكوميدية سارة سيلفرمان أن النموذج تم تدريبه على مجموعة بيانات "Books3"، التي تحتوي على ما يقرب من 200 ألف منشور محمي بحقوق الطبع والنشر والتي قام مهندسو Meta بتنزيلها باستخدام تورنت غير قانوني. (اعترض أحدهم أثناء قيامه بذلك، في رسائل قدمت في المحكمة، قائلاً: "التنزيل عبر التورنت من جهاز كمبيوتر محمول خاص بالشركة [تابعة لـ Meta] لا يبدو صحيحًا").

وتورنت Torrent طريقة لمشاركة الملفات الكبيرة عبر الإنترنت بشكل لا مركزي، فبدلاً من تنزيل ملف كامل من مصدر واحد، يقوم التورنت بتقسيم الملف إلى أجزاء صغيرة، ويتم تنزيل هذه الأجزاء من مصادر متعددة في نفس الوقت.

يقدر ليملي وفريقه أنه إذا تبين أن 3% فقط من مجموعة بيانات Books3 ـ التي تم تدريب Meta عليها ـ تنتهك حقوق الطبع والنشر، فإن الشركة التي تقف وراءها يمكن أن تدين بما يقرب من مليار دولار كتعويضات قانونية، وهذا لا يشمل أي مدفوعات إضافية بناءً على الأرباح المحققة من هذه السرقة. وإذا كانت نسبة المحتوى المخالف أعلى، فمن الناحية النظرية على الأقل، يمكن أن ينتهي المطاف بـ Meta في وضع حرج للغاية.

ليملي الآن في موقف محرج، فقد دافع سابقًا عن Meta في نفس الدعوى القضائية التي ذكرناها أعلاه، ولكن في وقت سابق من هذا العام، أعلن أستاذ ستانفورد في منشور على LinkedIn أنه لن يمثل الشركة بعد الآن احتجاجًا على Meta و"زوكربيرج" و"إشارتهم الفضائلية" اليمينية. في ذلك الوقت، قال إنه يعتقد أن Meta يجب أن تفوز بقضيتها - ولكن بناءً على بحثه الجديد، يبدو أن هذا الرأي قد تغير.

رفضت Meta التعليق لمجلة New Scientist على نتائج ليملي.