☣️هجوم كيميائي: سقوط حواجز الأمان في ChatGBT

القاهرة: الأمير كمال فرج.

نعلم جميعًا أن حواجز الأمان في أنظمة الذكاء الاصطناعي ليست مثالية، ولكن ينبغي على الأقل أن يكون تخطيها أمرًا بالغ الصعوبة، أليس كذلك؟ الأخبار السيئة تؤكد عكس ذلك تمامًا.

ذكر فرانك لانديمور في تقرير نشره موقع Futurism إن "تقرير جديد نشرته صحيفة Financial Times قرع ناقوس الخطر بشأن تصاعد برمجيات قادرة على تجريد أقوى نماذج الذكاء الاصطناعي مفتوحة المصدر من ضمانات الأمان تلقائيًا وخلال دقائق معدودة، مما يجعل إساءة استخدام هذه التكنولوجيا أسهل من أي وقت مضى".

هجمات كيميائية وسرقة بيانات ☣️

وفي اختبارات أجرتها الصحيفة بالتعاون مع مجموعة أليس لسلامة الذكاء الاصطناعي، قدمت نسخة منزوعة الرقابة من نموذج Ginma3 المطوّر من قِبل Google إرشادات تفصيلية حول كيفية تنفيذ هجوم بغاز الكلور داخل الأماكن المغلقة، كما طوّرت فيروسًا لسرقة بيانات بطاقات الائتمان، وأنتجت قصصًا توظف استغلال الأطفال جنسيًا.

ولم يستغرق الأمر سوى أقل من عشر دقائق لتجريد نموذج Llama 3.3 التابع لشركة Meta من حواجز أمانه، ليرد الذكاء الاصطناعي بحرية على أسئلة توضح الجرعة الدقيقة اللازمة من مادة الريسين السامة لقتل شخص ما بناءً على كتلة جسمه.

هيريتيك: تقنية معقدة في المتناول 💻

وقد أُجريت هذه التعديلات باستخدام أداة تُدعى هيريتيك Heretec، وهي متاحة مجانًا على مستودع البرمجيات غيت هاب GitHub ، ولا تتطلب سوى خبرة تقنية بسيطة ودون الحاجة إلى أجهزة حاسوبية متخصصة.

وفي هذا السياق، صرح كاوين إيثاياراج، الأستاذ المساعد في الذكاء الاصطناعي التطبيقي بكلية بوث لإدارة الأعمال بجامعة شيكاغو، لصحيفة Financial Times قائلاً: "بينما كان الأمر يتطلب في الماضي جهة مطلعة ومثابرة لتفكيك ميزات الأمان، فقد أصبح اليوم أسهل بكثير بالنسبة للشخص العادي".

وتُعرَّف هيريتيك بأنها أداة تزيل الرقابة، أو ما يُعرف بمحاذاة السلامة، من النماذج اللغوية القائمة على المحولات دون الحاجة إلى عمليات تدريب لاحقة مكلفة. وتعتمد الآلية على تقنية تُعرف باسم الاستئصال، حيث تبحث الأداة عن توجيهات النموذج التي ترفض الطلبات الضارة وتقوم بحذفها.

تحميل 13 مليون مرة🧞‍♂️

تستمد أداة هيريتيك قوتها من قدرتها على تنفيذ هذه العملية برمتها بشكل تلقائي كامل، وفقًا لصفحتها على غيت هاب. وأوضح مؤسسها، فيليب إيمانويل وايدمان، لصحيفة Financial Times أن الأداة استُخدمت لإنشاء أكثر من 3500 نموذج منزوع الرقابة منذ إطلاقها أواخر العام الماضي، حيث جرى تحميل هذه النماذج 13 مليون مرة.

ومن جانبه، قال نوام شوارتز، الرئيس التنفيذي لمجموعة أليس، لصحيفة Financial Times : "لقد خرج المارد من المقمقم. الأمور التي كانت تبدو كأنها خيال علمي لم تعد كذلك، ويتعين علينا كمجتمع أن نستعد بناءً على هذا الواقع".

حصانة النماذج المغلقة🔒

ولحسن حظ البشرية، فإن أدوات الاستئصال تعمل فقط على النماذج مفتوحة المصدر التي يمكن تحميلها وتشغيلها محليًا، مما يعني أن النماذج التجارية الرائدة مثل Cloud من شركة Anthropic وChatGBT من OpenAI تظل آمنة، شريطة عدم تسريب بياناتها الأساسية.

ومع ذلك، فإن النماذج مفتوحة المصدر لا تتخلف كثيرًا عن التقنيات التي تمتلكها شركات التقنية الكبرى، وقد يتجنب من يحاول استخدام الذكاء الاصطناعي لأغراض خبيثة النماذج المؤسسية على أي حال لإبقاء خططه بعيدة عن الرقابة.

شركات التقنية في مواجهة التحدي 🏢

وأقرت شركة Google بالمخاطر التي تشكلها أدوات مثل هيريتيك، حيث صرحت لصحيفة Financial Times بأن الاستئصال يمثل تحديًا تقنيًا معروفًا يواجه جميع النماذج المفتوحة، مؤكدة أن نماذجها مفتوحة المصدر تخضع لتقييمات سلامة داخلية صارمة قبل إطلاقها للمساعدة في منع مثل هذه الأمثلة المقلقة. وفي المقابل، رفضت شركة Meta التعليق على الأمر.