تسجيل الدخول
برنامج ذكاء اصطناعي من غوغل يكشف السرطان       تقنية الليزر تثبت أن الديناصورات كانت تطير       يوتيوب تي في.. خدمة جديدة للبث التلفزيوني المباشر       الخارجية الأمريكية تنشر ثم تحذف تهنئة بفوز مخرج إيراني بالأوسكار       الصين تدرس تقديم حوافز مالية عن إنجاب الطفل الثاني       حفل الأوسكار يجذب أقل نسبة مشاهدة أمريكية منذ 2008       تعطل في خدمة أمازون للحوسبة السحابية يؤثر على خدمات الإنترنت       حاكم دبي يقدم وظيفة شاغرة براتب مليون درهم       ترامب يتعهد أمام الكونغرس بالعمل مع الحلفاء للقضاء على داعش       بعد 17 عاما نوكيا تعيد إطلاق هاتفها 3310       لافروف: الوضع الإنساني بالموصل أسوأ مما كان بحلب       فيتو لروسيا والصين يوقف قرارا لفرض عقوبات على الحكومة السورية       بيل غيتس يحذر العالم ويدعوه للاستعداد بوجه الإرهاب البيولوجي       ابنا رئيس أمريكا يزوران دبي لافتتاح ملعب ترامب للغولف       رونالدو وأنجلينا جولي ونانسي عجرم في فيلم يروي قصة عائلة سورية نازحة      



道德AI:科学家们做到了不可能!




《华盛顿邮报》报道

科技巨头们曾坚称,完全基于道德数据构建AI系统是不可能的。然而,一个科学家团队却证明他们错了。

二十多位来自麻省理工学院(MIT)、康奈尔大学、多伦多大学等机构的AI研究人员,成功地仅用开放许可或公共领域的数据训练了一个大型语言模型,为道德AI发展提供了新路径。


人力挑战

尽管成就斐然,开发者们承认任务艰巨。一项未同行评审的研究指出,最大挑战并非计算能力,而是人力。

他们的八太字节数据集“Common Pile v0.1”需人工清理和格式化。此外,还需大量精力核实数据版权,因许多在线作品授权不规范。

“这不像增加芯片或网络爬虫那么简单,”项目合著者斯特拉·比德曼说。“我们用自动化工具,但所有数据最终都需人工标注和核查。这真的很难。”


惊人成果

克服困难后,比德曼团队利用这个“无罪”数据集训练了一个七十亿参数的大型语言模型。结果是:一个AI模型性能可与Meta的Llama 1和Llama 2 7B媲美。

尽管Meta的模型相对老旧(两年多前发布),但考虑到该项目由一个缺乏巨额资金的小团队完成,其成就令人印象深刻。

团队通过独创性与毅力弥补资源不足。一项巧妙发现是:美国国会图书馆中13万余本英文书籍此前未被利用。


版权困境

版权问题仍是AI面临的重大伦理和法律挑战。OpenAI和谷歌曾“吞噬”海量网络数据,从新闻到社交媒体帖子。Meta甚至因涉嫌非法使用700万本盗版图书训练AI而被告。

科技行业辩称数据使用属于“合理使用”,并声称若不免费获取内容,“不可能”开发出AI。


寻求透明

这项研究有力驳斥了硅谷的论调,但并未消除所有伦理担忧。大型语言模型旨在取代工作岗位。而且,并非所有公共领域作品的创作者都乐见AI“重新生产”他们的心血,特别是仍在世的艺术家。

即使AI公司被迫获得许可或支付报酬,事实是:只要这些公司存在,版权所有者将面临允许AI训练的巨大压力。

比德曼对OpenAI等公司会突然改头换面不抱怀疑。但她希望,她的工作至少能促使他们停止隐藏用于训练AI模型的数据来源。“即使是部分透明度也具有巨大的社会价值和一定的科学价值,”她强调。

来源:《华盛顿邮报》

Date: 2025-06-08 Comments: 0 Visitors :53
0      0
التعليقات

إستطلاع

مواقع التواصل الاجتماعي مواقع تجسس تبيع بيانات المستخدمين
 نعم
69%
 لا
20%
 لا أعرف
12%
      المزيد
خدمات