道德AI：科学家们做到了不可能！

龙< > 人工智能

《华盛顿邮报》报道

科技巨头们曾坚称，完全基于道德数据构建AI系统是不可能的。然而，一个科学家团队却证明他们错了。

二十多位来自麻省理工学院（MIT）、康奈尔大学、多伦多大学等机构的AI研究人员，成功地仅用开放许可或公共领域的数据训练了一个大型语言模型，为道德AI发展提供了新路径。

人力挑战

尽管成就斐然，开发者们承认任务艰巨。一项未同行评审的研究指出，最大挑战并非计算能力，而是人力。

他们的八太字节数据集“Common Pile v0.1”需人工清理和格式化。此外，还需大量精力核实数据版权，因许多在线作品授权不规范。

“这不像增加芯片或网络爬虫那么简单，”项目合著者斯特拉·比德曼说。“我们用自动化工具，但所有数据最终都需人工标注和核查。这真的很难。”

惊人成果

克服困难后，比德曼团队利用这个“无罪”数据集训练了一个七十亿参数的大型语言模型。结果是：一个AI模型性能可与Meta的Llama 1和Llama 2 7B媲美。

尽管Meta的模型相对老旧（两年多前发布），但考虑到该项目由一个缺乏巨额资金的小团队完成，其成就令人印象深刻。

团队通过独创性与毅力弥补资源不足。一项巧妙发现是：美国国会图书馆中13万余本英文书籍此前未被利用。

版权困境

版权问题仍是AI面临的重大伦理和法律挑战。OpenAI和谷歌曾“吞噬”海量网络数据，从新闻到社交媒体帖子。Meta甚至因涉嫌非法使用700万本盗版图书训练AI而被告。

科技行业辩称数据使用属于“合理使用”，并声称若不免费获取内容，“不可能”开发出AI。

寻求透明

这项研究有力驳斥了硅谷的论调，但并未消除所有伦理担忧。大型语言模型旨在取代工作岗位。而且，并非所有公共领域作品的创作者都乐见AI“重新生产”他们的心血，特别是仍在世的艺术家。

即使AI公司被迫获得许可或支付报酬，事实是：只要这些公司存在，版权所有者将面临允许AI训练的巨大压力。

比德曼对OpenAI等公司会突然改头换面不抱怀疑。但她希望，她的工作至少能促使他们停止隐藏用于训练AI模型的数据来源。“即使是部分透明度也具有巨大的社会价值和一定的科学价值，”她强调。

来源：《华盛顿邮报》