تسجيل الدخول
برنامج ذكاء اصطناعي من غوغل يكشف السرطان       تقنية الليزر تثبت أن الديناصورات كانت تطير       يوتيوب تي في.. خدمة جديدة للبث التلفزيوني المباشر       الخارجية الأمريكية تنشر ثم تحذف تهنئة بفوز مخرج إيراني بالأوسكار       الصين تدرس تقديم حوافز مالية عن إنجاب الطفل الثاني       حفل الأوسكار يجذب أقل نسبة مشاهدة أمريكية منذ 2008       تعطل في خدمة أمازون للحوسبة السحابية يؤثر على خدمات الإنترنت       حاكم دبي يقدم وظيفة شاغرة براتب مليون درهم       ترامب يتعهد أمام الكونغرس بالعمل مع الحلفاء للقضاء على داعش       بعد 17 عاما نوكيا تعيد إطلاق هاتفها 3310       لافروف: الوضع الإنساني بالموصل أسوأ مما كان بحلب       فيتو لروسيا والصين يوقف قرارا لفرض عقوبات على الحكومة السورية       بيل غيتس يحذر العالم ويدعوه للاستعداد بوجه الإرهاب البيولوجي       ابنا رئيس أمريكا يزوران دبي لافتتاح ملعب ترامب للغولف       رونالدو وأنجلينا جولي ونانسي عجرم في فيلم يروي قصة عائلة سورية نازحة      
> 人工智能  
  • 为训练AI,数百万书籍被销毁:数字革命的隐性成本

  • 首席执行官利用人工智能恐吓员工:一种新型的企业管理策略?

  • 将ChatGPT提示转化为六位数被动收入流

  • 5个能让ChatGPT思考深度增加10倍的提示词

  • Meta人工智能:书籍“盗版者”?

为训练AI,数百万书籍被销毁:数字革命的隐性成本

Ars Technica报道最近的一份报告揭示了Anthropic公司为收集训练其人工智能模型Claude所需数据所采用的激进方法。该公司不仅利用了数百万受版权保护的作品,而且还对其进行了物理销毁。此举揭示了人工智能革命的隐性成本,也生动地比喻了艺术产业的毁灭。Anthropic在谷歌的支持下,不只引用了数百万受版权保护的书籍——这本身就是一种充满伦理和法律问题的做法。它更进一步:将书籍页面从封面中撕下,扫描成数字文件,然后将数百万页原始文本直接丢弃。因此,说人工智能“吞噬”了这些书籍,并非修辞手法,而是对所发生事情的准确描述。这种做法是在周一发布的一项版权判决中曝光的,该判决对Anthropic以及普遍对数据渴求的科技行业来说,都是一次重大胜利。主审法官、美国地区法官威廉·奥尔萨普裁定,Anthropic可以在合法购买的书籍上训练其大型语言模型,即使没有获得作者的明确许可。这一裁决部分归因于Anthropic销毁书籍并进行扫描的方式——据Ars Technica报道,Anthropic并非第一家使用这种方法的公司,但其规模之大却引人注目。“首次销售原则”被滥用从本质上讲,这种做法利用了一个被称为**“首次销售原则”(first-sale doctrine)**的法律概念。该原则允许购买者对其购买的物品为所欲为,而无需版权所有者的干预。正是因为有了这个原则,二手书市场才能存在;否则,例如,图书出版商可能会要求分成或禁止其书籍的转售。但人工智能公司却恶意利用了这一原则。根据法庭文件,Anthropic于2024年2月聘请了谷歌图书扫描项目前合伙人负责人汤姆·特维,其任务是“获取世界上所有的书籍”,同时避免“法律/操作/商业困难”,正如Anthropic首席执行官达里奥·阿莫迪在文件中所述。特维随后找到了一个变通方案:通过购买实体书籍,Anthropic将受到首次销售原则的保护,无需再获取许可。此外,移除页面也使得扫描更加便捷和经济。由于Anthropic仅在内部使用扫描后的书籍,并随后销毁了副本,法官认为此过程类似于“空间保存”,这意味着它是“变革性的”,因此在法律上是可接受的。懒惰与虚伪的行径当然,这是一种可疑的规避行为,也是一种公然的伪善。Anthropic在刚开始运营时,曾采取过一种更不道德的做法,即下载数百万本盗版书籍来喂养其人工智能。Meta也曾使用数百万本盗版书籍,目前正因此受到一群作家的起诉。这还是一种懒惰和疏忽的做法。正如该报指出的,许多档案管理员已经开发出各种方法来批量扫描书籍,而无需破坏或更改原始副本,其中包括互联网档案馆和谷歌自己的图书项目(该项目不久前也曾是自身一场重大版权之争的主题)。但所有这一切,都是为了节省一些美元——并获取那些极其宝贵的训练数据。事实上,人工智能行业正面临高质量数据来源枯竭的困境——这并非最不重要的,因为它一直都在短视地破坏其所依赖的来源——因此,对一些作者造成损害,并将一些书籍送入碎纸机,对大型科技公司而言,不过是微不足道的代价。来源:Ars Technica

إستطلاع

مواقع التواصل الاجتماعي مواقع تجسس تبيع بيانات المستخدمين
 نعم
69%
 لا
20%
 لا أعرف
12%
      المزيد
خدمات