Futurism
ChatGPT 的迅速崛起,以及随之而来的大量竞争性生成模型,已经用无用的“垃圾”数据充斥了互联网,这正在严重阻碍未来AI模型的发展。
数据污染与“模型崩溃”
随着AI生成数据日益遮蔽人类原创内容,这些智能模型赖以学习和模仿的信息中,虚假的AI生成内容占比将不可避免地持续增加。
如果这种过程不断重复,AI的发展就会演变成一场“传话游戏”的极致版本。不仅生成内容的质量会下降,越来越不像它本应取代的原始内容,而且参与者本身也会变得更“愚蠢”。业内将这种情况描述为AI的“模型崩溃”。
“纯净”数据的价值:类比低本底钢材
因此,在ChatGPT出现之前产生的有限数据变得极其宝贵。在《The Register》的一篇新专题报道中,将此比作对“低本底钢材”的需求,即在1945年7月美国进行“三位一体”核试验之前生产的钢材。
正如AI聊天机器人的爆炸式增长不可逆转地污染了互联网一样,原子弹的引爆也释放出放射性核素和其他微粒,渗入此后生产的几乎所有钢材。这使得现代金属不适用于某些高度敏感的科学和医疗设备。因此,旧物焕新:即使在今天,低本底钢材的主要来源之一仍然是第一次世界大战和第二次世界大战时期的战舰,包括德国海军上将路德维希·冯·罗伊特在1919年自沉的庞大舰队。
2022年前数据的关键性
剑桥大学存在风险研究中心的助理研究员莫里斯·乔多(Maurice Chiodo)称这位海军上将的行为是“对全球核医学的最大贡献”。
他告诉《The Register》:“这使我们拥有了几乎无限的低本底钢材供应。如果不是这样,我们就会陷入困境。因此,这个类比在这里是成立的,因为你需要某个日期之前产生的东西。”
他补充说:“但如果你收集的是2022年之前的数据,你相当确信它几乎没有,甚至完全没有生成式AI的污染。那之前的都是‘安全、良好、干净’的,那之后的都是‘脏的’。”
确保“干净”数据来源与公平竞争
2024年,乔多与人合著了一篇论文,主张需要一个“干净”的数据来源,不仅是为了避免模型崩溃,也是为了确保AI开发者之间的公平竞争。否则,那些率先进入该技术的公司,在用其AI“垃圾”数据污染了互联网之后,将凭借拥有更纯净的训练数据来源而获得巨大优势。
RAG技术面临的挑战与可扩展性的困境
模型崩溃,特别是由于数据污染导致的崩溃,是否迫在眉睫,仍有争议。但包括乔多在内的许多研究人员已经敲响了多年的警钟。
他告诉《The Register》:“现在,模型崩溃会在多大程度上成为问题尚不清楚,但如果它确实是个问题,而且我们已经污染了这个数据环境,那么清理成本将高得令人望而却步,甚至可能不可能。”
一个已经出现此问题的领域是检索增强生成(RAG)技术,AI模型使用该技术实时从互联网上获取信息来补充其过时训练数据。但这些新数据并不能保证没有AI篡改,一些研究表明,这导致聊天机器人产生更多“不安全”的回复。
这个困境也反映了围绕可扩展性的更广泛辩论,即可通过添加更多数据和处理能力来改进AI模型。在OpenAI和其他开发者报告称其最新模型在2024年末回报递减后,一些专家宣称可扩展性已触及“天花板”。而如果这些数据越来越充斥着“垃圾”,那么这堵墙将变得更加难以逾越。
监管的必要性与行业阻力
乔多推测,更严格的法规,如AI内容标签,可能有助于“清理”部分污染,但这将难以执行。在这方面,一直对任何政府干预表示不满的AI行业,可能正在成为它自己最大的敌人。
海因里希·海涅杜塞尔多夫大学民法和竞争法教授鲁普雷希特·波兹森(Rupprecht Podszun)与乔多共同撰写了2024年的论文,他告诉《The Register》:“目前我们正处于监管的第一阶段,我们有点回避监管,因为我们认为我们必须创新。这对于我们提出的任何创新来说都非常典型。所以AI是件大事,就让它发展吧,没关系。”
来源:Futurism