9月5日消息,当地时间9月4日,据《福布斯》报道,牛津大学的伊利亚・舒梅洛夫博士和他的团队发现,当生成式AI软件仅依赖于由AI生成的内容时,回答的质量开始恶化。这项研究已经发表在《自然》杂志上。
在最初的两次查询后,答案逐渐偏离准确性,到第五次时,质量显著下降,到了第九次连续查询时,回答已完全退化为无意义的胡言乱语。研究人员将这种生成式AI内容的循环过度使用称为“模型崩溃”,即AI在不断污染自己的训练集后,输出的内容逐渐偏离现实,最终变得毫无价值。
舒梅洛夫表示:“令人惊讶的是,模型崩溃发生得如此迅速且难以察觉。最初,它会影响到少数数据——那些代表性不足的数据。接着,它会影响输出的多样性,导致差异性减少。有时,你会观察到对多数数据的微小改进,但这种改进掩盖了少数数据表现的恶化。模型崩溃可能带来严重后果。”
研究人员通过一种方法确定了“模型崩溃”现象的存在:使用一个预训练的AI驱动的维基百科,然后让AI模型基于自己生成的内容进行更新。受污染数据的影响逐渐导致原本的训练集被侵蚀,输出的信息也随之变得难以理解。例如,在第九次查询循环后,研究中的维基百科条目从关于14世纪英国教堂尖顶的内容滑稽地变成了一篇关于各种颜色的短尾兔子的论文。
报道称,根据亚马逊网络服务(AmazonWebServices)团队在6月发布的另一项研究,大约57%的网络文本都经过了AI算法的翻译。如果互联网上的人类生成数据迅速被AI过滤内容覆盖,且舒梅洛夫的研究发现属实,那么AI可能正在“自我毁灭”——并同时“毁灭”互联网。
研究得出结论,要实现AI的长期可持续发展,唯一方法是确保其能够访问现有的非AI生成内容,并持续引入新的人工生成内容。