6月20日消息,人工智能领域的专家预测,随着越来越多的人工智能生成的内容在网上发布,未来接受这些数据训练的人工智能最终将陷入混乱。
(资料图片)
一群英国和加拿大的科学家在5月发表了一篇论文,试图了解几代AI相互训练后会发生什么。在一个例子中,经过九次迭代的人工智能系统会喋喋不休地谈论野兔,而最初的原始材料是关于中世纪建筑的。
该研究的作者之一、剑桥大学教授罗斯·安德森(Ross Anderson)在阐述关于研究结果的博客文章中写道,数据表明,“经过几次迭代后,人工智能输出的文字就变成了垃圾,图像也会变得无法理解”。这些科学家们的论文尚未经过同行评审,他们称这种现象为“模型崩溃”。
聊天机器人ChatGPT背后的大语言模型(LLM)通常需要从互联网上抓取大量数据进行训练,这些数据多为人类生成。但随着人们对这些工具的使用越来越多,人工智能生成的内容正被大量添加到在线数据池中,未来的LLM将从中学习。
科学家们说,利用人工智能生成内容对人工智能系统进行迭代训练,意味着错误和无意义的例子会不断增加,使后来的人工智能无法区分事实和虚构内容。他们担忧道,人工智能将“通过强化自己的信念,开始曲解他们认为是真实的东西”。
安德森用莫扎特(Mozart)和另一位音乐家安东尼奥·萨列里(Antonio Salieri)的作品来阐释这个问题。
他写道:“如果你用莫扎特的作品来训练某个音乐模型,你可以期待输出的音乐风格有点像莫扎特,但不会有太多亮点,我们可以称之为‘萨列里’。然后再利用‘萨列里’训练下一代人工智能系统,如此反复下去,第五代或第六代模型会是什么样子?”
这项研究的第一作者、牛津大学教授伊利亚·舒马伊洛夫(Ilia Shumailov)说,问题在于人工智能在接受早期人工智能生成内容的训练后对概率的感知。不太可能发生的事件越来越不可能反映在它的输出中,从而缩小了下一代人工智能(根据这种输出进行训练)所能理解的可能性。
在论文中给出的一个例子中,人类生成的关于中世纪建筑的文本通过人工智能语言模型输入,然后该模型的输出用于训练下一代人工智能。最初的文本巧妙地处理了相互竞争的建筑理论,并经过了多次这样的循环。
到了第九次迭代,这些文字就变成了毫无意义的胡言乱语。上面写着:“建筑是世界上最大的黑长耳大野兔、白长耳大野兔、蓝长耳大野兔、红长耳大野兔、黄长耳大野兔的家园。 ”
安德森将“模型崩溃”比作大规模污染,他写道:“就像我们在海洋里撒满了塑料垃圾,在大气中放满了二氧化碳,我们即将让互联网上充满胡言乱语。”
人工智能生成的内容已经在网上大规模出现。今年5月,在线虚假信息监管机构NewsGuard警告称,它发现49个新闻网站似乎完全由人工智能撰写内容。
据报道,市场营销和公关机构越来越多地将文案外包给聊天机器人,从而抢走了人类创作者的工作。但是,根据舒马伊洛夫和安德森的发现,希望不被人工智能打败的人类创作者还不应该开香槟庆祝。
舒马伊洛夫说,对于训练人工智能来说,人工生成的数据并不是绝对必要的,它之所以有用,是因为我们的语言产生了大量的自然变化、错误和不可预测的结果。
“所以,人类肯定会提供帮助,”他说。“与此同时,这也表明,在训练人工智能时,人类数据的需求不会非常庞大。”(小小)
关键词:
相关的文章>>
热门搜索:
资讯
更多图说健康
更多疏风解毒胶囊的作用与功效是什么?疏风解毒胶囊可以起到解毒利咽...
艾叶的功效与作用有哪些?1、散寒止痛艾叶为菊科蒿属植物艾的叶...
治疗白发的偏方有哪些?1 桑白皮30克,五倍子15克,青葙子60...
紫癜性肾炎是什么病?所谓的紫癜性肾炎,就是由于患者对于某些东...
维生素ad是什么?维生素AD是指维生素A和D的混合制剂,是两种脂溶...
乙肝小三阳严重吗?乙肝小三阳有些比较严重,也有些不太严重的,...
常见疾病
更多体育健身
更多注意事项:1、图纸是A4尺寸的,直接打印即可,不用管具体的尺寸...
从宜春学院获悉,宜春学院2023年研究生一志愿复试时间安排已公...
同花顺金融研究中心6月25日讯,有投资者向三全食品提问,请问公...
以下是一些不辣的荤菜家常菜做法,供您参考:1 红烧肉:将五花...
用户层,关于用户层介绍这个很多人还不知道,我们一起来看看!1...
蝴蝶结的系法:1、把丝带的两头打一个结。2、用手按住中间位置...