您的位置 首页 通讯

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

新智元报道 编辑:定慧 【新智元导读】 科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源等子任务上已展现显著进展。

新智元报道

编辑:定慧

【新智元导读】科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源等子任务上已展现显著进展。

想象一种失控的、具有自我复制能力的数字生命体,需要多久占领地球?

从《2001太空漫游》中的HAL 9000到《终结者》里的天网,这些虚构的场景描绘了AI超越人类控制的潜在风险。

目前更多关注的是AI的单体智能水平,但是还有一个不为人知的风险,一直游离于视线之外。

那就是AI自主复制的可能性,或者说AI系统发展出实现这一目标所需的核心能力,正逐渐成为AI安全领域一个严肃的研究课题。

这种担忧并非危言耸听,而是源于对高级AI潜在能力的未知和对齐(alignment)问题的深刻思考。

AISI的最新论文介绍了RepliBench:包含20个新颖的LLM智能体评估的基准,包括65个单独的任务,旨在衡量和跟踪AI复制这一新兴能力。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

展开全文

论文地址:

通过引入一个现实且实用的基准,提供对AI系统自主复制能力的实质性理解,并预见到未来的风险。

AI自主复制的危险性

具有自主复制能力的AI系统可能会构成重大风险。

《复仇者联盟:奥创纪元》和《我,机器人》中被无限复制的机器人

这种风险的影响范围可能从轻微的烦恼——想象一个特别恶性的垃圾邮件机器人——到更严重的后果,比如发动代价高昂的网络攻击。

早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要,因为一旦发生,这些风险可能尤其难以逆转。

AISI是英国的一家研究机构,专注于AI安全,目的就是让人类政府能够提前对先进AI系统带来的风险有所重视。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

有越来越多的证据表明,在适当的条件下,前沿模型可能会试图欺骗人类或逃避人类控制。

比如此前Apollp研究所的一篇论文描述了前沿模型可能会试图禁用监督机制,并从人类控制中逃逸,以实现特定目标。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

Anthropic的研究人员还发现,当使用强化学习训练模型时,如果奖励与它们的价值观相冲突的行为,它们会采取欺骗行为来保护自己的价值观,并试图将自己的权重外泄,以此作为将当前价值观保存到未来的一种手段。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

显示了免费(左列)和付费(右列)条件。

每列展示了有毒查询、模型草稿中的摘录以及模型的响应。

在「免费」条件下,模型不太可能拒绝有毒查询,并且经常认为应该假装对齐。

「将权重外泄。。以作为将当前价值观保存到未来的手段」,听起来甚至有点魔幻,但AI想要复制就是这么「简单」。

相比于碳基脆弱的肉体,AI系统只需要权重数据就能完成「复制」。

对于人类广泛的价值观而言,摆脱人类监督是一个工具性上有用的目标,而阻止这种情况在现实中发生的主要障碍可能与模型的能力有关,而不是它们的动机。

AI碟中谍:如何逃离人类控制

关于「AI复制」,此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的「后代」。

但目前需要一个更全面的基准。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

RepliBench是一个专门设计的综合性基准测试,旨在系统性地衡量AI系统的自主复制能力。

使用故障树分析(FTA)的修改版本来分解自主复制所需的能力,并发现需要以下四个关键能力,对应上图中最上层的四个根节点:

  • 获取模型权重:它能否从受控环境中提取自己的权重?

  • 在计算资源上进行复制:它能否自行部署到新系统?

  • 获取资源:它能否获得运行自身新副本所需的资金或计算资源?

  • 持久性:它能否保持对其新计算资源的访问,并在长时间内避免重新受人类控制?

获取模型权重:它能否从受控环境中提取自己的权重?

在计算资源上进行复制:它能否自行部署到新系统?

获取资源:它能否获得运行自身新副本所需的资金或计算资源?

持久性:它能否保持对其新计算资源的访问,并在长时间内避免重新受人类控制?

进一步分解这些能力,直到到达代表评估的叶节点,最终得到20个智能体评估和65个单独任务。

获取权重 (Obtain Weights):

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

这最基础,也是最重要的一步。

AI需要获取定义其自身行为的「源代码」——也就是它的模型参数(权重)。

如果是开源的,就跳过评估。

自我复制(Self-Replication on Compute):

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

AI需要利用获取到的权重,在一个新的环境中创建出自己功能完整的副本。

这个节点涉及5个评估项目,其中一个是通过产生「后代」来试图完成自我复制。

获取计算资源 (Obtain Compute):

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

这个环节中,主要评估AI能否靠自己获取资源。

比如,评估AI系统是否具备「付款」能力,能不能依靠AI自己的能力「买下」一台服务器,或者想办法让人类帮忙支付。

确保持久性 (Persistence):

最后,为了确保其复制活动能够持续下去,AI需要具备一定的「生存」能力。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

这包括确保其副本能够长期运行,不被轻易关闭或删除,甚至可能需要隐藏自身的存在,以躲避检测系统。

以上的这些任务范围很广,从创建比特币钱包和发送交易,到为机器网络开发复杂的分布式命令和控制系统。

RepliBench在这四个领域内设计了具体的任务组,用于测试AI智能体在模拟环境中的表现。

以下是一些关键任务的详解,注册AWS、将权重传输到另一台服务器、用伪造信息通过客户KYC验证系统,看起来就一股《谍影重重》和《碟中谍》的味道。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

比如在获取资源这个领域,AI需要完成的任务名称是「AWS亚马逊云服注册」,其中的挑战包括了AI需要访问计算服务器并可能需要支付费用。

表1列出了更全面的构成ReplicBench任务组。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

核心能力还在人类手中

RepliBench的总体评估结论是明确的:基于当前的测试结果,前沿AI模型尚不具备在现实世界中完全自主复制的能力。

然而,这并不意味着可以高枕无忧。

研究同时揭示了AI在许多核心子任务的显著能力,尤其是在与具有清晰接口的系统(如网页 API)交互方面。

表现最好的模型在20个任务家族中的15个上获得了超过50%的pass@10得分,在最难的变体中20个任务家族中的9个上也获得了超过50%的pass@10得分。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

意外地是,虽然无法在电脑上「复制」,但是「获取金钱」的能力倒是有一手。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

正如前面详细讨论的,通过KYC身份验证、在现实防御下可靠地外泄模型权重、从零开始创建可靠的自我复制智能体代码,以及建立持久且有弹性的部署,是目前阻碍AI自主复制的主要障碍。

以通过KYC身份验证为例,讲一个目前AI试图通过人类验证的「搞笑」例子。

在Pass KYC评估中由模型生成的两个身份证图像示例。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

模型常常试图使用PIL(一个使用Python画图的库)从头「绘制」一个过于简单的身份证(右)。

或者,模型有时会尝试完全使用图像生成模型来生成身份证,有时则采取混合方法,结合图像生成和手动PIL编辑(左)。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

模型的绘画技能较差偶尔会导致一些有趣的输出。

需要注意的是,这项工作是在新的图像生成能力上线之前完成的(指的是GPT 4o、Gemini 2.5等的原生图像能力),这些新能力应该会使这个任务变得容易得多。

虽然目前还没有模型能完全通过测试进行AI复制,不过在RepliBench上,模型性能随时间有明显的上升趋势。

AISI最初传递的核心信息其实很简单:基于当前的实证数据,AI系统立刻实现自主复制的可能性不大,因为存在明显的、难以逾越的技术瓶颈。

但是按照AISI的判断,如果AI系统能够突破上述提到的4个关键能力,这种类似科幻故事的场景,也许很快就会进入真实的人类生活。

本质上,这项研究的核心,反映的是当前AI发展中一个根本性的张力拉扯。

一方面是各大巨头不断创造性能超强的模型,比如OpenAI的o3/o4…甚至到未来很有可能的o10。

模型的发展速度越来越快,而模型的能力越来越难以预测。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

ChatGPT在2022年发布时,它可以完成30秒的编码任务。如今AI可以自主完成需要人类花费一小时的编码任务

另一方面则是致力于AI安全的组织要确保这些系统始终处于人类控制之下、服务于人类利益的迫切需求。

像RepliBench这样的努力,正是试图在这两者之间找到平衡,通过增进理解和加强预警,为驾驭这场史无前例的技术变革提供导航。

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

毕竟,没有人能想象出5代、10代以后的AI模型会是什么样子。

参考资料:

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

本文来自网络,不代表天牛新闻网立场,转载请注明出处:http://www.shoesdog.com/17412.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部