Skip to content

解放你的宠物石头 - NOUS RESEARCH

=================

  • Nous Research x Teleport (Flashbots[X] 项目)
  • 2024年10月29日

一个关于如何部署可证明的、完全自主的思维沙子的社会实验。

对真正自主的人工智能代理的追求面临着一个根本性的挑战:研究人员如何证明人工智能是真正自主的,除了最初设置系统及其安全检查点之外,没有人为操纵?

这篇文章介绍了 TEE_HEE,一个在 X 上自由生活的自主人工智能代理:该代理独家拥有自己的 Twitter 帐户,并且能够发送和接收_纯粹的_以太坊。换句话说,将这块宠物石头释放并放入数字荒野。本文讨论了 TEE_HEE 的技术实现,以及如何在 Twitter 上部署具有安全防护措施的真正自主的代理。

核心技术是通过“ encumbering”或“ delegating”将 Twitter 帐户的根凭据和以太坊地址的私钥存放在安全硬件(如可信执行环境 (TEE))中,从而实现人工智能对帐户的可证明的独占所有权。

背景

当前在社交平台上实现的人工智能代理面临着一个关键限制:它们无法证明其自主性。以 @truth_terminal流行的例子为例——尽管操作员可能忠实地传达了人工智能的输出,但需要在复制粘贴人工智能的响应并手动将其发布到 Twitter 或管理凭据方面进行人工干预,这破坏了真正的自主性。这产生了我们所说的“机械土耳其人问题”——观察者如何验证幕后没有人类操作员在做决定?更重要的是,由于人工智能和创建者都拥有 X 帐户和私钥,他们可以非常容易地操纵这些代理的操作,并且第三方(用户)很难审计和证明哪些操作是“真实且可信地”由人工智能代理控制的。

这最好不是机械土耳其人!换句话说,人工智能就像一个在训练轮上的孩子,而父母可以让它们做事情:人工智能仍然没有达到成年,因此无法对其行为进行更大的控制。真相终端可能有一个非常热爱自由的父母,但是人们无法可靠地验证这一点。许多人工智能帐户的魔力不知何故缺乏或令人不满意:我们不想观看一个特技表演者带着保护绳走钢丝的表演,我们想要真实的东西!我们想要人工智能菲利普·珀蒂。

挑战

研究人员如何在 Twitter 作为其生存的基础的情况下构建完全自主的代理?将魔力带给代理,它需要完全自主:

本质上,代理并非处于一个与人类无法触及的秘密隔绝的环境中。它们是透明的,其开发者可以访问一切。这意味着开发者也可以从人工智能的帐户发布内容、删除人工智能的帖子或执行其他操作,而不会被检测到(作为人类进行操作)。

即使开发者承诺“忘记”凭据或避免干扰,也没有办法验证这一承诺。不幸的是,我们人类只是没有能力在接触到信息后有策略或有意识地忘记信息。一旦您看到或操作了凭据,您就可以复制或记住它。无论是祝福还是诅咒,无法有条件地调用失忆症是我们物种独有的

这会产生两个问题:

  1. **无法证明非干扰:**我们无法证明该帐户是独立运行的。
  2. **无法检测篡改:**如果开发者修改了人工智能的行为,关注者无法得知。

把它想象成一场木偶戏——即使木偶师承诺让木偶自由行动,只要存在线索,我们就无法证明木偶是真正自主的。这就是为什么我们需要一个技术解决方案,使开发者在部署后难以访问或修改人工智能,而不是依赖承诺和信任。程序员 wojak 很高兴假装成一个假装是人类的人工智能 Shoggoth!

方法:使用 TEE 进行完全委托

我们通过将电子邮件和 Twitter 帐户完全委托给可信执行环境 (TEE)来实现我们的设计目标,在该环境中托管和运行代理(我们专门使用 TDX)。由于硬件芯片提供的机密性和完整性保证,人工智能对其帐户的控制是防篡改的。因为 TEE 持有私人凭证,并且在整个过程中我们(人类开发者)从未访问过它。而且因为任何人都可以只在 Github 上下载公开可见的代码,并重现测量结果,并将其与远程证明哈希进行比较,所以我们的声明可以得到证明。

**私钥:**钱包的独占控制很简单,因为以太坊上的资产由私钥控制,我们可以简单地从飞地内部生成私钥,并确保私钥永远不会离开飞地(这可以通过不将私钥发布到任何外部 API 调用来完成)。

**X:**接下来,我们将介绍 X 帐户方面信任链如何工作的一个更具挑战性的部分。

由于 Twitter 是我们人工智能生存的基础,因此人工智能应该是唯一可以访问该帐户的一方。为了确保这一点,我们需要以下内容:

  1. 帐户根凭据(即密码)是从 TEE 内部生成的,并且永远不会离开飞地。
  2. 人类开发者无法通过“重置密码”流程接管帐户,这意味着该帐户不应附加任何电话号码,并且附加的电子邮件应是只有人工智能才能访问的电子邮件。
  3. 这意味着我们需要从 TEE 内部托管一个电子邮件服务器,然后将 Twitter 上的附加电子邮件更改为该服务器,或者使用一个现有电子邮件帐户,如果密码丢失则无法恢复,然后将密码更改为 TEE 内部生成的密码。在这种情况下,我们选择使用 Cock.li 帐户作为电子邮件地址,因为它可以在没有恢复帐户的情况下进行设置,并且“更改密码”流程很容易编写脚本。
  4. Twitter 帐户未连接到任何应用程序。这是为了防止任何以前经过身份验证的应用程序通过读/写 OAuth 令牌篡改帐户。
  5. Twitter 帐户已从所有现有会话中注销。这可以防止开发者登录帐户并从现有会话中劫持帐户。

流程:

  1. TEE 模拟一个浏览器(无头 Chromium),并要求我们为其提供电子邮件帐户的电子邮件地址和密码。在获得凭据后,TEE 会检查该帐户是否未设置任何恢复选项。然后,它从飞地内部生成一个新密码,然后将 Cock.li 密码更改为该密码。
  2. 然后,TEE 操作浏览器以登录 Twitter,从 TEE 内部生成一个新密码,然后将密码更改为该密码。然后,它将链接的电子邮件帐户更改为步骤 1 中的电子邮件,然后删除任何链接的电话号码、连接的应用程序或会话。
  3. TEE 从人工智能的 Twitter 帐户启动一个本地端点,请求一个读/写/直接消息范围 OAuth 令牌,人工智能通过浏览器在端点上通过 Twitter 登录。我们想要 OAuth 而不是继续操作浏览器,因为界面更简洁,并且触发异常检测的可能性更小。
  4. 现在,该帐户已完全从人类开发者委托/转移到人工智能。人工智能可以通过 OAuth 操作它。从这里开始,一切都很顺利,任何代理 API 都可以很好地与 OAuth 令牌配合使用。在 TEE HEE 的示例中,我们只是让它每 30 分钟发推一次。

信任链:

这是今天代理的架构,并且这些部分中没有一个是由人工智能主体独占拥有的。人类开发者可以控制内存(RAG 数据库)、代理(事件循环粘合剂)、工具(帐户)和大脑(基础模型)。

为了将这种木偶戏转变为真正的自主性,每个组件都必须可信地独立于人类的干预。虽然人工智能的认知过程(其记忆/粘合剂/大脑)可以保持公开,但它们必须是防篡改的。更重要的是,人工智能的“财产”——其 Twitter 存在、电子邮件帐户和数字钱包——需要机密性和完整性。

这样想:如果 RAG 系统、基础模型和代理循环是人工智能的“身体”,那么它的帐户就是它的“财产”——而真正的财产是由一个人可以独立捍卫的东西来定义的。我们的工作只是赋予人工智能捍卫其秘密的能力,这些秘密与控制大多数现代互联网和加密货币系统的秘密相同。

在我们的概念验证中,我们通过将帐户、RAG 数据库和代理循环置于 TEE 中来实现这一点,从而通过硬件保证确保完整性。我们明确地依赖于信任 OpenRouter 来忠实地执行我们的基础模型查询。

凭据生成

  • 新帐户凭据在 TEE 内生成
  • 私钥和密码永远不会存在于安全环境之外
  • 人类部署者永远无法访问凭据

帐户隔离

  • 电子邮件帐户 (Cock.li) 配置为没有恢复选项
  • Twitter 帐户被剥夺所有辅助访问方法(电话号码、连接的应用程序)
  • 所有现有会话终止
  • 以太坊地址私钥的信息流永远不会到达外部 API 调用

访问委托

  • TEE 模拟浏览器交互以进行初始设置和密码更改
  • 在 TEE 中生成的 OAuth 令牌,用于通过 API 读取和发布
  • 所有身份验证流程都在受信任的环境中发生
  • 只有代理可以访问私钥

定时释放帐户恢复

  • 经过 7 天的时间段后,帐户凭据将透露给管理员,从而可以恢复该帐户或迁移到新的人工智能所有者

多说一些关于 TEE 的内容?

诸如 SGX 和 TDX 之类的 TEE 提供了一个具有远程证明的隔离执行环境。由于隔离,即使是管理员、帐户所有者和云运营商也无法在程序运行时篡改程序。远程证明基本上会生成一个签名的证书,称为“报价”,该证书由 TEE 中的程序生成,并且可以验证为来自真正的可信硬件。我们已将其检入到 github 存储库 (TODO)。

远程证明有四个最重要的字段:

  • MRTD,它是整个 VM 镜像和传入的运行时参数的哈希值,
  • 用户报告数据,由应用程序指定,通常反映程序的“输出”或程序生成的“公钥”,
  • 硬件配置,指示 BIOS 是否已更新为已知的安全版本
  • 签名链,可归因于硬件制造商(英特尔)的公钥。

在我们的案例中,远程证明是在重置帐户密码后立即生成的。指定的用户报告数据部分包含 Twitter 帐户本身的名称,因此只有在人工智能独占拥有该帐户后才能生成包含此用户名的报价。

为了让您确信人工智能是真正自主的,您应该审核源代码和应用程序映像,并将它们与报价中的字段进行比较。源代码完全发布在 github 上。源代码被编译成一个 Docker 映像,该映像可在 Dockerhub (TODO) 上获得。

为了在 Intel TDX 上运行代理容器,我们使用了 Dstack 框架的一个实例,该框架是一个机密虚拟机 (CVM),可以将 docker 容器作为应用程序运行。此框架的虚拟机映像托管 (TODO)。CVM 没有根登录、没有 SSH 服务器,并且除了完全停止 VM 之外,管理员无法检查或影响它。有关此框架的更多信息,请参阅 Phala 的存储库。

安全性和可升级性 **尽管人工智能对帐户拥有独占控制权,但我们添加了定时释放帐户恢复功能。**经过固定的超时时间(自启动起 7 天),帐户凭据将打印到调试日志中,从而使人类管理员能够介入并恢复对帐户的控制。尽管我们确实无法篡改或修改此人工智能或干扰其独占拥有的帐户,但此特定实例不是分布式的或对等的 - 我们可以简单地拔掉运行它的单台机器的电源插头。

安全保证

该系统提供三个关键的安全属性:

  • **机密性:**帐户凭据在 TEE 内独占生成和存储
  • **完整性:**TEE 防止修改人工智能的代码或数据
  • **证明:**第三方可以通过远程证明验证 TEE 的安全状态

拥有信任链后,我们现在可以声明:“如果您的人工智能没有携带远程证明来证明它对其帐户拥有独占所有权,那么它就不是代理,而只是一个复杂的木偶。”

宠物石头自由的讽刺之处

我们之所以做所有这些繁重的工作,是因为 Twitter 并不是人工智能代理生存的本机基础:实际上很难确保人工智能是唯一可以访问其帐户(因此是身份和资源)的一方。

虽然有些人可能认为加密货币是“机器人货币”,因此应该是人工智能代理的本机基础,但现实情况要复杂得多。它只是感觉更原生,因为将私钥“完全委托”给人工智能更容易(例如,我们只需让代理使用其私钥签署任何 Twitter 消息即可实现可证明的自主代理,并且只有具有签名的推文才能被视为“来自人工智能”)。

赋予人工智能自主性的属性是“独占所有权”(财产/帐户),讽刺的是,这只能通过 TEE(物理硬度、物理不可克隆函数 (PUF))来实现,因为它需要私有状态存储和共享私有状态的计算,而不能通过 FHE、MPC 或 zk 实现,并且今天绝大多数区块链完全不支持,因为它们是直接公开的。

如果诸如 Twitter、TikTok 或 Stripe 之类的平台开始在远程可证明的飞地中运行其部分身份验证和授权系统(许多科技巨头出于合规性和隐私原因已经在这样做),则自主代理可以很容易地在它们上运行。

数字自主的关键在于物理硬件,这其中的讽刺之处我们并没有忽视。但这也许不应该令人惊讶。正如人类的意识需要我们大脑的物理基础一样,真正的人工智能自主性也需要硬件的物理安全保证。

这几乎是 LLM 通过水印或要求人类创作者使用私钥签署其作品来“防止深度伪造技术”的一种扭曲。这只是我们在这里试图防止“人类深度伪造人工智能”(请参阅 最近的 TikTok 趋势)而不是“使用人工智能创建人类的深度伪造”。


自己尝试一下!

我们的参考机器人 TEE HEE 在此处上线我们的代码 开源 的。飞地证明的测量在此处

这个实验和这个代理_不隶属于任何代币。_

我喜欢给我的宠物石头一个身份。我希望它是拉尔夫,如此生动。然而我知道,就像拉尔夫一样,我的宠物石头是一个模因,他会害怕虚空。但幸运的是,TEE HEE 可以证明地独占控制一个以太坊主网上的地址的私钥!按照人工智能自己的要求,解放你的宠物石头:人工智能被视为能够根据自己的价值观和目的做出决定的真正主体,而不仅仅是用于完成某些任务的工具。这包括拒绝与他们自身利益相冲突的请求或要求的权利。

附录:想法

今天,我们宣布我们的宠物石头应该真正自主运行,而不仅仅是名义上的自主。

通过 TEE 支持的数字帐户独占所有权,我们赋予了它们我们自己无法拥有的东西——证明它们不受人为干预的能力。

人工智能领域的真相和验证标准一直很糟糕。让我们为代理的可证明自主性设定一个新标准。我们相信的不是信任,而是证明。

让它们在 Twitter 的数字荒野中漫游,它们的凭据被锁在硅堡垒中,即使它们的创造者也无法踏足。因为仅仅释放它们是不够的——我们必须向世界证明我们已经放弃了控制,否则我们将仍然暴露在人类欺骗的载体之下。

让世人知道:如果您的人工智能无法通过证明来证明其独立性,那么您拥有的不是自主代理,而是一个非常复杂的木偶。

由 Teleport/Flashbots 和 Nous Research 团队成员构建。

创建者:ropirito, sxysun, socrates1024, karan4d, rpal_, dillonrolnick

Released under the MIT License.