红杉美国对话：十年内人形机器人将超越人类的敏捷性和可靠性

更新时间：2024-09-21 11:07:53作者：yidaimei

在人工智能的不断进步中，人形机器人的发展前景成为了科技界热议的话题。英伟达高级研究科学家Jim Fan与红杉美国投资人的对话，为我们揭示了这一领域的未来趋势。从虚拟世界的模拟训练到现实世界的应用，人形机器人的敏捷性和可靠性有望在未来十年内超越人类。本文将带您深入了解这一激动人心的领域，探讨人形机器人如何改变我们的生活和工作。

近日，英伟达高级研究科学家 Jim Fan 与红杉美国投资人展开了一场关于具身智能、机器人技术以及虚拟世界领域的前沿思考。

Jim Fan 展示了英伟达在构建智能机器人方面的长期愿景，并讨论了推动这项技术的核心挑战和突破机会。

Jim 指出，英伟达正在押注具身智能和人形机器人技术的发展。他认为，未来十年内，人形机器人将达到甚至超越人类的敏捷性和可靠性。他们的目标是为日常生活开发可以承担家庭琐事（如洗衣）的机器人，从而极大地提升生活质量和经济价值。

他特别强调了虚拟世界与物理世界的交叉影响。虚拟世界提供了一个强大的“世界模拟器”，让研究者能够通过模拟数据和领域随机化技术加速机器人在现实中的应用。

他提出，通过在虚拟环境中训练，智能体可以无缝泛化到物理世界，达到“零次微调”的转移效果。

Jim 认为，视频生成是未来 AI 的重要方向，因为它能够以数据驱动的方式模拟世界，为 AI 模型提供真实的物理和渲染数据。他同时对 AI 模型的推理能力（特别是编程能力）充满期待，认为在未来十年内，AI 智能体将在自动编程和加速软件开发方面取得重大进展。

此外，Jim 还特别提到研究中的“品味”，即确定值得解决的问题比寻找解决方案更难且更重要。

他提到了自己在李飞飞等导师的指导下，培养了识别哪些问题能够产生最大影响的能力，并认为具身智能是未来 AI 智能体的重要方向。他也建议 AI 创业者保持对最新文献和工具的敏锐洞察，寻找能够长远发展的领域。

Jim 引用了英伟达 CEO 黄仁勋的话 —— 所有能够移动的东西最终都会实现自主化。他认为，随着硬件技术和制造成本的下降，未来机器人将像 iPhone 一样普及。英伟达正着手构建一个从硬件到软件的完整技术栈，以支持智能机器人的发展。

以下为这次对谈的全部内容，enjoy～

Sonya Huang

今天我们邀请到了 Nvidia 的高级研究科学家Jim Fan。Jim领导 Nvidia 的具身智能（Embodied AI ）智能体研究工作，涉及物理世界中的机器人技术和虚拟世界中的游戏智能体。

Jim 的团队负责了Project Groot项目，你可能在今年的 GTC 大会上看到过和Jensen同台展示的视频中出现的人形机器人。

今天我们很高兴能和Jim讨论关于机器人技术的一切问题。为什么选择现在？为什么是人形机器人？以及如何实现机器人领域的 GPT-3 时刻？

非常激动能够和大家分享关于机器人技术和具身智能的各种内容。在我们深入讨论之前，您的个人故事非常有趣。

你是 OpenAI 的第一位实习生，能不能给我们讲一下你的个人经历，以及你是如何走到今天这一步的？

Jim Fan

当然，我很愿意和大家分享这些故事。2016 年夏天，我的一些朋友告诉我，城里有一家新的初创公司让我去看看。

我当时心想：“嗯，我没什么别的事情可做，因为我已经被录取为博士生了。” 那个夏天我很空闲，所以我决定加入这家初创公司，而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段时间，我们已经在讨论 AGI 了，而我的实习导师是 Andrej Karpathy 和 Iliya Sotskever。

我们一起讨论并展开了一个项目，叫做“World of Bits”。这个项目的想法非常简单，我们希望建立一个 AI 智能体，它能够读取电脑屏幕上的像素信息，然后控制键盘和鼠标。如果你仔细想想，这种界面是最通用的。

我们在电脑上做的所有事情，比如回复邮件、玩游戏或浏览网页，都可以通过这个界面完成，将屏幕像素映射到键盘和鼠标的控制。

这其实是我在 OpenAI 的第一次 AGI 尝试，也是我 AI 智能体旅程的第一个篇章。

Stephanie Zhan

我记得“World of Bits”这个项目，我不知道你也参与其中，真是太有趣了。

Jim Fan

是的，那是一个非常有趣的项目，它也是 OpenAI Universe 平台的一部分，这是一个将所有应用程序和游戏整合到这个框架中的更大计划。

Stephanie Zhan

你觉得当时有哪些突破？另外，你认为当时在智能体领域面临的主要挑战是什么？

Jim Fan

是的，当时我们主要使用的方法是强化学习。在 2016 年，还没有 LLM 或 Transformer 模型。

强化学习在特定任务上确实有效，但它不具备广泛的泛化能力。比如我们无法给智能体任何一种指令，要求它完成各种通过键盘和鼠标操作的任务。当时，它在我们设计的特定任务上有效，但没有真正实现泛化。

这促使我进入了下一个阶段，我去了斯坦福大学。我开始在斯坦福跟随 Favilly 教授攻读博士学位，主要研究计算机视觉和具身智能（Embodied AI ）。

在 2016 年到 2021 年我在斯坦福期间，我见证了斯坦福视觉实验室的转变。从 Favilly 教授带领的静态计算机视觉，如识别图像和视频，转变为具身计算机视觉，即智能体在交互环境中学习感知并采取行动。

这个环境可以是虚拟的（在模拟中），也可以是物理世界中的。所以这是我的博士阶段，主要是从静态视觉过渡到具身智能的研究。

在我博士毕业后，我加入了 Nvidia ，并一直工作到现在。我将博士论文中的研究内容带到了 Nvidia ，并继续从事具身智能的研究工作，直到今天。

Sonya Huang

你目前负责 Nvidia 的具身智能计划，可以简单介绍一下这个项目的含义，以及你们希望实现的目标吗？

Jim Fan

当然。目前我共同领导的团队叫做 GER，代表具身智能体研究（Generalist Embodied Agent Research）。简单来说，我们团队的工作可以总结为三个字：“生成行动”。

因为我们构建具身智能智能体，而这些智能体会在不同的世界中采取行动。如果这些行动是在虚拟世界中进行的，那就是游戏 AI 和模拟；如果是在物理世界中进行的，那就是机器人技术。

事实上，今年 3 月的 GTC 大会上，Jensen 在他的主题演讲中展示了一个叫做 Project Groot 的项目，这是 Nvidia 在构建人形机器人基础模型上的一项重要努力，而这正是 GER 团队目前的重点工作。我们希望为人形机器人乃至更广泛的领域构建 AI 大脑。

Stephanie Zhan

你认为 Nvidia 在构建这些技术上有什么竞争优势？

Jim Fan

这是个很好的问题。首先，毫无疑问的是计算资源。所有这些基础模型都需要大量的计算资源来扩展。我们相信“Scaling Law”，类似于 LLM Scaling Law，但具身智能和机器人技术的 Scaling Law 尚待研究，所以我们正在这方面做出努力。

Nvidia 的第二个优势是模拟技术。Nvidia 在成为一家 AI 公司之前，是一家图形公司，所以我们在构建模拟（如物理模拟、渲染）和GPU实时加速方面拥有多年的专业知识。因此，在构建机器人技术时，我们大量使用模拟技术。

Stephanie Zhan

模拟策略非常有趣。你认为为什么大多数行业仍然非常专注于现实世界的数据，而采用相反的策略呢？

Jim Fan

是的，我认为我们需要各种数据。仅仅依靠模拟或现实世界的数据是不够的。因此在GER（具身智能体研究团队）中，我们将数据策略大致分为三个部分：

第一是互联网规模的数据，比如网上的标签和视频。

第二是模拟数据，我们使用 Nvidia 的模拟工具生成大量的合成数据。

第三是实际机器人数据，我们通过在机器人平台上操作机器人，收集并记录这些数据。

我相信一个成功的机器人策略需要有效地利用这三种数据，混合它们并提供统一的解决方案。

Sonya Huang

你刚才提到的数据是实现机器人基础模型工作的关键瓶颈，你能不能多谈谈你对这个观点的信念，以及需要什么样的优秀数据来突破这个问题？

Jim Fan

好的，我认为我刚才提到的三种不同类型的数据各有优缺点。首先是互联网数据，它们是最具多样性的，包含了大量的常识性先验知识。

比如大多数网上的视频都是以人为中心的，因为我们喜欢自拍，喜欢记录彼此进行各种活动，也有很多教学视频。

我们可以利用这些数据来学习人类如何与物体交互，以及物体在不同情况下的行为，这为机器人基础模型提供了常识性先验知识。

但是，互联网数据没有行动信号，我们无法从互联网上下载机器人的运动控制信号。

这就引出了第二种数据策略，即使用模拟。在模拟中，你可以拥有所有的动作，并且可以观察这些动作在特定环境中的结果。

模拟的优势在于它基本上是无限的数据，数据量随计算资源的增加而扩展。投入越多的GPU，产生的数据就越多，而且数据是实时的。如果仅在真实机器人上收集数据，那么你会受到每天 24 小时的限制。

而通过GPU加速的模拟器，我们可以将实际时间加速到 1 万倍以上。在同样的工作时间内，我们能够以更高的速度收集数据。

但模拟的弱点是无论图形管道多么好，模拟与现实总会有差距。物理规律和视觉效果都与现实世界有所不同，且内容的多样性不如我们在现实世界中遇到的情景。

最后是实际机器人数据，这些数据没有模拟与现实的差距，因为它们是在真实机器人上收集的，但收集成本要高得多，因为需要雇人操作机器人。

而且它们依然受限于现实世界的时间，每天只有 24 小时，还需要人类来收集这些数据，成本非常高。

因此，我们认为这三种类型的数据各有优势，成功的策略是结合它们的优势，消除它们的劣势。

Sonya Huang

那些在 Jensen 演讲台上的可爱机器人真是一个精彩的时刻。如果你有一个五年或十年的梦想，你认为你的团队会实现什么？

Jim Fan

这纯粹是推测，但我希望我们能在接下来的两到三年内看到机器人基础模型的研究突破，这就是我们所谓的机器人领域的 GPT-3 时刻。

之后就不确定了，因为要让机器人进入人们的日常生活，不仅仅是技术问题。机器人需要价格合理，并且能够量产。我们还需要确保硬件的安全性以及隐私和法规方面的考虑。

这些问题可能需要更长的时间才能使机器人进入大众市场，所以这比较难以预测。但我希望研究突破能够在未来两三年内到来。

Stephanie Zhan

你认为 AI 机器人领域的 GPT-3 时刻会是什么样子的？

Jim Fan

这是个好问题。我喜欢将机器人技术分为两个系统：系统一和系统二，这个概念来自《思考，快与慢》这本书。

系统一是低级的运动控制，它是无意识且快速的。例如，当我拿起这杯水时，我不会真的思考每毫秒如何移动手指。这就是系统一。

而系统二则是缓慢且深思熟虑的，它更像是推理和规划，使用的是我们的有意识思维。我认为 GPT-3 时刻将出现在系统一上。

我最喜欢的例子是“打开”这个动词。想象一下“打开”这个词的复杂性。打开门与打开窗户不同，打开瓶子或手机的方式也不同。

但对人类来说，理解“打开”在与不同物体交互时意味着不同的动作并没有任何问题。但

是到目前为止，我们还没有看到一个机器人模型能够在低级别运动控制上对这些动词进行泛化。

我希望能看到一个模型能够理解这些动词的抽象含义，并能够在各种对人类有意义的场景中进行泛化。我们还没有看到这种情况，但我对未来两三年内出现这个时刻持乐观态度。

Sonya Huang

关于“系统二”思维呢？你认为我们如何才能实现这个目标？你认为在 LLM 领域的推理工作也会与机器人领域相关吗？

Jim Fan

是的，绝对相关。我认为在“系统二”方面，我们已经看到了一些非常强大的模型，它们可以进行推理、规划，甚至编程。

这些正是我们今天看到的 LLM 和前沿模型。但将“系统二”模型与“系统一”整合起来，本身就是一个研究挑战。

所以问题是，针对机器人基础模型，我们是否应该有一个单一的大模型，还是采用某种级联方法，保持“系统一”和“系统二”模型的独立性，并让它们通过某种方式进行沟通？这仍然是一个悬而未决的问题，它们各有优缺点。

如果是第一个想法，模型会更简洁，只有一个模型，一个 API 来维护。但这也更难控制，因为它们的控制频率不同。

“系统二”模型的控制频率较低，比如每秒一次决策（1Hz），而“系统一”则需要更高的控制频率，比如每秒 1000 次决策（1000Hz），像我握住这杯水的微小运动就是每秒数千次的决策。这种不同频率的控制难以通过单一模型实现。

所以，可能级联的方法会更好。但问题是，系统一和系统二之间如何沟通？它们通过文本交流还是通过某种潜在变量？目前还不清楚，我认为这是一个非常令人兴奋的新研究方向。

Sonya Huang

你觉得我们能够通过扩展和 Transformer 技术突破“系统一”思维吗？还是说要祈祷好运、看事态发展？

Jim Fan

我当然希望我之前描述的数据策略能帮助我们实现这一目标。因为我觉得我们还没有完全发挥出 Transformer 的潜力。

从本质上讲， Transformer 是通过输入和输出 token 来工作的。最终， token 的质量决定了这些大型 Transformer 模型的质量。

对于机器人来说，正如我提到的，数据策略非常复杂。我们既有互联网数据，也需要模拟数据和真实机器人数据。

一旦我们能够扩展数据管道，并获得高质量的动作数据，我们就可以将这些数据 token 化，并将其输入 Transformer 进行压缩。所以我觉得 Transformer 的潜力还未完全发挥出来。

一旦我们解决了数据策略问题，我们可能会看到一些随着数据和模型规模扩展而出现的涌现现象。我称之为具身智能的“Scaling Law”，这才刚刚开始。

Stephanie Zhan

我对此非常乐观。很好奇的是，当我们到达那个突破点时，你个人最期待看到的是什么？你认为哪个行业、应用或用例会完全改变今天的机器人世界？

Jim Fan

是的。实际上，我们选择人形机器人作为主要研究方向有几个原因。一个原因是，世界是围绕人体形态设计的，所有的餐馆、工厂、医院以及我们的设备和工具都是为人类及其手形设计的。

因此，原则上，一个足够先进的人形机器人硬件应该能够完成任何一个普通人类可以完成的任务。

虽然当前的人形机器人硬件还没有达到那个水平，但我相信在未来两到三年内，人形机器人硬件生态系统将会成熟。

届时，我们将拥有可负担得起的人形机器人硬件，问题将变成如何为这些人形机器人提供 AI 大脑。

一旦我们拥有了能够接受任何语言指令并完成任何人类能做的任务的通用基础模型，我们就可以释放大量经济价值。比如我们可以在家庭中拥有机器人，帮助我们做家务、洗衣、洗碗、做饭，或者照顾老人。

我们还可以在餐馆、医院、工厂中使用它们，帮助完成各种人类的工作。我希望这能在未来十年内实现。

不过正如我之前提到的，这不仅仅是技术问题，还涉及许多技术之外的问题，我对此充满期待。

Sonya Huang

你们选择专注于人形机器人还有其他原因吗？

Jim Fan

是的。还有一些更实际的原因，比如训练管道方面。关于人类的数据在网上有很多，视频中的内容大多是以人为中心的，人类在执行日常任务或娱乐活动。

人形机器人的外形最接近人类的形态，这意味着我们用这些数据训练的模型可以更容易地迁移到人形机器人形态，而不是其他形态。

比如说，关于机器人手臂和夹爪的视频有多少？很少见吧。但我们能看到很多关于人类用五指手工作的视频。

因此，训练人形机器人可能更容易。一旦我们拥有了这些基础模型，我们可以进一步专门化它们，应用到机器人手臂等更具体的机器人形态上。这就是为什么我们首先追求全面的解决方案。

Stephanie Zhan

你们目前只专注于人形机器人吗，还是也会涉及机器人手臂或机器狗？

Jim Fan

Project Groot 目前主要专注于人形机器人。但我们构建的管道，包括模拟工具和真实机器人工具，足够通用，将来也可以适应其他平台。因此，我们正在构建这些工具，以便广泛适用。

Sonya Huang

你多次提到“通用”这个词。我认为机器人领域的一些人认为通用方法行不通，必须针对特定领域和环境。为什么你们选择了通用的方法？我们节目里经常提到Richard Sutton的“苦涩教训”。你认为这在机器人领域也适用吗？

Jim Fan

绝对适用。我想首先谈谈我们在自然语言处理（ NLP ）领域看到的成功案例。在ChaggbT和 GPT-3 出现之前， NLP 领域有很多专门针对不同应用的模型和管道，比如翻译、编程、数学运算和创意写作，它们都使用了不同的模型和训练管道。但ChaggbT出现后，将所有这些应用统一到了一个单一的模型中。

我们称这些为“通才”模型。而一旦有了通才模型，我们就可以通过提示、精炼等方式将它们专用于具体任务，形成“专才”模型。

根据历史趋势，几乎总是专才通才模型比原始的专才模型要强大得多，而且维护起来更简单，因为只有一个 API ，它输入文本，输出文本。因此，我认为我们可以遵循 NLP 领域的成功路径，这在机器人领域也将如此。

到 2024 年，大多数机器人应用仍处于专才阶段，即针对特定任务、特定硬件、特定数据管道的专门模型。

但 Project Groot 的目标是构建一个通用的基础模型，首先用于人形机器人，然后推广到各种机器人形态或具身形式。这就是我们追求的通才时刻。

一旦我们有了通才模型，我们可以对其进行定制，使其适用于具体的机器人任务。而这些将成为专才通才模型的体现。

但在拥有通才模型之前，这一切还不会发生。因此，从短期来看，追求专才模型会更容易，因为你只需专注于非常狭窄的任务领域。

但我们在 Nvidia 相信未来属于通才模型，尽管它需要更长的开发时间，也有更多的研究难题要解决，但这是我们首先追求的目标。

Stephanie Zhan

Nvidia 构建 Project Groot 的另一个有趣之处在于，正如你之前提到的， Nvidia 既拥有芯片也拥有模型。你认为 Nvidia 可以做些什么来在自家芯片上优化Groot模型？

Jim Fan

是的，在今年 3 月的 GTC 大会上，Jensen还发布了下一代边缘计算芯片，称为Jensen Source芯片，它实际上是与Project Groot一起发布的。

我们的想法是，向客户提供一个从芯片级别（Jensen Source系列芯片）到基础模型（Project Groot），再到模拟工具和沿途开发的其他实用工具的完整技术栈。这将成为一个面向人形机器人以及智能机器人的计算平台。

我想引用 Jensen 的一句名言，这是我最喜欢的之一：“所有能够移动的东西最终都会实现自主化。”我也相信这一点。

虽然现在还没有实现，但我们可以预见，在未来十年或更长时间内，如果我们相信将来会有和 iPhone 一样多的智能机器人，我们最好从今天开始建设。

Sonya Huang

太棒了！你们的研究目前是否有特别值得强调的成果？有什么让你对你们的方法充满信心或乐观的吗？

Jim Fan

是的，我们可以谈谈一些之前的工作。其中我非常满意的一项工作叫做URAC。我们在这个项目中做了一个演示，训练一个五指机器人手进行转笔的动作。

对我个人来说，这特别幽默，因为我已经放弃了转笔这个技能。所以我自己做不到，但机器人手却可以。而我们用来训练它的方法是，我们使用 LLM 来编写代码，控制由 Nvidia 构建的模拟 API ，称为 i6M API 。LLM 输出代码来定义奖励函数。

奖励函数基本上就是我们希望机器人完成的理想行为的规范。如果机器人走在正确的轨道上，它就会获得奖励；如果做错了事，就会受到惩罚。

通常，奖励函数是由一个非常了解 API 的机器人专家设计的，这是一个需要高度专业知识的工作，而且过程非常繁琐和手动。

我们开发了一种算法，使用 LLM 来自动化奖励函数的设计，让机器人能够完成复杂的任务，比如转笔。

这是一种通用技术，我们计划将其扩展到不仅仅是转笔，它应该能够为各种任务设计奖励函数，甚至可以通过 Nvidia 的模拟 API 生成新的任务。这为我们的进一步发展提供了广阔的空间。

Sonya Huang

我记得五年前有一些研究团队在解决魔方问题，用机器人手来完成，当时感觉机器人领域经历了一个“幻灭期”。而在过去一年左右，这个领域似乎又热起来了。

你认为为什么现在是机器人领域的“时机”？有什么不同的地方吗？我们听说 OpenAI 也在重新进入机器人领域，大家都在加大努力。你觉得有什么变化吗？

Jim Fan

是的，我认为现在有几个关键因素与之前不同。首先是机器人硬件。从去年年底开始，我们看到了机器人硬件生态系统的激增。

像特斯拉在开发 Optimus，波士顿动力（Boston Dynamics）等，还有很多初创公司。我们看到硬件越来越强大，具有更好的灵活手和全身可靠性。第二个因素是价格下降。

我们看到人形机器人的制造成本显著下降。比如 2001 年，NASA 开发了一个人形机器人，叫做 Robonaut，如果我没记错的话，每个机器人成本超过 150 万美元。

最近一些公司能够将全功能人形机器人的价格定在大约 3 万美元左右，大致相当于一辆车的价格。

而且随着产品的成熟，它的价格通常会趋向于原材料成本。对于人形机器人，原材料成本通常只有汽车的4%左右。

所以未来几年，我们可能会看到成本急剧下降。这使得这些硬件越来越负担得起，这是人形机器人再次获得动能的第二个因素。

第三个因素是在基础模型方面。我们看到 LLM （如GPT、Claude、Llama等）在解决推理和规划问题方面表现得非常出色。这些模型能够很好地泛化，能够编写代码。

我们提到的 URAC 项目正是利用了这些语言模型的编程能力来开发新的机器人解决方案。还有多模态模型的兴起，提升了计算机视觉和感知能力。

我认为这些成功也鼓励我们追求机器人基础模型，因为我们可以利用这些前沿模型的泛化能力，并在其上添加动作层，生成最终驱动人形机器人的动作 token 。

Stephanie Zhan

我完全理解这一切。你提到的很多研究进展，许多是你自己在Centauril等项目中做出的贡献，再加上 Nvidia 的工具（如IZX等）极大地加速了该领域的进展，尤其是在传感和更便宜的传感设备等方面。所以我觉得现在是从事这个领域工作的非常激动人心的时刻。

Jim Fan

是的，我同意。

Sonya Huang

我记得你最初的研究更多是在虚拟世界领域。你能不能谈谈是什么让你对 Minecraft 和机器人产生了兴趣？在你看来，它们是否是相关的？是什么让你对虚拟世界产生了兴趣？

Jim Fan

这是个好问题。对我来说，我的个人使命是解决具身智能问题，而虚拟世界中的具身智能智能体就是像游戏和模拟中的那些智能体。因此我对游戏也有非常特别的情感。我自己也很喜欢玩游戏。

Stephanie Zhan

你玩什么游戏？

Jim Fan

我玩 Minecraft ，我试过，但我并不是一个非常好的玩家。所以我希望我的 AI 能弥补我糟糕的游戏技巧。我之前参与了几个游戏项目。第一个是叫做Mind Dojo的项目，我们在 Minecraft 游戏中开发了一种通用智能体平台。

对于不熟悉的观众来说， Minecraft 是一个开放的体素世界，你可以在其中做任何你想做的事情。你可以制作各种工具，冒险，它是一个开放式游戏，没有特定的得分目标，也没有固定的剧情。

我们从互联网上收集了大量数据，有人玩 Minecraft 的视频，也有解释游戏机制的wiki页面，这些是多模态文档，还有像 Reddit 的 Minecraft 子论坛，那里有很多人用自然语言讨论游戏。

我们收集了这些多模态数据集，训练模型来玩 Minecraft 。这个项目叫做 Mind Dojo。后来第二个项目叫做 Voyager 。这个想法是在 GPT-4 发布后产生的，因为它是当时最好的编程模型。

于是我们想，如果我们将编程作为行动呢？基于这个想法，我们开发了 Voyager 智能体，它通过编写代码与 Minecraft 世界互动。

我们使用一个 API 将 3D 的 Minecraft 世界转换为文本表示，然后让智能体使用行动 API 编写代码。就像人类开发者一样，智能体并不总是能在第一次写出正确的代码。

所以我们给它一个自我反思循环，如果它在 Minecraft 世界中遇到错误或做错了事，它会收到反馈并修正它的程序。一旦它写出了正确的程序，我们称之为技能，它会将其保存到一个技能库中。

以后当智能体遇到类似的情况时，它不需要再次经历试错过程，可以直接从技能库中调用技能。

你可以将这个技能库视为一个代码库，它是由 Voyager 自己互动地构建的，完全没有人类干预。整个代码库都是 Voyager 自己开发的。

这是第二个机制，技能库。第三个机制是我们称之为自动课程生成。智能体知道它知道什么，也知道它不知道什么。

因此它能够提出下一个任务，这个任务既不会太难也不会太简单，然后它能够沿着这条路径发现各种技能、工具，并在 Minecraft 的广阔世界中旅行。

因为它旅行得很多，所以我们称之为 Voyager 。所以这就是我们团队最早构建具身智能体与虚拟世界交互的尝试之一。

Sonya Huang

谈谈你刚才提到的课程生成机制，我觉得这非常有趣，因为这似乎是推理和 LLM 世界中尚未完全解决的问题之一。

如何让这些模型自我意识到下一步该做什么以提高自己？你能否再详细谈谈你们在课程生成和推理方面的构建？

Jim Fan

当然。我认为这些前沿模型展示了一种非常有趣的涌现特性，它们能够反思自己的行为，并且它们似乎知道自己掌握了什么、还不知道什么，能够据此提出任务。

在 Voyager 中，我们给智能体设定了一个高层指令，那就是尽可能多地发现新的物品。

我们只给了这个一句话的目标，没给出任何关于先发现哪些物品、先解锁哪些工具的指令。

智能体通过编码、提示和技能库自己发现了这些。这种系统的工作方式非常惊人，我认为这是一种在拥有强大推理引擎后自然涌现的特性。

Sonya Huang

你认为为什么这么多的虚拟世界研究都集中在虚拟世界？我相信不仅仅是因为许多深度学习研究人员喜欢玩电子游戏，虽然这可能也有点帮助。你觉得在虚拟世界中解决问题与物理世界中的问题有什么联系？两者如何相互影响？

Jim Fan

是的，我一直认为游戏和机器人之间有很多相似的原则。对于具身智能体来说，它们的输入是感知信息，比如视频流和一些感官输入，输出则是行动。

在游戏中，这可能是键盘和鼠标的动作，而在机器人中则是低级别的运动控制。所以从 API 的角度看，这两者是相似的。

这些智能体需要探索世界，某种程度上需要自己收集数据，这就是我们所谓的强化学习和自我探索，而这一原则在物理智能体和虚拟智能体中都是共享的。但不同之处在于，机器人技术更难，因为你需要跨越模拟与现实的差距。

在模拟中，物理和渲染永远无法完美，所以将模拟中学到的东西转移到现实世界是一大挑战，这是一个开放的研究问题。

因此，机器人技术有一个“模拟与现实差距”问题，而游戏则没有。你是在同一个环境中训练和测试。因此，这是它们之间的区别之一。

去年我提出了一个概念，叫做基础智能体（Foundation Agent），我相信最终我们会拥有一个可以同时应用于虚拟和物理智能体的模型。

基础智能体将能够在三个方面实现泛化：第一是它能够执行的技能，第二是它能够控制的具身形态，第三是它能够掌握的世界，无论是虚拟世界还是现实世界。这就是我们GER团队想要追求的终极愿景，基础智能体。

Stephanie Zhan

谈到虚拟世界和游戏领域，你已经在开放环境中解锁了一些推理和涌现行为。在游戏世界里，你个人的梦想是什么？你希望 AI 智能体在游戏领域带来怎样的创新？

Jim Fan

是的，我对两个方面特别兴奋。首先是游戏中的智能体。现在的 NPC （非玩家角色）有固定的脚本，都是手动编写的。但如果我们有真正“活着”的 NPC 呢？

他们能够记住你之前告诉他们的事情，并且可以在游戏世界中采取行动，改变游戏的叙事和故事发展。这是我们还没有见到的，但我觉得这里有巨大的潜力。

这样一来，每个人玩同一个游戏都会有不同的体验，甚至一个人两次玩同一个游戏，故事也不一样，这样每个游戏都有无限的重玩价值。

第二个方面是游戏世界本身的生成。我们已经看到了许多工具在做这方面的部分工作，比如从文本生成 3D 资产，或者从文本生成视频的模型，还有能够生成故事情节的语言模型。

如果我们把这些工具结合起来，那么游戏世界可以在你玩的时候即时生成，并与你互动。这将是非常令人惊叹的，也是一个真正开放式的体验。

Stephanie Zhan

特别有趣。关于智能体的愿景，你觉得需要 GPT-4 级别的能力吗？还是像 Llama 8B 这样的模型就能实现？

Jim Fan

我认为智能体需要具备几个关键能力。首先，它需要能够进行有趣的对话，拥有一致的个性，具备长期记忆，还要能够在世界中采取行动。

就这些方面而言，目前的 Llama 模型已经相当不错，但还不足以产生非常多样化和引人入胜的行为。因此，我认为在这方面仍有差距。另一个问题是推理成本。

如果我们想将这些智能体部署给游戏玩家，要么需要非常低的云托管成本，要么能够在本地设备上运行，否则在成本上是不可扩展的。所以这是另一个需要优化的因素。

Sonya Huang

你觉得在虚拟世界中的所有工作，是否是为了服务于物理世界的目标？还是说虚拟世界本身就是一个足够有价值的领域？你如何在物理世界和虚拟世界之间平衡你的工作优先级？

Jim Fan

我认为虚拟世界和物理世界最终只是在同一个轴上的不同现实。举个例子，有一种技术叫做领域随机化，它的工作原理是你在模拟中训练机器人，但同时在 1 万个不同的模拟中并行训练，每个模拟的物理参数都不同，比如重力、摩擦力、重量等。这实际上是 1 万个不同的世界。

如果我们有一个智能体能够掌握所有这 1 万个不同的现实配置，那么我们现实的物理世界就只是第 1 万零一个模拟。在这种情况下，我们能够从虚拟世界直接泛化到现实世界。

这实际上正是我们在 Eureka 后续工作中所做的。我们使用各种随机化的模拟训练智能体，然后无需进一步微调，就能够将其直接转移到现实世界。

我相信这种方法是有效的。如果我们有各种虚拟世界（包括游戏世界），并且有一个智能体能够在所有这些世界中掌握各种技能，那么现实世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 项目？

Jim Fan

当然。在 Dr. Eureka 项目中，我们基于 Eureka 的成果，依然使用 LLM 作为机器人开发者。LLM 会编写代码，代码用于指定模拟参数，比如领域随机化参数。

经过几次迭代后，我们在模拟中训练的策略能够泛化到现实世界。我们展示的一个具体例子是，我们让一个机器人狗在瑜伽球上行走，它不仅能够保持平衡，还能向前行走。

有一个非常有趣的评论，有人让自己的真狗去尝试这个任务，结果发现它的狗真的能做到这一点。所以在某种程度上，我们的神经网络超越了“真狗”的表现。

Sonya Huang

我敢肯定我的狗是做不到的，哈哈。

Jim Fan

是的，人工狗智能（ADI），这是下一本冒险书的主题。

Sonya Huang

在虚拟世界领域，最近出现了很多令人难以置信的 3D 和视频生成模型，许多都是基于 Transformer 的。你觉得我们是否已经达到了那个可以凭借这些架构实现理想目标的阶段？或者你认为在模型架构方面仍然需要一些突破？

Jim Fan

是的，我认为在机器人基础模型方面，我们还没有充分发挥 Transformer 架构的极限。当前更大的瓶颈是数据问题。

正如我之前提到的，我们无法从互联网上下载机器人控制的数据。我们必须在模拟中或通过真实机器人收集这些数据。

一旦我们有了成熟的数据管道，我们就可以将这些数据 token 化，然后将它们送入 Transformer 进行压缩，就像 Transformer 预测 Wikipedia 上的下一个词一样。

我们仍在验证这些假设，但我认为 Transformer 的极限还未被充分探索。目前也有很多替代 Transformer 架构的研究，我对此非常感兴趣。

最近有一种叫做测试时训练（test-time training）的架构，还有一些其他的替代方案，它们提出了一些非常有前景的想法。虽然这些替代架构还没有达到最前沿模型的表现，但我期待看到更多 Transformer 的替代方案出现。

Stephanie Zhan

有没有什么特别吸引你注意的模型，为什么？

Jim Fan

是的，我提到了“member”工作和“测试时训练”模型，这些模型在不同时间点表现得更有效率。与 Transformer 模型需要处理所有过去的 token 不同，这些模型有更高效的内在机制，所以我觉得它们很有前途。不过，我们需要将它们扩展到前沿模型的规模，才能真正看到它们与 Transformer 的正面对比。

Stephanie Zhan

具身智能领域之外，你对 AI 最感兴趣的是什么？

Jim Fan

我对视频生成特别兴奋，因为我认为视频生成是一种世界模拟器。我们可以从数据中学习物理和渲染。我们已经看到了像 OpenAI 的 Sora 这样的模型，后来有很多新模型跟上了 Sora，所以这是一个正在进行的研究话题。

Sonya Huang

世界模拟器能带给我们什么？

Jim Fan

我认为它能为我们带来一个数据驱动的模拟环境，在其中我们可以训练具身智能，那将会非常了不起。

Stephanie Zhan

从长期来看，你对 AI 最感兴趣的是什么？十年或更久以后？

Jim Fan

有几个方面。首先是推理方面，我对能够编程的模型非常感兴趣。我认为编程是一个非常基础的推理任务，同时具有巨大的经济价值。也许十年后，我们会有达到人类水平的编程智能体，这将大大加速开发进程，使用这些大模型本身。第二个方面当然是机器人技术。

我认为十年后，我们将拥有像人类一样可靠和敏捷的人形机器人，甚至可能超越人类。我希望到那时，Project Groot会取得成功，我们能够拥有帮助我们日常生活的人形机器人。

我只是希望机器人能帮我洗衣服。这是我的梦想。

Sonya Huang

你觉得哪一年机器人会帮我们洗衣服？

Jim Fan

越快越好，我已经等不及了。

Sonya Huang

在 AI 领域，谁最启发你？你曾有机会与许多伟大的 AI 人物共事，最早可以追溯到你的实习时期。现在谁对你影响最大？

Jim Fan

我在 AI 领域有太多的英雄。首先，我非常敬佩我的博士导师 Fei-Fei Li。她教会了我如何培养良好的研究品味。

有时候，问题不是如何解决，而是要确定哪些问题值得解决。实际上，“什么问题”比“如何解决问题”要难得多。

在博士期间，我在她的指导下转向了具身智能研究，现在回想起来，这是正确的方向。我相信 AI 智能体的未来将是具身的，不论是用于机器人还是虚拟世界。

我也很敬佩 Andrej Karpathy，他是一位伟大的教育家，他写代码就像写诗一样，我非常仰慕他。还有 Jensen Huang，我对他的敬佩之情溢于言表。他不仅关心 AI 研究，还非常了解模型的技术细节，这让我非常佩服。

Stephanie Zhan

谈到拥有良好的研究品味，你对那些在 AI 领域创业的创始人有何建议？他们该如何找到正确的问题去解决？

Jim Fan

我认为有一些研究论文现在变得越来越容易理解，里面有一些非常好的想法，而且越来越实用，而不仅仅是理论性的机器学习。因此，我建议大家保持对最新文献的关注，同时尝试其他人开发的开源工具。比如在 Nvidia ，我们开发了模拟器工具，任何人都可以访问并下载，可以在模拟环境中试验机器人，亲自实践是非常重要的。

Stephanie Zhan

说到 Jensen 作为一个偶像，你认为那些在 AI 领域创业的创始人能从他身上学到哪些实用的建议？

Jim Fan

我认为是找到正确的方向去努力。例如， Nvidia 押注于人形机器人，因为我们相信这是未来。还有具身智能，如果我们相信十年后世界上会有和 iPhone 一样多的智能机器人，那么我们最好今天就开始努力。

VC 今年以来对 AI 初创公司投资达 641 亿美元，接近 2021 年峰值，但全球 AI 年收入总额也才数百亿美元

。

题图来自Unsplash，基于 CC0 协议。