英伟达携手HuggingFace推出最强AI超算，黄仁勋拟加收大模型税

更新时间：2023-08-09 16:37:57作者：yidaimei

黄仁勋在 SIGGRAPH 2023 的主题演讲上透露了英伟达为降低生成式AI使用门槛所做的最新努力。

生成式AI是这次大会毋庸置疑的绝对主角，黄仁勋会上透露的在软件和硬件以及生态方面的更新，归结起来就是尽力降低生成式AI的使用门槛——促进大模型的真正落地。

“买的越多，省的越多”2.0

硬件方面，英伟达推出了GH200超级芯片的更新版，或者可以叫它HBM3E增强版。它是世界第一款HBM3e 处理器。

通过英伟达NVLink技术，彼此互联的Grace Hopper超级芯片平台能够提供1.2TB的快速内存，由于HBM3e 内存比当前 HBM3 快 50%，平台总共能提供 10TB/秒的组合带宽。也就是说，其内存容量增加3.5倍，带宽增加了3倍，平台包括了一台具有144 个 Arm Neoverse 核心、8 petaflops 的 AI 性能和 282GB 最新 HBM3e 内存技术的服务器。它同时与早先在台北电脑展上公布的英伟达MGX服务器规范完全兼容。

数据中心的硬件正在快速向加速计算转变，这是黄仁勋一直在强调的一个趋势。相比CPU，GPU在能效上有很大的优势，黄仁勋演讲中举的例子是同样1亿美元成本，相比x86架构CPU，GH200将能提供超过20倍能效提升。

于是我们又听到了黄仁勋那句名言：the more you buy, the more you save. 买的越多，省的越多。

可以说也是不忘初心了。

除了数据中心外，黄仁勋还发布了两套硬件，它们同样针对大模型而来。

一款是桌面级的RTX工作站，包括最多四个RTX 6000 Ada GPU，单个桌面工作站可提供高达5,828 tflops的AI性能和192GB GPU内存。

另一款是 OVX服务器，其中包括了8个英伟达L40S GPU，每个 GPU 配备 48GB 内存，可提供超过 1.45 petaflops 的张量处理能力。

作为对比，新的RTX工作站运行8.6亿个token的GPT3-40B需要15个小时，OVX服务器则只需要7小时。实际上，OVX服务器相比A100，推理性能提高了1.2倍，训练性能上提高1.7倍。其单精度浮点 (FP32) 性能是 A100 的近 5 倍。

这些硬件的更新是有梯度的，黄仁勋演讲中也点的很明白：for everyone，英伟达在每个价格阶段上都为潜在客户准备了对应产品。

因此除了服务器和工作站之外，英伟达还同时发布了三款专业显卡——RTX 5000, RTX 4500 and RTX 4000，它们采用了Ada Lovelace 架构，在显存方面都有提升（RTX 4000有 20GB GDDR6显存；RTX 4500 为24GB；RTX 5000 最高为32GB ），这是英伟达显卡过去曾一度削弱的部分，而现在显存对于大模型来说无比重要。另外它们还使用了第四代Tensor Core，AI 训练性能比上一代快了两倍，并扩展了对 FP8 数据格式的支持。

这些硬件最终组成了一个矩阵，囊括了从企业级客户到个人用户。但在黄仁勋看来，想要触达每一个人，英伟达还需要一些“软工具”。

软硬兼施

距离黄仁勋推出 DGX Cloud 才短短几个月，英伟达在降低用户和开发者使用大模型门槛方面又有新的动作。

其中一项是非常好猜的，那就是和 Hugging Face 的合作。在此之前，Hugging Face 已经和包括 AMD 亚马逊云等在内的诸多巨头紧密合作，大家都看中了它集成开放模型的优势，英伟达也不例外。

“点击一下鼠标即可实现英伟达AI计算。”黄仁勋说，几个月前发布的DGX Cloud 和Hugging Face 平台集成到了一起。用户可以先在自己的电脑上启动项目，然后扩展到工作站和数据中心。

另一项名叫英伟达AI Workbench，开发人员可以直接在PC和工作站上创建、测试和定制预训大模型。这非常像国内的大模型预训练平台，把模型、框架和软件开发套件与库集合到了一个统一的开发人员工具包中。要说区别那就是AI Workbench能直接调用英伟达的算力资源，并且更好的支持英伟达的硬件——前面发布的那些工作站和服务器不用说都支持AI Workbench的本地测试和微调。

它的界面就是一个网站。截图可以看到，本地计算机使用的是消费级 4090 移动版显卡。

这极大简化了大模型的操作流程，实际上你只需要一台电脑就够了。

“每个人都可以做到这一点。”黄仁勋说道，某种意义上讲，这像是大模型的民主化。

另外一个旨在降低生成式AI部署门槛的服务是名为AI Enterprise 4.0的企业软件平台，主要针对企业客户。AI Enterprise 4.0包括了名为NeMo的大模型云原生框架和集群管理软件，帮助企业客户管理从云到数据中心再到边缘设备的所有AI解决方案，它会被集成到谷歌云和微软的Azure。

场景在哪里

大模型最近一个颇为引人争论的话题是，它的场景到底在哪里？

这对善于从第一性原理出发的老黄来说恐怕完全不是问题，一方面有硬件技术，一方面有软实力。英伟达的层次显然更高一点——不是找寻场景，而是打造生态。因为在英伟达看来，恐怕没有什么所谓“垂直场景”，一切都可以被生成式AI介入，承载它的是Omniverse。

元宇宙在黄仁勋这里不是一个过气的名词，而是连接虚拟与物理世界，并且极大开发生成式AI潜力的工具。在虚拟与现实的转换中，英伟达看中了名为Universal Scene Description，通用场景描述（简称OpenUSD）的潜力。

黄仁勋把OpenUSD对虚拟世界的重要性与HTML之于2D互联网的重要性相提并论。简单来说，你可以把OpenUSD理解成一套通用的描述3D场景的语言——这在过去往往需要非常复杂的流程和不同的工具才能实现。

有了这种通用语言，不同的人能基于同样的背景建构3D世界——也就是元宇宙的世界。

显而易见，OpenUSD在英伟达的元宇宙愿景中占有重要地位，为此，Omniverse进行了多重升级。

一方面，黄仁勋推出了四个Omniverse Cloud API，方便开发人员无缝地实施和部署 OpenUSD 应用。

最吸引人的是一个名为ChatUSD的功能，顾名思义，它能通过问答形式帮助开发者生成3D模型，现场演示的例子中，你提出要求，ChatUSD可以直接给你提供Python-USD 代码脚本——直接使用它们就可以了！

另外使用了生成式AI技术的API名为DeepSearch，它是一个大语言代理（LLM agent），可以快速搜索无标记数据库的内容。

另一方面，Omniverse本身进行了大升级以更好支持OpenUSD，比如用少量的编码就能快速开发本机 OpenUSD 应用以及允许用户组建基于OpenUSD的大规模场景。

在英伟达看来，Omniverse 将因为OpenUSD而增强，它可以跨3D工具和应用进行对世界的虚拟，这意味着一种生态的搭建：既然大家都是用OpenUSD进行3D世界的建构，那么显然，数字孪生所需要的互联、互相操作可以以此为基础实现。

由此，英伟达的元宇宙生态——它被生成式AI和OpenUSD所加持——变得初具规模。Adobe Firefly可以作为 Omniverse 中的 API 提供给开发者，而许多业界知名的元宇宙和虚拟人开发者，Convai、Inworld AI和Wonder Dynamics都能够借助OpenUSD的通用标准与Omniverse实现连接。

英伟达对元宇宙的未来充满自信。波士顿动力正在使用Omniverse来模拟机器人交互，更多的工业自动化案例。包括沃尔沃、奔驰和宝马都是Omniverse的客户——在实际投入巨资建设一个昂贵的工厂之前，它们在Omniverse的虚拟世界里检查和测试物理世界的方方面面。

步入融合

生成式AI热度不退，英伟达当然更有理由为其添一把柴，老黄是个尽职尽责的商人，发布会上他说的最后一句话还是 the more you buy, the more you save. 足见其不忘初心的商人本色。

而想要让自己的硬件卖的更好，股价再创新高，英伟达一面需要不断迭代产品，提升性能，打造更丰富的生成式AI产品矩阵，另外一方面还要进一步降低大模型的使用门槛——后者甚至只有英伟达才能做到，它踩中了一个绝佳的点位，图形。

为了让机器生成图像，人类花了几十年时间，最终英伟达开发出了显示卡，而现在的事实证明，适用于图形显示的并行计算恰好也适用于生成式AI，而虚拟世界也需要更强大的图形技术和人工智能的帮助。

黄仁勋在演讲刚开始的时候就举了个例子：来自全球最大广告公司WPP的艺术家通过Omniverse运用多种支持OpenUSD的工具创建了比亚迪汽车的数字孪生版本——全球100多个地区的营销活动基于这些生成内容。

五年前的SIGGRAPH大会，英伟达发布了支持光线追踪的GPU，那时恐怕没有人会想到，人工智能，虚拟世界，加速计算，云，它们会以如此迅猛的速度逐渐融合为一体。