比华为便宜！中国特供AI GPU：精准缩水美国放行

更新时间：2024-02-02 10:21:45作者：yidaimei

美国对中国半导体技术的封锁越来越严格，但是在商言商，NVIDIA始终没有放弃中国市场，一直想尽办法打造符合美国出口管制的中国特供版本，尤其是AI GPU，第二波三款正在到来。

最早针对美国禁售A100、H100，NVIDIA设计了特供版A800、H800，只是阉割传输带宽，算力丝毫不减。

但是很快，美国出台新规，算力也做了限制，A800、H800甚至是RTX 4090就都没法卖了。

为此，NVIDIA在游戏卡市场设计了RTX 4090D，已经低调上市。

而在AI加速领域，NVIDIA设计了H20、L20、L2，原计划2023年就发布出货，但为了完全符合出口管制，推迟了一段时间。

H20基于Hopper架构，是一款高性能的AI训练卡，正是中国客户亟需的，根据最新报道它已经开始小批量供货给中国，第二季度上量。

H20的定价据称仅为1.2-1.5万美元，比华为昇腾910B 1.7万美元要低不少，用心昭然若揭。

L20、L2均基于Ada Lovelace架构，均为AI推理卡，暂不清楚是否已经供货，可能要稍等等，对于中国客户而言也不是非常迫切的需要。

目前，三款新卡的最终规格已经确定，和之前曝光的基本一致。

H20的规格还是比较强的，INT8/FP8 Tensor算力为296T，BF16/FP16 Tensor算力为148T，TF32 Tensor算力为74T，FP32算力为44T，FP64算力为1T，功耗400W。

它具备60MB二级缓存、96GB HBM3内存，带宽4TB/s，支持7路NVDEC、7路NVJPEG视频引擎，还有着PCIe 5.0 x16系统接口、900GB/s NVLink互联带宽，支持最多7个MIG。

相比于H200，它少了45GB HBM3，算力更是阉割得七零八落，INT8/FP8、BF16/FP16、TF32都少了多达93％，FP64少了足足97％，只有FP32至少了35％。

但即便如此，H20 FP32性能依然不如华为昇腾910B，这也是后者最大的优势。

H20还可以八卡并行，组成一套HGX服务器，价格大约20万美元，而之前八块H800服务器需要大约28万美元。

L20是双插槽全高全长PCIe扩展卡，搭载96MB二级缓存、48GB GDDR6 ECC内存，带宽864GB/s，INT8/FP8算力为239T，更高精度逐级减半，但不支持FP64，功耗275W。

L2则是单插槽半高卡，只有36MB二级缓存、24GB GDDR6 ECC，带宽300GB/s，算力进一步降低INT8/FP8 193T，FP32额外砍了一半只有24.1T。

比华为便宜！中国特供AI GPU：精准缩水 美国放行