Time:2022-03-26 Click:484
3玩家和AI从业者又爱又恨的老黄带着他的新核弹来了。不幸的是,新的核弹与玩家关系不大,主要针对企业和工业市场RTX 40系估计最到9月才能有消息。
好了,废话不多说。让我们看看老黄这次带了什么样的大宝贝。A100显卡的接班人,新一代计算卡皇H100闪亮登场,H100采用全新的Hopper最新的架构和台积电4nm与上一代相比,工艺各方面的参数都比较了A100都有明显的改善。
超级服务器芯片英伟达Grace也再次曝光,与上次给出的数据相比,这次曝光Grace芯片性能有了惊人的提高。根据新闻发布会的描述,英伟达似乎走上了与苹果相同的道路,用更多的芯片组装成处理器。
除了硬件产品的曝光和发布外,英伟达还在软件领域带来了许多新的东西,如云合作Omniverse Cloud,让多个用户直接参与云中同一媒体文件的编辑和渲染。
此外,英伟达还展示了许多基于虚拟现实环境的工业和交通模拟案例,以及由AI驱动的虚拟角色系统可以通过深度学习进行动作训练。训练结束后,可以根据指令进行相应的动作,无需额外的骨骼动作设计。这不仅仅是AI从业者狂喜,电影游戏从业者狂喜。
不得不说,老黄这次带来了很多东西,一切都是对的AI当行业发展带来明显变化时,让我们详细看看英伟发布了什么。
自去年以来,有消息称英伟达今年将发布新一代计算卡,并将使用新的计算卡Hopper架构。目前来看消息准确的,只不过当初大家猜测新一代计算卡将采用台积电5nm但现在看来,英伟达已经选择一步到位使用最新4nm虽然工艺本质上是5 nm ,但在功耗方面性能更好,也可以集成更高的晶体管。
实际上,从H100的核心规格来看,也不难理解为什么英伟达最终选了4nm,与上一代相比,高达800亿的晶体管集成度A100超过260亿,内核数量增加到16896,是世界上核心数量最高的芯片核心,也是上一代1002.5倍。
根据英伟达官方给出的数据,夸大内核参数提升带来的性能提升也极为夸张,H100浮点计算和张量核心运算能力将比上一代至少提高3倍,FP32高达60万亿次/秒,而上一代A100为19.5万亿次/秒。
H100也将是第一个支持PCIe 5.0和HBM3,让内存带宽惊人3TB/s,老黄说只需要20张H100可以处理当前的全球网络流量,虽然听起来很夸张,但确实反映了H100夸张的性能参数。
英伟达给出的强大性能也伴随着夸张的功耗H100功耗高达700W(真正一代相比,真正意义上的核弹显卡)A100的功耗仅400W,但用2倍的功耗换来3倍的性能提升,整体上也不亏。
H100还针对AI训练等所要用到的模型进行针对性优化,为Transformer配备优化引擎,大模型训练速度可提高到原来的6倍,大大降低了大模型训练速度AI模型和其他训练所需的时间也与下面将讨论的特征相同AI虚拟角色系统相互呼应。
在英伟达给出的测试数据中,训练一个参数1750亿的人GPT-3模型的时间将从原来的一周减少到19小时,而一个参数为3950亿的模型Transforme训练只需21小时,效率提高了近9倍。
虽然参数看起来很漂亮,但实际性能还有待后续实际测试结果公布,至少从RTX 30系和A100根据经验,实际性能的最终提升可能是2倍-2.5实际上不太可能达到三倍,但即使只有两倍在AI方面已经完全碾压AMD的计算卡。
而且,H100还引入了英伟达最新的NVIDIA NVLink第四代互连技术可以进一步改进GPU在英伟达给出的数据中,串联效率是串联的I/O带宽可以扩展到900GB/s,比上一代高50%。
再来看看英伟达的新玩具Grace,这是英伟达为服务器业务准备的超级服务器芯片。以前曝光过很多。这一次,有了更多的信息,带来了全新的系列产品。Grace最新的芯片Arm V9以此为基准,英伟达打造了两款超级芯片——Grace Hopper和Grace CPU超级芯片。
其中,Grace Hopper由一个Grace CPU和一个Hopper架构的GPU的GPU两者将形成一个完整的计算系统,只需要一个芯片就可以构建一个强大的计算服务器,并将多个芯片串联起来,形成一个更大的计算阵列。
而Grace CPU超级芯片由两个组成Grace CPU组成,两个芯片通过NVIDIA NVLink-C2C技术互连构成内置144个Arm并拥有核心1TB/s巨无霸级芯片内存带宽(Grace CPU Ultra?)。
说实话,英伟达的这个Grace CPU很难不想到苹果在春季新闻发布会上发布的超级芯片M1 Ultra,同样是基于Arm结构也由两个芯片组成,也有夸张的内存带宽和性能。
显然,芯片互联组装技术已成为行业的趋势之一,AMD类似技术也被曝光。CPU在研发中,我们最早将在2023年与您见面。只能说,单芯片的性能发展接近极限。如果你想有更大的改进,你可能不得不使用类似的互联网技术来堆叠芯片。
不过,Grace CPU超级芯片的功耗的超级芯片功耗不低的数据是500W,远远超过传统x86架构CPU,当然,考虑一下Grace CPU夸张的超级芯片性能:SPECrate跑740分,比第二名高60%,这个功耗也不是不可接受的。
显然,在Arm在服务器领域,英伟达雄心勃勃。
虚拟世界的英伟达
除了一堆高性能硬件外,英伟达还展示了许多软件示范案例,包括使用H100等待硬件模拟虚拟现实环境进行各种测试和模拟。在英伟达的示范中,未来企业可以通过强大的英伟达硬件构建虚拟测试环境,测试自动驾驶和智能工厂的运营。
通过使用虚拟测试环境,研究人员可以更容易地测试自动驾驶在面对各种紧急情况时的反馈,并直接定位测试中的问题,以降低整体测试成本。此外,还可以建立1:1的数字工厂,提前模拟运行,提高效率,发现可能出现的问题,降低工厂正式运行后出现问题的可能性。