文/黄海峰的通信生活
11月13日,英伟达在国际超算大会SC23上推出新一代AI计算平台NVIDIA HGX H200。业界疯狂囤货H100成为常态,甚至将H100作为贷款抵押品。此时,黄仁勋又带着H200跑来炸场!来势汹汹的H200带来哪些升级,《海峰看科技》给大家划下重点:
其一,相比H100,H200的推理速度提升60%-90%,带宽提升1.4倍,显存容量提升1.8倍;其二,H200将于2024年第二季度向全球系统制造商和云服务提供商供货;其三,英伟达将于2024年发布新一代旗舰AI芯片B100,持续突破性能与效率的极限。
英伟达加速计算总经理兼副总裁伊恩·巴克称:”想要通过生成式AI和HPC应用创造智能,就要使用大型、快速的GPU显存高速、高效地处理海量数据。H200将是的业界领先的端到端AI超级计算平台的速度变得更快,一些世界上最重要的挑战,都可以被解决。”
史上最强,H200要做世界领先的AI计算平台
“世界领先的AI计算平台”,这是英伟达高性能计算和超大规模数据中心业务副总裁Ian Buck对H200抱有的期待!H200为大模型训练和推理而生,具体性能表现如何,先给大家放一张完整参数图,再来仔细盘盘。
第一,H200支持NVIDIA NVLink和NVSwitch高速互连,可支持超过1750亿参数规模模型的训练和推理。同时,单张H200跑700亿参数的Llama 2大语言模型,推理速度比H100快90%;8张H200跑1750亿参数的GPT-3大语言模型,推理速度比8张100快60%。
第二,作为首款内置全球最快内存HBM3e的GPU,H200能以每秒4.8TB的速度提供141GB内存,与A100相比,容量几乎翻倍,带宽增加了2.4倍。在GPT-3推理表现中,H200的性能比A100提高11倍,H200 Tensor Core GPU的性能比A100提高18倍。
第三,H200将与H100兼容,这意味着已经在使用H100进行训练的人工智能公司和华硕、戴尔科技、惠普等在内的服务器制造商,不需要改变企业服务器系统或软件来适应H200。未来,H200可以部署在各种类型的数据中心,包括本地、云、混合云和边缘。
第四,H200将于2024年第二季度开始向全球系统制造商和云服务提供商供货,除了AI算力和云服务公司CoreWeave、亚马逊无服务器计算服务Lambda和云平台Vultr之外,AWS、谷歌云、微软Azure和甲骨文云将从明年成为首批部署基于H200实例的云服务提供商。
第五,英伟达加速计算总经理兼副总裁伊恩·巴克表示,英伟达将在未来几个月内继续增强H100和H200的性能,2024年发布的新一代旗舰AI芯片B100将继续突破性能与效率的极限,据了解,B100芯片基于Blackwell架构打造而成。
随着AI大模型的部署加速,业界对AI芯片的需求供不应求。此前,英伟达数据中心AI芯片通常保持两年更新一次芯片架构,最新芯片架构是Hopper。上个月,英伟达向投资人披露,英伟达将从每两年发布一次新架构转向每一年发布一次。
除了各种芯片性能升级,大家的关注点主要在于中国企业能否能够得到这些新芯片,或者是否会像H100一样受到供应限制。对于这个问题,英伟达表示正在开发新的人工智能芯片作为应对,具体将在11月21日公布财报之时向投资者提供更清晰的情况。
目前,价格问题也是个“迷”,英伟达并没有给出H200的价格信息。不过,H100的价格在25000到40000美元之间,可以作为参考。
面对来势汹汹的H200,英特尔和AMD也在摩拳擦掌。一方面,AMD计划将推出Instinct MI300X,配备192GB的HBM3和5.2TB/s的显存带宽,其容量和带宽将远超H200。另一方面,英特尔也摩拳擦掌,计划提升Gaudi AI芯片的HBM容量,并表示明年推出的第三代Gaudi AI芯片将从上一代的 96GB HBM2e增加到144GB,英特尔Max系列目前HBM2容量最高为128GB,英特尔计划还要增加Max系列芯片的容量。
前景可期,我国AI芯片研发按下加速键
H200是属于英伟达的狂欢,但作为中国企业,我们要思考的是:目前我国AI芯片研发现状正逐步增强,从低端向高端市场延伸,不断打破技术壁垒,开拓新的应用领域。AI芯片研发和生态构建道阻且长,所幸的是,我们积累了一定的基础,没那么害怕卡脖子了。
一方面,技术水平不断提升。近年中国AI芯片公司推出多种新型高性能产品,其中,海思、寒武纪等在神经网络处理单元、边缘计算等领域表现突出。例如华为推出Atlas 900 Super Cluster,支持超万亿参数大模型训练,为AI提供最强大脑核心;寒武纪推出Cambricon MLU 100,是面向云计算和边缘计算应用的AI处理器,支持广泛的神经网络框架。
另一方面,应用场景多样化。除语音识别、图像识别等应用场景外,AI芯片也被用于自动驾驶、智能医疗、金融风控等领域。在自动驾驶领域,阿里平头哥玄铁910被认为是世界上首个基于RISC-V架构的汽车级SoC,可用于自动驾驶系统中的视觉处理和传感器融合。
虽然我国已经在AI芯片取得长足进步,不过仍面临着诸多挑战。第一,中国AI芯片技术与国际先进水平仍有较大差距,在GPU、FPGA等通用型芯片的设计和制造上处于劣势。第二,AI芯片行业人才短缺,国内缺乏高级工程师和科学家,以及在芯片设计、测试、生产等领域具备专业知识的专业人员。
路虽远行则将至,事虽难做则必成。未来,希望有更多的资金、人才、政策,给到AI端到端产业,希望AI领域的蛀虫们少一些,实干派多一些,一步一个脚印,终将抵达顶点。