如今,人工智能发展迅猛,大模型更是成为推动AI技术进步的“引擎”。然而,随着模型参数量的激增,算力需求也呈指数级增长,如何高效、低成本地运行大模型成为行业面临的共同挑战。
以DeepSeek R1满血大模型为例,其参数量高达6710亿,由于其采用了前沿的MLA注意力机制、共享专家和路由专家共同组成的混合专家(MoE)架构,在提升推理效能方面成果显著,但是企业在实际应用过程中,对大模型的性价比有着更为极致的追求。
近日,超聚变FusionOne AI大模型一体机通过软硬协同,深度调优,成功打破了H20运行DeepSeek满血大模型的性能天花板。在模拟问题对话场景(上下文序列长度1K/1K)下,仅需1台FusionServer G8600搭载8张H20硬件,即可流畅运行DeepSeek R1满血版,支持1024并发访问数,总吞吐量高达6335 token/s,性能领先业内H20方案60%。其中,TPOT(Time per Output Token)时延相比业内H20方案减少40%,单台FusionOne AI大模型一体机即可支撑数千人规模企业使用,将单机H20运行大模型的性能推向新高度。
软硬协同调优,打破 H20 性能天花板
超聚变FusionOne AI大模型一体机以极致成本、性能跃升的双重突破,大幅降低DeepSeek-R1 671B模型的部署门槛,以普惠形态让更多企业和科研机构能够轻松应用。未来,超聚变将持续加大研发投入,聚焦AI算力优化与应用拓展,加速企业AI应用落地。
*本文图片均来源于网络
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
•AI产业新媒体;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。