超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%

如今，人工智能发展迅猛，大模型更是成为推动AI技术进步的“引擎”。然而，随着模型参数量的激增，算力需求也呈指数级增长，如何高效、低成本地运行大模型成为行业面临的共同挑战。

以DeepSeek R1满血大模型为例，其参数量高达6710亿，由于其采用了前沿的MLA注意力机制、共享专家和路由专家共同组成的混合专家（MoE）架构，在提升推理效能方面成果显著，但是企业在实际应用过程中，对大模型的性价比有着更为极致的追求。

近日，超聚变FusionOne AI大模型一体机通过软硬协同，深度调优，成功打破了H20运行DeepSeek满血大模型的性能天花板。在模拟问题对话场景（上下文序列长度1K/1K）下，仅需1台FusionServer G8600搭载8张H20硬件，即可流畅运行DeepSeek R1满血版，支持1024并发访问数，总吞吐量高达6335 token/s，性能领先业内H20方案60%。其中，TPOT（Time per Output Token）时延相比业内H20方案减少40%，单台FusionOne AI大模型一体机即可支撑数千人规模企业使用，将单机H20运行大模型的性能推向新高度。

软硬协同调优，打破 H20 性能天花板

算力释放，显存最优分配：通过内核优化，提升显存空间利用率20%，KV cache池使用率提升至93%，保障模型参数、过程KV高效运行
数据、模型并行调度：通过DP数据并行、TP模型张量并行技术，调度多卡分布式并行计算，提升token产生的吞吐效率50%，有效提升计算效能
推理任务切片混合调度：Prefill阶段（首token输出阶段任务）长文本切片, 加速初始内容生成速度，同时在每个切片计算过程中，混合调度Decode任务（后续token迭代生成任务）并行运行, 无需串行等待，提高资源利用率，降低TTFT（Time to First Token）和TPOT（Time per Output Token ）。

超聚变FusionOne AI大模型一体机以极致成本、性能跃升的双重突破，大幅降低DeepSeek-R1 671B模型的部署门槛，以普惠形态让更多企业和科研机构能够轻松应用。未来，超聚变将持续加大研发投入，聚焦AI算力优化与应用拓展，加速企业AI应用落地。

*本文图片均来源于网络

仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能十万个为什么》

•【重点关注领域】智能家电（含白电、黑电、智能手机、无人机等AIoT设备）、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)