开云体育
开云体育官方浪潮信息AI服务器:89ms推理破纪录百万Token成本仅1元!
markdown 浪潮信息在近期的人工智能计算大会上,发布了其超扩展AI服务器元脑HC1000和元脑SD200超节点,引发了业界对
元脑SD200超节点AI服务器,凭借其卓越的性能,成功将大模型端到端推理延迟控制在10ms以内。在运行DeepSeek-R1时,TPOT(每Token输出时间)仅为8.9ms,这一成绩远超业界平均水平,也领先了前SOTA(15ms)近一倍。 此外,元脑SD200还实现了DeepSeek-R1 671B模型的16.3倍超线性扩展率。 如此出色的表现,得益于元脑SD200在架构、互联协议和优化策略上的多重创新。 其采用创新的多主机3DMesh系统架构,通过自研的OpenFabricSwitch,将多个主机的GPU资源整合,构建统一的计算域。 这种架构不仅提升了显存统一地址空间,还实现了单机64路的Scaleup纵向扩展,从而能够支持超万亿参数大模型的推理和多智能体实时协作。 在互联协议方面,元脑SD200采用了极简的三层协议栈,将基础通信的延迟降至百纳秒级。 同时,硬件层面的链路层重传和分布式流控机制,也确保了通信的稳定可靠。
除了速度,成本也是智能体产业化过程中不可忽视的关键因素。 浪潮信息推出的元脑HC1000超扩展AI服务器,旨在降低Token推理成本。 通过创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计以及全对称的系统拓扑设计,元脑HC1000实现了单卡成本降低60%、均摊系统成本降低50%的目标,最终将每百万Token输出成本降低至1元。 这对于Token消耗量暴增的智能体应用来说,无疑具有巨大的吸引力。 元脑HC1000通过将推理过程的Prefill和Decode阶段分离,并进一步分解Decode阶段,从而提高了资源利用效率。 此外,全对称DirectCom极速架构,也保障了计算、通信的均衡分配。
浪潮信息此次发布的服务器,针对智能体时代对速度和成本的双重需求,给出了极具竞争力的解决方案。 在智能体应用中,更快的输出速度可以提升用户体验,也能够在竞争中占据优势。 而更低的Token成本,则能够降低应用门槛,加速规模化落地。 浪潮信息首席AI战略官刘军指出,通用架构效率低,但适应性强,易于产业化推广;专用架构效率高,但应用面窄,不利于普及推广。 浪潮信息的解决方案,正是基于对AI计算架构发展趋势的深刻理解,通过软硬件协同设计与深度优化,为智能体时代的高效落地提供了可持续、可扩展的基础设施保障。