开云体育
开云APP下载腾讯技术助力DeepEP性能提升30%AI大模型训练更高效
在科技迅猛发展的今天,AI大模型的训练效率成为了业界关注的焦点。5月7日,DeepSeek团队对外宣布,腾讯技术团队针对其开源的DeepEP通信框架进行了深度优化,带来了显著的性能提升。经过测试,优化后的DeepEP在RoCE网络环境中的性能提升达到了100%,而在IB网络环境中则提升了30%,为企业在AI大模型训练中提供了更高效的解决方案。
自今年2月DeepSeek开源了包括DeepEP在内的五大代码库以来,该团队一直致力于展示如何在有限的硬件资源下实现接近万卡集群的性能。DeepEP凭借其突破性的方法,成功提升了300%的通信效率,有效解决了MoE架构大模型对英伟达NCCL的依赖问题。然而,DeepEP在成本较低且适用面更广的RoCE网络环境中的表现却不尽如人意,这一痛点引发了开源社区的广泛讨论。
腾讯星脉网络团队凭借在RoCE网络领域的深厚积累,迅速展开了技术攻关,针对DeepEP的性能瓶颈进行深入分析。团队发现,双端口网卡的带宽利用率不足以及CPU控制面交互存在时延是影响性能的两大关键因素。为了解决这些问题,腾讯团队采取了多项创新措施,首先通过拓扑感知的多QP建链技术,实现了带宽分配的智能化,优化了双端口网卡的带宽利用率,确保每条数据通道都能得到充分使用,避免了带宽的浪费。
其次,腾讯还针对GPU通信中的CPU控制瓶颈进行了优化。通过基于IBGDA技术的创新,腾讯使得“控制面”场景的操作得以绕过CPU的“中转”,从而降低了延迟和能耗,进一步提升了整体通信效率。为了解决GPU直接“对话”时可能出现的传输顺序混乱问题,腾讯提出了“QP内时序锁”机制,使得多个GPU间的数据传输能够精准、按顺序完成,即使在同时处理超过1000个数据传输任务的情况下,DeepEP也能自动理顺先后顺序。
在腾讯技术的加持下,DeepEP在RoCE网络的性能实现了翻倍,而在反哺到IB(InfiniBand)网络时,通信效率更是提升了30%。这一技术现已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构建的高性能环境中展现出卓越的通用性。这一系列的技术突破不仅为AI大模型的训练提供了新的解决方案,也为开源社区的持续发展注入了新的活力。
随着AI技术的不断演进,DeepEP的成功优化标志着在大规模计算与通信效率提升方面又迈出了重要一步,为企业的技术创新提供了坚实的基础。未来,期待更多技术团队能够借鉴这种创新思路,推动AI领域的进一步发展。返回搜狐,查看更多