开云体育
DeepSeek惊天逆袭:叛离CUDAPTX优化引领AI新潮流开云体育
在科技界掀起波澜的DeepSeek团队,最近又抛出重磅炸弹——他们已成功绕过英伟达的CUDA,转而使用Low-Level汇编语言PTX进行超高效的语言模型训练。这一逆转令整个硅谷和华尔街为之颤栗。其R1模型的低成本训练已经震动业界,难以想象如今DeepSeek打造的超级AI甚至将CUDA抛诸脑后!
最新报道显示,DeepSeek借助2748台H800 GPU的庞大集群,在短短两个月内完成了6710亿参数的Mixture of Experts(MoE)模型训练,性能比业界其他顶尖AI高出了整整10倍。更令人惊叹的是,这一切竟然都是通过细粒度优化和直接操作PTX编程实现的。这一策略让不少业内专家感叹:“若要说超越CUDA,敢言‘CUDA太慢!不如自己用PTX打拼’的,只能是这些前量化交易员。”
DeepSeek的这一操作,意味着什么?简单来说,PTX作为英伟达GPU的中间指令集,为开发者提供了前所未有的底层优化能力,使得性能可以被调至极致。在V3模型训练中,DeepSeek将132个多核流处理器中的20个专门配置为处理服务器间的通信任务,以有效突破数据堆积与传输瓶颈。相较于传统CUDA开发,这种针对性的BTX调优展现了DeepSeek团队的极高技术水平。
在全球GPU短缺及美国科技限制的双重压力下,DeepSeek的创新举措极具前瞻性。行业专家如前英特尔CEO Pat Gelsinger表示,AI应用的未来或许不再依赖昂贵的高性能硬件,而是旨在将各种设备上的AI能力普及化。这是否意味着没有庞大GPU集群,前沿的LLM(大型语言模型)开发也能如鱼得水?
尽管许多AI开发者还不太认同这一观点,但是,DeepSeek的开源V3模型和详细技术报告无疑为数据处理和算法优化打开了新的视角。通过重建核心计算单元并实施细致的PTX优化,DeepSeek的这一成功案例不仅突显了他们在GPU领域的创新可能性,也让人思考未来的技术发展方向。
总而言之,尽管PTX显著提升了性能,其技术的复杂性、维护难度依旧让大多数开发者驻足观望。大部分开发者依然选择使用更为简便的CUDA及其衍生品。而对那些准备在技术最前沿挑战自我极限的开发者而言,PTX或许是条可以探索的高效路径,值得一试。返回搜狐,查看更多