开云体育
开云APP下载DeepSeek:AGI时代的“中国新范式”
写诗、查资料、学习外语,国内外上百家上市公司、互联网平台甚至政务系统纷纷接入
梁文锋是一名“80后”,17岁考入浙江大学信息与电子工程学系,在校期间深入研究数据分析和计算机系统,并对金融市场产生浓厚兴趣。2008年国际金融危机期间,梁文锋逆势而上,带领团队探索如何以先进的数学模型替代人为的主观判断,以更高速、更智能的计算机程序对市场进行分析,并作出理性的投资决策。
这种做法被称为量化交易。经济不断变化,算法有待完善,早期模型不断遭遇失败。但梁文锋的团队并不气馁,反复试错,不断调整,模型开始对动荡的市场变化作出准确度较高的预测。自2009年开始,量化交易成为一种趋势。
2013年,梁文锋和同学徐金共同创办杭州雅克比投资管理有限公司。两年后杭州幻方科技有限公司成立,致力于通过数学模型和人工智能进行量化投资,次年推出第一个AI模型,实现了所有量化策略的AI化转型。2018年,幻方科技确立以AI为核心的发展战略。由于业务不断扩展,算力瓶颈逐渐显露。2019年,幻方量化投资近2亿元,搭载千余块GPU,自主研发了深度学习训练平台“萤火一号”,号称可以匹敌4万台个人电脑的超级算力,首次突破算力瓶颈。2021年,“萤火二号”问世,幻方量化加大投资力度到10亿元,搭载了约1万张英伟达A100显卡,成功迈过了做自训大模型的算力门槛。
几年后,当梁文锋的第三家公司DeepSeek成功进军人工通用智能(AGI)领域,人们才意识到这1万张显卡的战略意义。毕竟,GPU是ChatGPT创业潮的稀缺品,谁拥有了更多的GPU,谁就抢先拿到进军AGI的入场券。但梁文锋却说:“这个过程是逐步发生的。很多人会以为这里有不为人知的商业逻辑,但其实,主要是好奇心驱动。”
2022年11月30日,OpenAI推出全新的聊天机器人模型ChatGPT,短短几天就突破百万用户。ChatGPT给人们带来全新的AI工具使用体验,一场关于未来AGI潜力的讨论就此展开。同一时期,幻方量化也完成了“战略储备”。在梁文锋看来,尽管ChatGPT带来了很大反响,但早在2012年,AlexNet带来的冲击已经引领了一个时代。出于对AI能力边界的好奇,不断地探索和对算力的渴求是无止境的。
2023年,梁文锋宣布进军AGI领域,并于同年7月成立深度求索人工智能基础技术研究有限公司。他说:“幻方科技的主要班底里,很多人是做人工智能的。而通用人工智能可能是下一个最难的事,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”如此看来,DeepSeek的诞生更多源于时代潮流和兴趣驱动。
梁文锋公开表示,DeepSeek不做垂类和应用,而是致力于研究和探索。“我们希望去验证一些猜想,同时去探索GPT-4留下的未解之谜。”这听起来很浪漫,但资金来源有相当一部分由幻方量化提供,自有算力和工程师团队也是梁文锋的筹码。
2023年11月2日,首个开源大模型DeepSeek Coder问世。这是一个支持多种编程语言、调试和数据分析任务的模型,不仅免费提供商用,而且完全开源,其在代码智能领域的基础由此奠定。2023年11月29日,DeepSeek LLM模型发布,梁文锋说:“我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。”DeepSeek LLM是进军通用人工智能领域的开始,性能接近GPT-4。
随着前两个模型的诞生,DeepSeek开启架构创新和性能突破。2024年,DeepSeek-V2、DeepSeek-V2.5和DeepSeek-V3三个预训练模型陆续发布。自此,DeepSeek脱颖而出,顺利实现弯道超车。
获得如此地位和成就,首先得益于技术创新带来的低成本、高性能。令业界震惊的是,DeepSeek-V2模型的训练成本仅为GPT-4Turbo的1%。DeepSeek-V3模型更是以低预算和算力、时间达到与GPT-4o、Claude3.5-Sonnet持平,成为开源模型的行业标杆。在以往“大数据+大模型+大算力”的思维定式下,芯片算力、数据规模、模型参数量都是关键指标,DeepSeek-V3的出现让行业技术壁垒被打破。
和以往的同类工具相比,DeepSeek在研发思路上有了极大的创新和改变,比如首次引入混合专家架构(MoE)替代传统的Transformer,在规模参数较大时激活少量参数,显著降低推理成本。例如,创新性提出“无辅助损失负载均衡”,让系统像调度员那样根据专家的历史利用率动态调整其接受容量,在兼顾专业匹配度与专家工作负荷的同时均衡专家负载,解决了传统MoE框架中专家利用率不均的问题。此外,DeepSeek-V2模型在预训练阶段引入的强化学习技术,DeepSeek-V3首次采用的FP8混合精度训练,以及DualPipe方法对模型流水线的优化等,都极大程度地降低了大模型的训练成本,同时提高了工作效率,保证了产品的性能。可以说,DeepSeek在世界范围内首次开启了低成本、高性能的AGI时代,引发了业界对高成本、大算力的反思。
人们对DeepSeek的赞赏甚至超越了OpenAI等巨头曾获得的褒奖,至关重要的是代码开源。尽管并非DeepSeek首创,但在所有开源大模型中其优势最为明显,相较于名字中有“Open”却闭源的OpenAI,DeepSeek格局尽显。梁文锋曾说:“我们可以把训练结果大部分公开分享,这样可以跟商业化有所结合。”开源可以让用户利用源代码在其基础上修改和学习,更多人可以接入DeepSeek,甚至修改代码使其更符合自己的需求。这一举措不仅为国内外共创AI生态提供了一份助力,使AI技术实现真正的普惠价值,也让中国在科技领域成为被追随者。
DeepSeek不仅打破了业界的固有认知,也让更多个人、企业用上了AI工具。2025年1月20日,DeepSeek-R1模型正式发布,实现了又一次技术飞跃。和以往发布的模型不同,这是首个公众认知中的推理模型,有着强大的推理能力,能在用户输入需求后迅速生成推理过程和思考逻辑。在此之前的模型均为预训练模型,通过大规模的数据训练,学习通用模式,适配特定的任务和定制化场景。而推理模型针对实际应用场景,参数固定且结构简化,对于用户来说,它不仅具备推理能力,而且能直接应用在实际业务上。在技术特性上,推理模型也不需要保留完整的框架,而是更多地采用动态激活策略以提升效率。
其实OpenAI在2024年9月发布的o1模型就是推理模型,只不过收费高且不开源,很少有用户能体验到。而DeepSeek-R1模型让更多个人和企业接触到这类工具,让用户产生“首次看到AI展现思考过程”的使用体验。同时,R1模型拓宽了应用场景,价格实惠更显亲民,中小企业、政务系统纷纷接入,实现了真正的“人工智能+”。早在2023年,梁文锋就曾提到:“我们希望更多人,哪怕一个小App都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。”
2025年2月17日,民营企业座谈会在京召开,很多人在当天的《新闻联播》中首次见到了与马化腾相邻而坐的梁文锋,一个戴着眼镜、留着刘海的年轻人。梁文锋能够出席此次座谈会,不仅源于DeepSeek备受瞩目,而且与他坚持自主创新、引领AI产业突围、赋能相关产业发展密不可分。低售价和高性能首次让人们用上本土AI工具。由于传统路径被打破,国内的GPU企业订单暴增,诸多闲置的算力中心被盘活,上下游产业链蓬勃发展。
2025年两会期间,人工智能成了热议话题,“政策利好+技术革新+场景拓展”是DeepSeek生而逢时所打造的“中国新范式”。DeepSeek以实践和成果向世界证明了中国企业的创新能力,开源的诚意也为AGI生态体系发展提供了助力。中国正在以引领者的姿态为世界贡献科技力量。
作者:陈润「作者为新一代企业史作家,常年从事企业传记创作和公司案例研究」


2025-12-31
浏览次数:
次
返回列表