开云体育
梁文锋署名DeepSeek新论文“突破GPU内开云体育存限制”
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,实现“参数的积极扩展”。
香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。
报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。
该技术用以解决扩大AI模型规模时的一个关键瓶颈——GPU高带宽内存(HBM)容量有限的问题。
现有的大型语言模型(LLM)通过计算来检索基础信息,而这一过程需要大量的计算能力。然而,研究人员表示,这种方式浪费了宝贵的“序列深度”(sequential depth),这些“序列深度”本可以被分配用于更高层次推理的琐碎操作。
《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一。韩国半导体行业分析机构SemiAnalysis的分析师Ray Wang表示,尽管近年来取得了稳步进展,但中国存储芯片巨头长鑫存储(CXMT)仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年。
在论文中,DeepSeek和北京大学的研究人员表示,通过将计算与存储“解耦”,Engram可以让模型更高效地“查找”这些基础信息。
他们提到的新技术,还能够提升模型在处理长上下文(即较长输入)时的效率,而这正是将AI聊天机器人转变为现实世界中有用的AI代理所面临的最大挑战之一。
研究人员在一个拥有270亿个参数的模型中验证了这一技术,发现它使主要行业基准测试的表现提升了几个百分点。关键在于,这也为模型执行计算需求更高的复杂推理保留了更多容量。
他们写道:“我们认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语。”研究人员将Engram的潜在影响比作他们自己开发的一种“混合专家”(MoE)技术,该技术使模型规模的扩大无需按比例增加计算量,并且此后已被其他中国竞争对手采用。
目前,行业中最大的模型拥有数万亿个参数。开源开发者平台Hugging Face的研究工程师埃利·巴库奇(Elie Bakouch)在社交媒体上对这篇论文大加称赞,称其“在推理和训练时用硬件上验证了这一技术”。
据报道,这篇论文列出了14位共同作者,除了梁文锋之外,还包括北京大学王选计算机研究所助理教授、前微软亚洲研究院首席研究员张辉帅。
去年年初,DeepSeek发布的大模型DeepSeek-R1,使用由英伟达H800 GPU驱动的数据中心进行训练,仅用两个月就完成了训练,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分。却实现了足以匹敌美国顶尖AI模型的效果,震撼业界的同时引发多国关注,尤其是美国。
当地时间1月12日,据英国《金融时报》报道,微软总裁布拉德·史密斯(Brad Smith)警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势所在。
他表示,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司在全球面临的竞争。“我们必须认识到,与一年前不同,现在中国拥有一个,而且越来越多地拥有不止一个具有竞争力的开源模型。”
报道指出,史密斯发表这番言论之际,微软的一项新研究发现,DeepSeek一年前发布的R1大型语言模型,因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家。这也让中国在“开源”AI模型的全球市场份额方面超越了美国,这些模型通常可以免费供开发人员使用、修改和集成。
《南华早报》指出,在DeepSeek发布其R1模型一周年之际,外界对其即将推出一款新的重要模型的期待正在升温。美国硅谷的新兴科技媒体“The Information”当地时间1月9日报道称,DeepSeek预计将在今年2月中旬推出一款具备强大编程能力的新V4模型。
据央视报道,当地时间14日,伊朗革命卫队航空航天部队司令马吉德·穆萨维说,伊朗当前处于最高战备状态,导弹储备量自2025年以来有所增加。
河南省教育厅近日发布《2025年撤销高校教师资格行政处罚》的通报,依法对五名高校教师作出丧失或撤销教师资格的处理。
寒冬来临,气温骤降许多人出现鼻塞、流涕等感冒症状检查后却发现感染的既非流感也非呼吸道合胞病毒而是鼻病毒。鼻病毒感染率上升洛阳卫生健康委提醒:科学预防是关键日前,全国门急诊流感样病例中鼻病毒检测阳性率持续上升,成为冬季呼吸道疾病主要病原体之一。
据璧山区纪委监委消息:璧山区公安局党委委员、副局长吕华涉嫌严重违纪违法,已主动投案,目前正接受区纪委监委纪律审查和监察调查。
600多万粉丝“马背上的女县长”意外坠马去世,年仅47岁,一周前还在发视频宣传,此前曾多次坠马,遭母亲训斥“不准回家”
据新疆日报消息,2026年1月14日23时12分,新疆尔自治区农产品品牌建设与产销服务中心主任贺娇龙因伤抢救无效,不幸离世,年仅47岁。
“最快女护士”张水华回应辞职:与同事不辞而别,离职申请去年12月就已提交,丈夫曾因网暴整晚睡不着觉
近日,记者对张水华进行了采访,这也是张水华辞职后的首次采访。自从去年因言论陷入舆论漩涡并最终选择离职以来,张水华的生活仿佛按下了暂停键。如今,她终于有机会停下脚步,在这个难得的假期里,重新审视自己与这个世界的关系。
来源:云南网 近日,有网民举报,某社交平台账号发布了一段所谓昆明“街头火拼”的视频,画面中多人持“枪”在街道、车边“激战”,引发大量关注与议论,造成不良影响。
1月14日,江旻憓在香港特区第八届立法会首次会议上发言,其希望政府尽快查出大埔火灾真相,令香港市民对制度重拾信心。
985高校博士后在妻子孕期出轨被实名举报后 仍未向女子道歉。女子再发声:维权太难了 只想要一个道歉,“听说他有可能前往香港继续从事科研工作”。此前该女子举报、起诉、制作PDF 揭露男方恋爱骗局,遭到男方母亲威胁恐吓“把你除掉”。#实名举报 #出轨 #博士后 #婚姻 @小助手
日本车企刚放线%”,中国海关一纸通知就把稀土通关时间拉长到45天——生产线瞬间卡脖子,这巴掌打得比关税还疼。我上周在三菱电机老同学的群里看到,他们采购部直接炸锅:原本两周的库存,现在只够十天。
然而,不到一周时间,噩耗接连袭来:日本国内反对声浪高涨,在野党宣布提交不信任案,高市本人面临1月底辞职的巨大压力,麻烦远比想象中更大。
午评:港股恒指跌0.55% 科指跌1.83% 科网股走弱 中资券商股普跌 携程跌近20%


2026-01-15
浏览次数:
次
返回列表