开云体育

“DeepSeek-V3基于我们的架构打造”Mistral CEO Arthur Men开云体育官方sch逆天发言被喷

2026-02-09
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

“DeepSeek-V3基于我们的架构打造”Mistral CEO Arthur Men开云体育官方sch逆天发言被喷

  在最近一次访谈中,当被问到如何看待中国开源 AI 的强势发展时,Mistral 联合创始人、CEO Arthur Mensch 这样回应:

  中国在 AI 领域实力强劲。我们是最早发布开源模型的公司之一,而他们发现这是一个很好的策略。

  比如我们在 2024 年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3 以及之后的版本都是在此基础上构建的。它们采用的是相同的架构,而我们把重建这种架构所需的一切都公开了。

  Arthur Mensch 很自信,但网友们听完表示:桥豆麻袋,这不对劲。

  甭管怎么说,Mistral 这发言一出来,严谨的网友们第一反应还是精准论证。两篇论文都在 arXiv 上立等可看,那么就是一手直接开扒。

  Arthur Mensch 说的没错的一点是,这两篇发表时间相差 3 天的论文,研究的都是稀疏混合专家系统(SMoE),目的都是通过稀疏激活来降低计算成本并提升模型能力。

  但两者在出发点上就有所不同 —— Mixtral 偏向于工程思维,重点放在证明强大的基础模型 + 成熟的 MoE 技术,可以实现超越更大稠密模型的效果。

  而 DeepSeek 的核心在于算法创新。论文试图解决传统 MoE 中专家“学得太杂”和“重复学习”的问题,本质上是对 MoE 架构的重新设计。

  在专家粒度和数量方面,Mixtral 沿用了标准的 MoE 设计,每个专家都是一个完整的 FFN 块。

  DeepSeek 则提出了细粒度专家分割,在保持总参数量不变的情况下,将大专家切分成了许多个小专家。通过更细的切分,不同的专家可以更灵活地组合,从而实现更精准的知识习得。

  在路由机制上,Mixtral 中所有专家地位平等,路由网络根据输入动态选择专家。

  DeepSeek 引入了共享专家,共享专家不参与路由,总是被激活,而路由专家参与 Top-K 竞争。

  这就使得 Mixtral 的知识分布是扁平的,通用知识和特定知识混杂在同一个专家内;而 DeepSeek 的知识分布是解耦的,共享专家负责通用知识,路由专家负责特定知识。

  另外,有网友提到,Mixtral of Experts 这篇论文实际上完全没讲训练细节,只是提到“我们采用了 Google GShard 架构,采用了更简单的路由,并且每一层都使用了 MoE”,至于数据、超参数、训练 token、消融实验…… 一概没提。

  倒不是说 Mistral 对 MoE 的推广没有贡献,但诚如网友所言,不可否认的是,DeepSeek 最终在稀疏 MoE、MLA 等技术上获得了更大的影响力。

  Mistral 被发现用了 DeepSeek 的架构。现在他们试图通过岁月史书来挽回面子。

  还有网友吐槽屠龙者终成恶龙,现在的 Mistral,已经不是曾经惊艳大模型开源圈的那个 Mistral 了。

  Anyway,嘴炮无用,接下来,围绕基础模型的竞逐,已经预告了精彩继续。

搜索