斯坦福大学教授李飞飞团队：2025年人工智能发展报告总结！开云体育官方

开云体育NEWS CENTER

您当前位置：首页 > 开云体育

斯坦福大学教授李飞飞团队：2025年人工智能发展报告总结！开云体育官方

2025-11-06

浏览次数：次

返回列表

　　开云体育[永久网址:363050.com]成立于2022年在中国，是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网，欢迎注册体验！源自产业界，这一比例在 2023 年还是 60%，增长势头非常突出。下方这张图能直观体现：从 2021 年起，在“标志性模型”的发布上，

　　从国家维度具体拆分来看，美国在标志性 AI 模型的发布上优势显著，以 40 个的数量遥遥领先；中国紧随其后，共发布 15 个；法国则以 3 个的数量位居第三。

　　从下方这张图能直观看出，未来 AI 的核心竞争格局中，中国与美国的竞争将成为主要焦点。

　　聚焦到单个公司维度，阿里巴巴、Deepseek 与腾讯是中国 AI 企业的典型代表。其中，阿里巴巴在 AI 领域的持续投入与布局尤为突出，从其动态来看，正展现出开启新增长曲线的潜力。

　　看完产业界的动态，再将目光转向学术界。从报告数据来看，中国在AI 研究论文总量和专利授权数量方面，目前处于领先地位。

　　与之相对，美国则在高影响力研究领域（highly influential research）占据明显优势。2021 年至 2023 年，美国始终是 AI 领域被引用论文最多的国家，具体数据为 2021 年 64 篇、2022 年 59 篇、2023 年 50 篇。尽管这一数量呈现逐年小幅下降的趋势，但美国在该领域的总量依旧保持领先。

　　从机构维度来看，在高质量 AI 论文的产出中，美国与中国的学术机构依旧占据主导地位，两者的贡献占比显著高于其他国家的机构。

　　2.技术性能：英伟达GPU芯片性能提升显著、DeepSeek推动开源模型性能提升

　　我们先来看大模型训练的核心基石：英伟达 GPU 芯片的性能迭代。从数据来看，其性能提升幅度十分显著，这一变化高度契合摩尔定律的规律，即每隔 18 到 24 个月，芯片的性能大约提升一倍。

　　先给大家简单科普一下国际上大模型的通用基准测试—— 这些测试是评估模型不同维度能力的重要工具，各自有明确的考核方向。

　　在了解上述评测基准后，结合下图可清晰看到：自DeepSeek时刻起，开源模型的评测指标已持续逼近闭源模型。

　　曾在2023 年以显著优势领跑的美国顶尖 AI 模型，如今已无法维持与中国同类产品的差距。从下图可以看得出，截至2023 年底，在 MMLU、MMMU、MATH 和 HumanEval 等比较基准中，中美模型的性能差距分别为 17.5、13.5、24.3 和 31.6 个百分点；而到 2024 年末，这些差距已大幅收窄至 0.3、8.1、1.6 和 3.7 个百分点。

　　若从厂商机构维度进一步分析，下图显示：各家厂商的顶级模型性能正逐步趋同，其中谷歌、OpenAI 与 DeepSeek（品牌名规范首字母大写）属于第一梯队。需要说明的是，本结论基于LMSYS Chatbot Arena数据 —— 该平台由国际开放研究组织 LMSYS（全称 Large Model Systems Organization，由加州大学伯克利分校、斯坦福大学等高校研究者主导）开发，是全球领先的大语言模型（LLM）实时评测工具。

　　在完成各厂商模型性能的横向对比后，我们可将视角转向另一维度：模型能力与人类基准的比较。如下图所示，数据清晰显示：大模型在语言理解能力上已超越人类设定的能力基准。

　　继语言理解领域超越人类基准后，大模型在视觉推理上也实现了关键进展—— 从下图能清晰看到，其视觉推理能力已与人类基准水平持平。

　　再从代码编程能力来看，大模型已完胜绝大部分程序员，这一判断主要基于“HumanEval: Pass@1” 指标的评测结果。下面先为大家科普该指标的具体含义，帮助理解这一结论的依据。

　　“pass@1”是代码生成领域（如 HumanEval 基准）的核心评估指标，含义可拆解为：

　　“pass”：指模型生成的代码能通过所有预设测试用例（如逻辑正确性、边界条件验证等），即代码功能完全符合任务要求。

　　“@1”：表示模型对同一个任务只生成1 次代码，而非多次生成后选最优结果。

　　合起来，“pass@1” 衡量的是：模型针对某个编程任务，单次生成的代码直接通过所有测试的概率。

　　例如，若某模型在 HumanEval 上的 pass@1 为 70%，意味着在 100 个编程任务中，该模型一次生成就正确通过测试的任务约有 70 个。

　　在推理能力维度，大模型的得分虽仍低于人类专家的中高水平基准，但正以较快速度缩小二者之间的差距。

　　报告最后指出，MMLU、MMMU、HumanEval 等传统人工智能评测基准已趋近饱和 —— 顶尖模型在这些基准上的得分普遍接近上限，导致其难以有效衡量前沿模型的真实能力。这推动着研究人员加速探索针对前沿 AI 系统的新型评价方法。其中，三类新基准颇具代表性：

　　Humanitys Last Exam（人类最后的考试，简称 HLE）：由 Scale AI 与 CAIS 联合近千位全球专家开发的多模态学术测试，涵盖 100 多个学科的 3000 道难题，且通过 “公开题库 + 私有测试集” 设计防过拟合，目前最先进 AI 的得分率仅为 8.80%；

　　Frontier Math（前沿数学）：Epoch AI 联合 60 多位顶尖数学家（含菲尔兹奖得主）打造的原创数学基准，聚焦现代数学前沿难题，即便允许 AI 使用 Python 工具并延长思考时间，其问题解决率仍仅为 2%；

　　BigCodeBench（编码基准）：聚焦真实工程场景的编码评测基准，当前 AI 在该基准上的成功率仅为 35.5%，远低于人类工程师 97% 的水平，凸显 AI 在复杂工程任务中的短板。

　　先给大家解释一个关键概念：“负责任的人工智能（Responsible AI, RAI）”。简单说，它就是指导 AI 开发、部署和使用的一套规矩，核心是让 AI 在发挥作用的同时，不搞偏见、不泄露隐私、不带来安全风险，还得符合伦理、法律和社会规矩，最后给人和社会带来好处。

　　2024 年全球人工智能相关事件数量迎来爆发式增长，达到 233 起的创纪录水平，较 2023 年大幅攀升 56.4%。这一增长可能既反映了人工智能应用的扩大，也反映了公众对其影响的关注度提升。此外，对人工智能认知度的提高可能也促使更多事件被上报至相关数据库。

　　AI安全与责任评估的核心问题是缺乏统一的、被广泛接受的标准：现在厂商测模型的数学、编程能力都用 MMLU 这类成熟基准，但测安全合规性时，却没有公认的统一标准 —— 只有少数新基准在试水，还没普及开。

　　好在研究端有了起色：2023 年起，顶级会议上的 RAI 论文明显变多，2024 年更是涨到 1278 篇，同比多了 28.8%，说明大家开始重视了。

　　从下图能清晰看到：2024 年 AI 岗位最缺的 10 项技能，和 2012 到 2014 年比，过去十年里每一项的需求都涨了。其中 Python 涨得特别猛，这也能看出来它现在就是 AI 领域的首选编程语言。这些信息希望能帮大家选专业、学技能时更有方向。

　　领英也在跟踪 AI 人才的性别分布情况。2024 年的数据估计显示，平台上 69.5% 是男性 AI 专业人员，女性占 30.5%，而且这一比例这些年一直比较稳定。简单说就是，AI 领域的性别构成暂时没出现大的变化。

　　从下图能清晰看到 2013-2024 年全球企业 AI 投资的变化：涵盖并购、私人投资等四大类型，2024 年总投资额冲到 2523 亿美元，比 2023 年涨了 25.5%，其中私人投资最猛，同比涨了44.5%。从长期维度看，2013 至 2024 年十余年间，全球 AI 相关投资规模已增长近十三倍，印证了该领域从技术探索到规模化落地的爆发式发展轨迹。

　　2024 年全球 AI 私人投资的榜首还是美国，而且领先优势特别大。数据显示，它当年投了 1091 亿美元，是第二名中国（93 亿）的 11.7 倍，更是英国（45 亿）的 24 倍多。另外，前15 名里还有几个欧洲国家值得关注：瑞典投了 43 亿，奥地利 15 亿，荷兰 11 亿，意大利 9 亿，能看出来除了中美英，欧洲也有不少国家在发力 AI 投资。

　　从下图能看到不同地区新拿到投资的 AI 公司数量，这个趋势和私人投资特别像：美国最多，有 1073 家新获司；接下来是英国，116 家；中国排第三，98 家。这一数据差异背后，反映出美国 AI 创业生态的成熟度 —— 其本土不仅有充足的风险资本供给，还依托硅谷、波士顿等科技集群形成 “技术 - 人才 - 资本” 的闭环，吸引了大量早期 AI 创业项目落地，而中英等国虽在特定领域（如中国的 AI 应用层、英国的 AI 科研转化）表现活跃，但整体新创公司数量仍与美国存在差距。

　　下图按年份呈现全球工业机器人的年度安装总数（非累计量）。数据显示，2023 年全球工业机器人安装量出现小幅回落，是自2019 年以来，该指标首次出现年度同比下降，从侧面反映出全球制造业自动化需求的阶段性调整。

　　前文已从全球整体视角分析了工业机器人安装趋势，接下来聚焦国家与地区维度—— 各国工业机器人安装量，是衡量其对机器人技术应用重视程度及制造业自动化水平的关键指标。2023 年全球统计数据显示，中国以 27.63 万台（原文 276,300 台）的工业机器人安装量稳居全球首位，规模优势显著：分别是日本（4.61 万台，原文 46,100 台）的 6 倍、美国（3.76 万台，原文 37,600 台）的 7.3 倍，且中国单国安装量已占 2023 年全球总量（54.1 万台）的 51.1%，成为推动全球制造业自动化转型的核心力量。

　　自 2013 年超越日本、成为全球最大工业机器人应用市场后，中国的领先优势持续扩大。

　　下图更直观地呈现了“中国与全球其他地区的安装量对比”（中国单挑全世界）。数据显示，自 2021 年起，中国工业机器人年度安装量已持续超过全球其他所有地区的总和；即便 2023 年这一领先优势较 2022 年略有收窄（主要因全球制造业自动化需求阶段性波动），但增速放缓仅为短期调整，并未动摇中国的绝对主导地位。

　　5.科学与医学：大模型在生物医学领域的关注度爆发式增长、要融入实际临床流程还很难

　　近年来，学界对大语言模型在医疗任务中表现的评估兴趣大幅上升。这一点可以通过生物医学文献检索数据库PubMed 的检索数据印证 —— 在该数据库中搜索 “大语言模型”，共检索到 1566 篇相关论文，其中仅 2024 年一年就发表了 1210 篇，直观体现了领域关注度的爆发式增长。

　　2024 年有项针对 GPT-4 的医疗实验：找了 50 位美国持证医生，用单盲随机对照的方式，对比 “GPT-4 辅助” 和 “传统医疗资源” 在处理复杂病例时的效果，重点看诊断准不准、效率高不高。

　　结果分两部分：一是医生用GPT-4 辅助时，诊断准确率 76%，只比用传统工具的医生（74%）高一点，且两组医生完成病例的时间没差别，没体现出效率优势；二是单独用 GPT-4 时，诊断推理得分达 92%，比不用 AI 的医生高 16 个百分点，表现反而更好。

　　结论是：GPT-4 单独用效果好，但要融入实际临床流程还难；光让医生用它，没法提升看病表现。想让 AI 和医生真正配合好，得重新设计工作流程、做好医生培训，还要优化人机交互界面 —— 这种情况在其他 AI 和人类协作场景里也存在。

　　全球 AI 驱动的临床试验数量激增，2024 年中国（105 项）、美国（97 项）、意大利（42 项）位列前三。

　　2016 年至 2024 年期间，全球 114 个国家和地区推进了含 “人工智能” 表述的立法工作。其中，39 个国家和地区已出台至少一项人工智能相关法律，所有相关国家和地区累计通过此类法律达 204 项。值得关注的是，俄罗斯的技术实力与人工智能应用场景并非全球第一梯队。

　　2024 年全球约三分之二国家已实施或计划实施计算机科学教育，其中 30% 的国家将其设为中小学必修课程，欧洲是这类国家最多的地区。过去五年各大洲推广该教育均有进展，非洲和拉丁美洲增长尤其明显，但非洲学生仍是全球最难获得该教育机会的群体，核心原因是基础设施不足 ——2023 年撒哈拉以南非洲仅 34% 的小学有电力，这既限制了学生计算机基础技能培养，也阻碍了计算机科学与人工智能课程的开展。

　　2022 年至 2024 年，公众对人工智能的认知总体保持稳定。2024 年，67% 的受访者表示对人工智能有良好理解，66% 预期未来 3-5 年内，人工智能将深刻改变自己的日常生活。同时，认为人工智能驱动的产品与服务利大于弊的人群比例，从 2022 年的 52% 小幅升至 2024 年的 55%。

　　但调查也显示出人们日益增长的担忧。过去一年里，相信人工智能企业会保护个人数据的受访者比例下降 3 个百分点；认为人工智能不会对任何群体产生歧视或偏见的受访者比例，同样下降 2 个百分点。

　　下图呈现了不同国家受访者对人工智能的“兴奋感” 与 “焦虑感” 的对应关系。结果显示，英语国家（包括英国、美国、加拿大、澳大利亚和新西兰）对人工智能的焦虑感显著高于其他国家，兴奋感则普遍偏低。相对而言，中国、韩国、印度尼西亚等亚洲国家的受访者，表现出较高的兴奋度与较低的焦虑水平。其中，日本是亚洲地区的例外，其对人工智能的态度最为谨慎。

　　下图则展示了全球公众对“AI 将改变工作方式或取代现有岗位” 的预期。60% 的受访者认为，未来五年内人工智能 “可能” 改变自己的工作方式；另有 36% 的受访者认为，AI “可能” 在同一时期取代自己当前的职位，相当于每三人中就有一人持此观点。将 2024 年的上述数据与 2023 年对比，整体情绪变化不大。

　　下图数据显示，全球受访者对人工智能在不同领域的影响态度分化明显：55% 认为 AI 将减少任务完成时间，51% 认为 AI 会改善娱乐选择；但在经济与就业市场，态度更谨慎，仅 36% 认为 AI 对经济有积极影响，认为其对就业有积极影响的比例更低，仅 31%。

　　不同国家对“AI 改善本国经济” 的信心差异显著。亚洲国家态度最乐观，中国有 72% 受访者持正面预期，印尼紧随其后，占比 54%；与之相反，荷兰、美国、比利时、瑞典和加拿大的这一比例均低于 25%。

　　值得注意的是，在每个国家中，对AI 改善经济抱有乐观态度的受访者，在其他领域对 AI 的评价也往往更积极。例如，这一群体通常也相信 AI 能节省时间、改善健康。

　　从全球平均来看，38% 的受访者认为 AI 将改善健康。其中，墨西哥受访者乐观度最高，达 56%；日本则最低，仅 19% 的受访者持此观点。

上一篇：开云体育官方破浪AI新纪元：诺安稳健回报混合C的阿尔法捕捉之道

下一篇：开云体育官方我把DeepSeek“装”进毛绒玩具年入过亿

首页

关于我们

开云体育

产品展示

留言板

咨询研究

联系我们

开云体育NEWS CENTER

斯坦福大学教授李飞飞团队：2025年人工智能发展报告总结！开云体育官方