2025-2026 AI 重大进展

王树义

你们学的东西,正处于历史舞台中央

  • 《机器学习》课程专题
  • 2026 年 2 月

AI 能力爆发的一年

诺贝尔奖——物理学奖

  • Hopfield + Hinton 获 2024 物理学奖
  • 表彰「使神经网络学习成为可能」
  • Hinton:反向传播发明者,“AI 教父”

诺贝尔奖——化学奖

  • Hassabis + Jumper:AlphaFold 蛋白质预测
  • David Baker:计算蛋白质设计
  • 史上首次,物理+化学同时颁给 AI——而这一切的基础,就是梯度下降和反向传播

2024 年,训练顶级 AI 是大公司的游戏

  • GPT-4 训练成本估算:超过 1 亿美元
  • 所有人都认为:AI = 巨额投资 + 超级算力
  • 小团队?别想了

DeepSeek R1 震撼全球

$557 万

DeepSeek R1 最终训练成本

比 OpenAI o1 便宜 27 倍
$5890 亿
NVIDIA 单日市值蒸发
美股史上最大单日跌幅
#1
美国 App Store 下载榜
超越 ChatGPT

来源:CSIS, PIIE, Financial Content | 2025.01

秘密武器?你们正在学的技术

  • MoE(混合专家模型):不是每个参数都要用,按需激活
  • 强化学习:让模型自己学会推理策略
  • 一个中国团队,不到 600 万美元,做出了比肩 OpenAI 的模型

DeepSeek 之后,格局被彻底打破

  • 开源已匹敌闭源:DeepSeek V3 + Qwen 系列崛起
  • Claude 擅长编程,Gemini 擅长数学,DeepSeek 擅长性价比
  • 领先优势以月计算——看看这一年发生了什么

大模型军备竞赛:时间线

2025.01 2025.04 2025.05 2025.08 2025.09 2025.11 2026.02 DeepSeek R1 $557万训练 Llama 4 1000万上下文 Claude 4 最强编程模型 GPT-5 27.2万上下文 Claude 4.5 SWE 77.2% Gemini 3.0 1000万上下文 2026 混战 Sonnet 5: 82.1% GPT-5.3 / Gemini 3.1 2025.01 — 2026.02 大模型发布时间线 来源:各公司官方博客、arXiv

你跟 AI 聊天时有没有注意到——

  • 它回答得太快了
  • 好像不假思索就脱口而出
  • 2024 年之前的 AI 就是这样:反应快,但不够深

推理革命:让 AI 先「想一想」

  • RLVR:用强化学习训练 AI 的推理策略
  • 不是教它答案,而是教它怎么思考
  • 一个全新的训练阶段——不只学知识,还学策略

一年前银牌,一年后金牌

  • AI 首次达到 IMO 金牌水平:35/42 分
  • 自然语言生成严格数学证明
  • 一年内从银牌跃升到金牌——进步速度前所未有

Test-Time Compute:聪明用算力 > 暴力堆资源

  • 推理时多算 20 秒 ≈ 模型规模扩大 10 万倍的效果
  • 而让 AI 学会思考的核心——强化学习——就是你们这学期正在学的
  • 奖励函数、策略优化——课堂上的概念正在驱动最前沿的 AI

AI 科学突破:ML 是所有领域的底层能力

  • 药物发现进入临床试验
  • AlphaGenome 理解基因组疾病
  • 心电图 AI:10 秒诊断,秒级完成
  • 每一项突破背后,都离不开深度学习和优化方法

多模态与上下文爆发

  • Sora 2:同步对话+音效,25 秒视频
  • GPT-4o 图片编辑:一周 1 亿新注册
  • 上下文窗口:128K → 1000 万 token

人形机器人:AI 走进物理世界

  • 感知、决策、运动控制——全依赖机器学习

写代码是创造力活动,但现实是——

  • 大量时间花在 debug、读文档、写样板代码
  • 2025 年初,AI 解决真实 GitHub 问题的成功率:约 50%
  • 能不能让 AI 自己写代码?

Claude Code 与 Vibe Coding

  • Claude Code:首个令人信服的 AI 编程 Agent
  • Vibe Coding——「99% 的时间不写代码,只描述想要什么」
  • 2025 年度词汇,进化为 Agentic Engineering

SWE-bench:AI 编程能力飞跃

82.1%

SWE-bench Verified 最高分(2026.02)

~50%

2025 年初 →

82.1%
↑ 约一年翻倍

Claude Sonnet 5 "Fennec" — 2026.02

SWE-bench Verified:衡量 AI 解决真实 GitHub 问题的能力 | 来源:各公司官方博客

ML 就是下一个时代的基础设施

  • MCP 成为行业标准——OpenAI、Google 采用,捐赠给 Linux 基金会
  • AI 不仅能写代码,还在建立自己的工具生态
  • 而这一切的驱动力——就是机器学习

AI 成本暴跌:不再是奢侈品

50x

GPT-4 同等性能成本降幅(2 年内)

$20
$0.40
每百万 token
$4,500
$11.64
挑战性基准任务
$500/月
$20/月
Devin AI 工程师
人人都能用得起最强 AI

来源:Epoch AI, Faros AI | 2022-2026

AI 安全与对齐:能力越强,责任越大

  • Anthropic 激活 ASL-3 安全等级
  • RSP 3.0 重大修订,可解释性研究加速推进
  • 理解模型局限和安全边界,是每一位 AI 从业者的必修课

总结:洞察 1 & 2

  • 你们学的在历史舞台中央
  • 算法创新 > 资源堆叠

总结:洞察 3 & 4

  • AI 使用门槛正在归零
  • ML 是几乎所有领域的底层能力

现在是学 ML 的最佳时机

  • 最好的模型开源,最好的工具免费

学好 ML,这是你的时代