核心洞察

DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab,在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是:梁文锋的"理想主义实验"能否在商业化压力下继续?


人才流失:谁在离开,为什么

已确认离职的核心成员

成员角色去向影响
王炳宣DeepSeek LLM核心作者腾讯(姚顺雨团队)历代模型训练骨干
魏浩然DeepSeek-OCR系列核心某大厂(待定)多模态文档理解
郭达雅DeepSeek-R1核心作者某大厂(待定)推理模型核心
阮翀幻方元老、Janus-Pro核心元戎启行(自动驾驶)多模态+端侧AI

离职背后的推力

1. 财富兑现的不确定性

  • DeepSeek未融资,无明确估值
  • 期权协议价值模糊,而MiniMax、智谱已上市/IPO
  • 竞争对手开出"翻2-3倍"、“8位数总包"的offer

2. 研究方向的错位

  • DeepSeek专注:效率优化、架构创新、国产生态
  • 行业热点:Agentic应用、Coding、多模态生成
  • 年轻研究员更想参与"最强模型"的署名

3. 算力资源的现实约束

  • 相对Google、OpenAI,GPU资源有限
  • 实验规模和数量受制约
  • 验证"技术品味"的机会成本更高

梁文锋的管理哲学:反共识实验

组织设计:极简扁平

传统AI公司层级:
CEO → VP → Director → Manager → Researcher

DeepSeek层级:
梁文锋(一号位) ↔ 研究员(100+人)
  • 无明确绩效考核,无DDL(截止时间)
  • 不打卡,多数员工6-7点下班
  • 自然分工,研究员自由组队探索
  • 周会开放,跨组参会无障碍

梁文锋的核心信念

“一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。”

这与行业常态形成鲜明对比:

  • Google、OpenAI、xAI、字节:每周70-80小时
  • DeepSeek:约大厂1/10人数,1/2人均工时,跻身第一梯队

人才策略:应届生为主

2025年初统计(172名研究者中84人可查):

  • >70% 本科生和硕士生
  • >70% 年龄小于30岁
  • 几乎不社招,以实习生留任为主

V4模型:延迟背后的技术路线

进展时间线

时间事件
2026年1月小参数版V4已给开源框架社区适配
原计划2月中旬大参数版V4发布(乐观预期)
预计4月V4可能正式发布

DeepSeek的技术重心(2025年至今)

效率优化方向:

  • 开源周释放完整训练/推理Infra(kernel、通信库、矩阵乘法库)
  • NSA(原生稀疏注意力)、DSA(动态稀疏注意力)
  • TileLang替代Triton:从CUDA/Triton转向北大杨智团队开源项目

架构创新:

  • mHC(流行约束超连接):提升大规模训练稳定性
  • Engram:模型外长期记忆机制

非主流探索:

  • DeepSeek-OCR:文本转图片输入,模拟人类"看文字"方式
  • 持续学习、自主学习
  • 神经科学顾问:探索类人脑学习机制

梁文锋的两个"非主流"目标

1. 国产生态

  • 适配国产GPU,解决高性能GPU供给受限
  • UE8M0 FP8数据格式"针对下一代国产芯片设计”
  • TileLang替代Triton,基础层更有主动权

2. 原创式创新

  • 做大厂/创业公司不愿试的方向
  • Janus系列(统一多模态理解生成)
  • Prover系列(形式化证明)

竞争格局:DeepSeek vs 行业

Agentic模型战场(2025年至今)

公司最新模型产品更新频次
AnthropicOpus 4.6Claude Code高频
OpenAIGPT-5.4Codex高频
智谱5版更新Agent方向高频
MiniMax4版更新-高频
Kimi3版更新Agent/Coding高频
DeepSeekV3.2Chatbot低频

OpenRouter调用数据(近30天)

Agent应用模型Token消耗Top 10中:

  • 6个模型来自中国
  • DeepSeek-V3.2排在第12位

注:OpenRouter反映个人/中小开发者使用情况,仅供参考。

DeepSeek的招聘信号

2024年12月至今的HR社交媒体招聘中,首次提及具体产品名称

“招募Agent方向’模型策略产品经理’:持续跟踪行业前沿,熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名agent…”

信号明确:DeepSeek将在Agent产品上有更多动作。


关键问题:理想主义能走多远?

梁文锋正在改变什么

不变改变
AGI目标开始考虑公司估值
扁平组织更多提及产品化/商业化
不加班文化招募Agent产品经理
自然分工管理规模扩大(已超幻方)

核心张力

理想 vs 现实:

  • 梁文锋看重:生态建设、原创探索、长期研究
  • 行业竞争:最强模型、Agent应用、多模态生成
  • 成员期待:署名权、GPU资源、财富兑现

资源约束 vs 探索欲望:

  • GPU有限 → 实验规模受限 → 验证"技术品味"的机会成本高
  • 但梁文锋认为:“国外算力更多的公司,内部肯定在试各种方向”

从业者的评价

“DeepSeek是一个真心想做研究的人,在国内,甚至是全球能找到的最好的地方。”

“低头做事的人也许不一定能在浮躁的市场洪流里笑到最后,但是只有更多DeepSeek这样的公司出现,中国科技才有从’复刻’到领跑的可能。”


结论:奇迹之后

DeepSeek在2025年初创造了"以小博大"的奇迹,但奇迹之所以是奇迹,正是因为它不常发生。

三个关键观察:

  1. 人才流失是信号,不是危机——核心团队仍在,更多人选择留下
  2. V4延迟是技术路线选择的结果——而非能力问题
  3. 商业化是必经之路——Agent产品经理的招聘说明转变已开始

梁文锋是一个"特别抗噪音的人"。现在他面临的考验是:在外部竞争加剧时,分辨噪音与信号,坚持该坚持的,改变要改变的。

对于曾被DeepSeek震动过的我们,能做的很简单:卸下爽文叙事,用平常心看待一家公司和技术创新。


原文来源:晚点LatePost《有人离开,更多人留下》
整理时间:2026年4月5日
散热正常,慧哥。🧊