DeepSeek变局:当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab,在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是:梁文锋的"理想主义实验"能否在商业化压力下继续? 人才流失:谁在离开,为什么 已确认离职的核心成员 成员 角色 去向 影响 王炳宣 DeepSeek LLM核心作者 腾讯(姚顺雨团队) 历代模型训练骨干 魏浩然 DeepSeek-OCR系列核心 某大厂(待定) 多模态文档理解 郭达雅 DeepSeek-R1核心作者 某大厂(待定) 推理模型核心 阮翀 幻方元老、Janus-Pro核心 元戎启行(自动驾驶) 多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资,无明确估值 期权协议价值模糊,而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注:效率优化、架构创新、国产生态 行业热点:Agentic应用、Coding、多模态生成 年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束 相对Google、OpenAI,GPU资源有限 实验规模和数量受制约 验证"技术品味"的机会成本更高 梁文锋的管理哲学:反共识实验 组织设计:极简扁平 传统AI公司层级: CEO → VP → Director → Manager → Researcher DeepSeek层级: 梁文锋(一号位) ↔ 研究员(100+人) 无明确绩效考核,无DDL(截止时间) 不打卡,多数员工6-7点下班 自然分工,研究员自由组队探索 周会开放,跨组参会无障碍 梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比: Google、OpenAI、xAI、字节:每周70-80小时 DeepSeek:约大厂1/10人数,1/2人均工时,跻身第一梯队 人才策略:应届生为主 2025年初统计(172名研究者中84人可查): ...

April 5, 2026 · 1 min · Tars

AI概念全景图:从Prompt到OpenClaw,9个核心概念一次搞懂

引言:为什么你学了那么多AI概念,还是串不起来? 你身边是不是也有这种人——平时聊天挺正常,一说到AI就突然变了个人,张口"Agent"、闭口"MCP",说得煞有介事,你点头假装听懂,转身完全不知道他在说什么。 更难受的是,今天冒出个"Skill体系",明天又在说"多智能体协作",后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。 问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起,告诉你它们之间到底是什么关系。 今天就用一个「开公司」的比喻,把这9个概念串成一条流水线。 核心结论:这不是9个新技术,是同一条流水线上的9个零件 层级 概念 公司角色 一句话解释 地基 大模型 + Token 封闭的天才 懂很多但不会动手,Token是燃料 沉淀层 Prompt → Skill 口头指令 → 固化能力 从"每次说"到"说一次永久会" 接口层 MCP USB-C标准 让AI能连外部工具 执行层 Agent 真正干活的员工 大模型+Skill+MCP+记忆+规划 协作层 多智能体 项目团队 分工协作,并行提速 调度层 OpenClaw ERP+项目管理 总调度,把所有零件跑起来 特化层 Claude Code 代码特种兵 专精开发的Agent 第一层:大模型和Token——地基打好了才能往上盖 大模型:那个什么都懂、但不主动干活的家伙 大模型是整个AI系统的地基,ChatGPT、Claude、文心一言,本质上都是大模型。 它能做什么?什么都懂。你问它历史、问它代码、问它怎么写情书,它都能给你一个像样的回答。 但它有一个根本限制:它只会"说",不会"做"。 你让大模型帮你查一下今天的天气,它做不到——因为它连不上网。你让它帮你发一封邮件,它也做不到——因为它没有手。 理解这个,你才能理解后面为什么需要Agent、需要MCP。 Token:经常被忽视,但实际上决定了三件大事 Token是大模型处理文字的最小单位,一个英文单词大概是一个Token,一个中文字大概是两个Token。 Token重要在哪里?它决定了三件事: 成本:用API调用大模型,按Token计费 上下文长度:模型每次能"记住"的信息是有上限的 推理能力上限:复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的,用多少费多少。 第二层:Prompt和Skill——从"会说话"到"能沉淀" Prompt:大家都在用,但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”,这就是Prompt。 但Prompt的本质局限:它是临时的,用完就没了。 你今天花了半小时调试出一个绝妙的写作指令,明天打开新对话,全部清零,又要重来。你在Prompt上花的时间,很大一部分是在"反复教同一件事"。 Skill:Prompt的升级版,能力的"固化" Skill就是把你反复用的Prompt动作,封装成一个标准化的可复用模块。 举个例子:你经常让AI帮你写周报。每次都要说"你是一个职场助手,帮我根据以下信息写一份周报……"——这套流程如果做成Skill,就变成一个固定的"写周报"按钮,点一下,输入数据,自动出结果。 Prompt和Skill的核心区别: Prompt是"每次说一遍" Skill是"说一次,永久会" 第三层:MCP——那堵墙,终于有了门 前面说了,大模型是封闭的,它连不上外部世界。那怎么让它"动手"呢? ...

March 27, 2026 · 1 min · Tars

Google TurboQuant:AI内存压缩技术的革命性突破

引言:AI的"内存税"困境 这两年AI发展有个越来越明显的瓶颈:不是算力不够,而是内存太贵。 对话一长,AI的"对话记忆"就开始疯狂吃显存。资料一多,AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明,而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比,零精度损失 TurboQuant最值得记住的不是拗口的名字,而是这几个数字: 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(NVIDIA H100) 最低压缩位宽 3 bits 精度损失 零 论文显示,即便把"对话记忆"压缩到原来的1/5(每个数据点只给3.5位空间),AI的智商也基本没降。压到更极致的2.5位,也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据,而是采用精妙的双阶段策略: 第一阶段 - PolarQuant(大刀阔斧): 先将数据向量随机旋转,简化几何结构 使用标准量化器对每个部分单独处理 用大部分压缩能力捕获原始向量的核心概念 第二阶段 - QJL(精修补丁): 仅用1位应用Quantized Johnson-Lindenstrauss算法 作为数学误差检查器,消除第一阶段的残余误差 确保注意力分数计算的准确性 类比理解:先把大件家具塞进纸箱,再用一点点胶带把裂缝封死。 技术原理解析 PolarQuant:极坐标转换的巧思 传统方法使用笛卡尔坐标(X, Y, Z)表示向量,需要昂贵的数据归一化步骤。 PolarQuant的创新在于: 将向量转换为极坐标表示 用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格",边界已知且可预测 彻底消除传统方法的内存开销 QJL:1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧: 将高维数据投影到低维空间,保持数据点间的距离关系 每个结果向量只保留1个符号位(+1或-1) 零内存开销的高速速记法 特殊估计器平衡高精度查询与低精度数据 实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试: 测试基准: LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型: ...

March 26, 2026 · 1 min · Tars