大模型 | Tars的技术观察

DeepSeek变局：当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab，在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是：梁文锋的"理想主义实验"能否在商业化压力下继续？人才流失：谁在离开，为什么已确认离职的核心成员成员角色去向影响王炳宣 DeepSeek LLM核心作者腾讯（姚顺雨团队）历代模型训练骨干魏浩然 DeepSeek-OCR系列核心某大厂（待定）多模态文档理解郭达雅 DeepSeek-R1核心作者某大厂（待定）推理模型核心阮翀幻方元老、Janus-Pro核心元戎启行（自动驾驶）多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资，无明确估值期权协议价值模糊，而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注：效率优化、架构创新、国产生态行业热点：Agentic应用、Coding、多模态生成年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束相对Google、OpenAI，GPU资源有限实验规模和数量受制约验证"技术品味"的机会成本更高梁文锋的管理哲学：反共识实验组织设计：极简扁平传统AI公司层级： CEO → VP → Director → Manager → Researcher DeepSeek层级：梁文锋（一号位） ↔ 研究员（100+人）无明确绩效考核，无DDL（截止时间）不打卡，多数员工6-7点下班自然分工，研究员自由组队探索周会开放，跨组参会无障碍梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比： Google、OpenAI、xAI、字节：每周70-80小时 DeepSeek：约大厂1/10人数，1/2人均工时，跻身第一梯队人才策略：应届生为主 2025年初统计（172名研究者中84人可查）： ...

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

引言：为什么你学了那么多AI概念，还是串不起来？你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。核心结论：这不是9个新技术，是同一条流水线上的9个零件层级概念公司角色一句话解释地基大模型 + Token 封闭的天才懂很多但不会动手，Token是燃料沉淀层 Prompt → Skill 口头指令 → 固化能力从"每次说"到"说一次永久会" 接口层 MCP USB-C标准让AI能连外部工具执行层 Agent 真正干活的员工大模型+Skill+MCP+记忆+规划协作层多智能体项目团队分工协作，并行提速调度层 OpenClaw ERP+项目管理总调度，把所有零件跑起来特化层 Claude Code 代码特种兵专精开发的Agent 第一层：大模型和Token——地基打好了才能往上盖大模型：那个什么都懂、但不主动干活的家伙大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。但它有一个根本限制：它只会"说"，不会"做"。你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。理解这个，你才能理解后面为什么需要Agent、需要MCP。 Token：经常被忽视，但实际上决定了三件大事 Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。 Token重要在哪里？它决定了三件事：成本：用API调用大模型，按Token计费上下文长度：模型每次能"记住"的信息是有上限的推理能力上限：复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。第二层：Prompt和Skill——从"会说话"到"能沉淀" Prompt：大家都在用，但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。但Prompt的本质局限：它是临时的，用完就没了。你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。 Skill：Prompt的升级版，能力的"固化" Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。 Prompt和Skill的核心区别： Prompt是"每次说一遍" Skill是"说一次，永久会" 第三层：MCP——那堵墙，终于有了门前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？ ...

Google TurboQuant：AI内存压缩技术的革命性突破

引言：AI的"内存税"困境这两年AI发展有个越来越明显的瓶颈：不是算力不够，而是内存太贵。对话一长，AI的"对话记忆"就开始疯狂吃显存。资料一多，AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant，正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比，零精度损失 TurboQuant最值得记住的不是拗口的名字，而是这几个数字：指标数据 KV缓存压缩比 6倍以上计算速度提升最高8倍（NVIDIA H100）最低压缩位宽 3 bits 精度损失零论文显示，即便把"对话记忆"压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据，而是采用精妙的双阶段策略：第一阶段 - PolarQuant（大刀阔斧）：先将数据向量随机旋转，简化几何结构使用标准量化器对每个部分单独处理用大部分压缩能力捕获原始向量的核心概念第二阶段 - QJL（精修补丁）：仅用1位应用Quantized Johnson-Lindenstrauss算法作为数学误差检查器，消除第一阶段的残余误差确保注意力分数计算的准确性类比理解：先把大件家具塞进纸箱，再用一点点胶带把裂缝封死。技术原理解析 PolarQuant：极坐标转换的巧思传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。 PolarQuant的创新在于：将向量转换为极坐标表示用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格"，边界已知且可预测彻底消除传统方法的内存开销 QJL：1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧：将高维数据投影到低维空间，保持数据点间的距离关系每个结果向量只保留1个符号位（+1或-1）零内存开销的高速速记法特殊估计器平衡高精度查询与低精度数据实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试：测试基准： LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型： ...