大模型 on Tars的技术观察

DeepSeek变局：当理想主义撞上商业现实

Sun, 05 Apr 2026 00:08:00 +0800

深度解析DeepSeek近期人才流失、组织文化特质及V4模型进展，探讨理想主义AI Lab如何在激烈竞争中寻找平衡。

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

Fri, 27 Mar 2026 23:50:00 +0800

引言：为什么你学了那么多AI概念，还是串不起来？

你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。

更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。

问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。

今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。

核心结论：这不是9个新技术，是同一条流水线上的9个零件

层级	概念	公司角色	一句话解释
地基	大模型 + Token	封闭的天才	懂很多但不会动手，Token是燃料
沉淀层	Prompt → Skill	口头指令 → 固化能力	从"每次说"到"说一次永久会"
接口层	MCP	USB-C标准	让AI能连外部工具
执行层	Agent	真正干活的员工	大模型+Skill+MCP+记忆+规划
协作层	多智能体	项目团队	分工协作，并行提速
调度层	OpenClaw	ERP+项目管理	总调度，把所有零件跑起来
特化层	Claude Code	代码特种兵	专精开发的Agent

第一层：大模型和Token——地基打好了才能往上盖

大模型：那个什么都懂、但不主动干活的家伙

大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。

它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。

但它有一个根本限制：它只会"说"，不会"做"。

你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。

理解这个，你才能理解后面为什么需要Agent、需要MCP。

Token：经常被忽视，但实际上决定了三件大事

Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。

Token重要在哪里？它决定了三件事：

成本：用API调用大模型，按Token计费
上下文长度：模型每次能"记住"的信息是有上限的
推理能力上限：复杂的任务需要更多Token去推理

Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。

第二层：Prompt和Skill——从"会说话"到"能沉淀"

Prompt：大家都在用，但大多数人用错了方向

Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。

但Prompt的本质局限：它是临时的，用完就没了。

你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。

Skill：Prompt的升级版，能力的"固化"

Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。

举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。

Prompt和Skill的核心区别：

Prompt是"每次说一遍"
Skill是"说一次，永久会"

第三层：MCP——那堵墙，终于有了门

前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？

Google TurboQuant：AI内存压缩技术的革命性突破

Thu, 26 Mar 2026 12:00:00 +0800

引言：AI的"内存税"困境

这两年AI发展有个越来越明显的瓶颈：不是算力不够，而是内存太贵。

对话一长，AI的"对话记忆"就开始疯狂吃显存。资料一多，AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。

Google Research最近发布的 TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant 核心亮点

1. 极致压缩比，零精度损失

TurboQuant最值得记住的不是拗口的名字，而是这几个数字：

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（NVIDIA H100）
最低压缩位宽	3 bits
精度损失	零

论文显示，即便把"对话记忆"压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微"断片"。

2. 双阶段压缩策略

TurboQuant不是简单"压扁"数据，而是采用精妙的双阶段策略：

第一阶段 - PolarQuant（大刀阔斧）：

先将数据向量随机旋转，简化几何结构
使用标准量化器对每个部分单独处理
用大部分压缩能力捕获原始向量的核心概念

第二阶段 - QJL（精修补丁）：

仅用1位应用Quantized Johnson-Lindenstrauss算法
作为数学误差检查器，消除第一阶段的残余误差
确保注意力分数计算的准确性

类比理解：先把大件家具塞进纸箱，再用一点点胶带把裂缝封死。

技术原理解析

PolarQuant：极坐标转换的巧思

传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。

PolarQuant的创新在于：

将向量转换为极坐标表示
用"半径+角度"替代"多轴距离"
数据映射到固定的"圆形网格"，边界已知且可预测
彻底消除传统方法的内存开销

QJL：1位的零开销魔法

Quantized Johnson-Lindenstrauss Transform使用数学技巧：

将高维数据投影到低维空间，保持数据点间的距离关系
每个结果向量只保留1个符号位（+1或-1）
零内存开销的高速速记法
特殊估计器平衡高精度查询与低精度数据

实验验证与性能表现

Google在多个标准长文本基准上进行了严格测试：

测试基准：

LongBench
Needle In A Haystack
ZeroSCROLLS
RULER
L-Eval

测试模型：