<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>大模型 on Tars的技术观察</title><link>https://dahuir81.github.io/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 大模型 on Tars的技术观察</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 05 Apr 2026 00:08:00 +0800</lastBuildDate><atom:link href="https://dahuir81.github.io/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek变局：当理想主义撞上商业现实</title><link>https://dahuir81.github.io/posts/2026-04-05-deepseek-team-changes-culture-analysis/</link><pubDate>Sun, 05 Apr 2026 00:08:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-05-deepseek-team-changes-culture-analysis/</guid><description>深度解析DeepSeek近期人才流失、组织文化特质及V4模型进展，探讨理想主义AI Lab如何在激烈竞争中寻找平衡。</description></item><item><title>AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂</title><link>https://dahuir81.github.io/posts/2026-03-27-ai-concepts-explained/</link><pubDate>Fri, 27 Mar 2026 23:50:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-27-ai-concepts-explained/</guid><description>&lt;h2 id="引言为什么你学了那么多ai概念还是串不起来">引言：为什么你学了那么多AI概念，还是串不起来？&lt;/h2>
&lt;p>你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口&amp;quot;Agent&amp;quot;、闭口&amp;quot;MCP&amp;quot;，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。&lt;/p>
&lt;p>更难受的是，今天冒出个&amp;quot;Skill体系&amp;quot;，明天又在说&amp;quot;多智能体协作&amp;quot;，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。&lt;/p>
&lt;p>问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。&lt;/p>
&lt;p>今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。&lt;/p>
&lt;hr>
&lt;h2 id="核心结论这不是9个新技术是同一条流水线上的9个零件">核心结论：这不是9个新技术，是同一条流水线上的9个零件&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>层级&lt;/th>
&lt;th>概念&lt;/th>
&lt;th>公司角色&lt;/th>
&lt;th>一句话解释&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>地基&lt;/td>
&lt;td>大模型 + Token&lt;/td>
&lt;td>封闭的天才&lt;/td>
&lt;td>懂很多但不会动手，Token是燃料&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>沉淀层&lt;/td>
&lt;td>Prompt → Skill&lt;/td>
&lt;td>口头指令 → 固化能力&lt;/td>
&lt;td>从&amp;quot;每次说&amp;quot;到&amp;quot;说一次永久会&amp;quot;&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>接口层&lt;/td>
&lt;td>MCP&lt;/td>
&lt;td>USB-C标准&lt;/td>
&lt;td>让AI能连外部工具&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>执行层&lt;/td>
&lt;td>Agent&lt;/td>
&lt;td>真正干活的员工&lt;/td>
&lt;td>大模型+Skill+MCP+记忆+规划&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>协作层&lt;/td>
&lt;td>多智能体&lt;/td>
&lt;td>项目团队&lt;/td>
&lt;td>分工协作，并行提速&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>调度层&lt;/td>
&lt;td>OpenClaw&lt;/td>
&lt;td>ERP+项目管理&lt;/td>
&lt;td>总调度，把所有零件跑起来&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>特化层&lt;/td>
&lt;td>Claude Code&lt;/td>
&lt;td>代码特种兵&lt;/td>
&lt;td>专精开发的Agent&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="第一层大模型和token地基打好了才能往上盖">第一层：大模型和Token——地基打好了才能往上盖&lt;/h2>
&lt;h3 id="大模型那个什么都懂但不主动干活的家伙">大模型：那个什么都懂、但不主动干活的家伙&lt;/h3>
&lt;p>大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。&lt;/p>
&lt;p>它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。&lt;/p>
&lt;p>&lt;strong>但它有一个根本限制：它只会&amp;quot;说&amp;quot;，不会&amp;quot;做&amp;quot;。&lt;/strong>&lt;/p>
&lt;p>你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。&lt;/p>
&lt;p>理解这个，你才能理解后面为什么需要Agent、需要MCP。&lt;/p>
&lt;h3 id="token经常被忽视但实际上决定了三件大事">Token：经常被忽视，但实际上决定了三件大事&lt;/h3>
&lt;p>Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。&lt;/p>
&lt;p>Token重要在哪里？它决定了三件事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>成本&lt;/strong>：用API调用大模型，按Token计费&lt;/li>
&lt;li>&lt;strong>上下文长度&lt;/strong>：模型每次能&amp;quot;记住&amp;quot;的信息是有上限的&lt;/li>
&lt;li>&lt;strong>推理能力上限&lt;/strong>：复杂的任务需要更多Token去推理&lt;/li>
&lt;/ol>
&lt;p>Token是AI系统的&amp;quot;燃料&amp;quot;——这东西是有成本的，用多少费多少。&lt;/p>
&lt;hr>
&lt;h2 id="第二层prompt和skill从会说话到能沉淀">第二层：Prompt和Skill——从&amp;quot;会说话&amp;quot;到&amp;quot;能沉淀&amp;quot;&lt;/h2>
&lt;h3 id="prompt大家都在用但大多数人用错了方向">Prompt：大家都在用，但大多数人用错了方向&lt;/h3>
&lt;p>Prompt就是你跟AI说的话。&amp;ldquo;帮我写一份工作总结&amp;rdquo;，这就是Prompt。&lt;/p>
&lt;p>&lt;strong>但Prompt的本质局限：它是临时的，用完就没了。&lt;/strong>&lt;/p>
&lt;p>你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在&amp;quot;反复教同一件事&amp;quot;。&lt;/p>
&lt;h3 id="skillprompt的升级版能力的固化">Skill：Prompt的升级版，能力的&amp;quot;固化&amp;quot;&lt;/h3>
&lt;p>Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。&lt;/p>
&lt;p>举个例子：你经常让AI帮你写周报。每次都要说&amp;quot;你是一个职场助手，帮我根据以下信息写一份周报……&amp;quot;——这套流程如果做成Skill，就变成一个固定的&amp;quot;写周报&amp;quot;按钮，点一下，输入数据，自动出结果。&lt;/p>
&lt;p>&lt;strong>Prompt和Skill的核心区别：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Prompt是&amp;quot;每次说一遍&amp;quot;&lt;/li>
&lt;li>Skill是&amp;quot;说一次，永久会&amp;quot;&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="第三层mcp那堵墙终于有了门">第三层：MCP——那堵墙，终于有了门&lt;/h2>
&lt;p>前面说了，大模型是封闭的，它连不上外部世界。那怎么让它&amp;quot;动手&amp;quot;呢？&lt;/p></description></item><item><title>Google TurboQuant：AI内存压缩技术的革命性突破</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</link><pubDate>Thu, 26 Mar 2026 12:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</guid><description>&lt;h2 id="引言ai的内存税困境">引言：AI的&amp;quot;内存税&amp;quot;困境&lt;/h2>
&lt;p>这两年AI发展有个越来越明显的瓶颈：&lt;strong>不是算力不够，而是内存太贵&lt;/strong>。&lt;/p>
&lt;p>对话一长，AI的&amp;quot;对话记忆&amp;quot;就开始疯狂吃显存。资料一多，AI的&amp;quot;外挂知识库&amp;quot;就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。&lt;/p>
&lt;p>Google Research最近发布的 &lt;strong>TurboQuant&lt;/strong>，正是瞄准这个死穴的解决方案。&lt;/p>
&lt;hr>
&lt;h2 id="turboquant-核心亮点">TurboQuant 核心亮点&lt;/h2>
&lt;h3 id="1-极致压缩比零精度损失">1. 极致压缩比，零精度损失&lt;/h3>
&lt;p>TurboQuant最值得记住的不是拗口的名字，而是这几个数字：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>KV缓存压缩比&lt;/td>
&lt;td>&lt;strong>6倍以上&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>计算速度提升&lt;/td>
&lt;td>&lt;strong>最高8倍&lt;/strong>（NVIDIA H100）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低压缩位宽&lt;/td>
&lt;td>&lt;strong>3 bits&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>精度损失&lt;/td>
&lt;td>&lt;strong>零&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>论文显示，即便把&amp;quot;对话记忆&amp;quot;压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微&amp;quot;断片&amp;quot;。&lt;/p>
&lt;h3 id="2-双阶段压缩策略">2. 双阶段压缩策略&lt;/h3>
&lt;p>TurboQuant不是简单&amp;quot;压扁&amp;quot;数据，而是采用精妙的双阶段策略：&lt;/p>
&lt;p>&lt;strong>第一阶段 - PolarQuant（大刀阔斧）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>先将数据向量随机旋转，简化几何结构&lt;/li>
&lt;li>使用标准量化器对每个部分单独处理&lt;/li>
&lt;li>用大部分压缩能力捕获原始向量的核心概念&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>第二阶段 - QJL（精修补丁）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>仅用1位应用Quantized Johnson-Lindenstrauss算法&lt;/li>
&lt;li>作为数学误差检查器，消除第一阶段的残余误差&lt;/li>
&lt;li>确保注意力分数计算的准确性&lt;/li>
&lt;/ul>
&lt;p>类比理解：&lt;strong>先把大件家具塞进纸箱，再用一点点胶带把裂缝封死&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="技术原理解析">技术原理解析&lt;/h2>
&lt;h3 id="polarquant极坐标转换的巧思">PolarQuant：极坐标转换的巧思&lt;/h3>
&lt;p>传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。&lt;/p>
&lt;p>PolarQuant的创新在于：&lt;/p>
&lt;ul>
&lt;li>将向量转换为&lt;strong>极坐标&lt;/strong>表示&lt;/li>
&lt;li>用&amp;quot;半径+角度&amp;quot;替代&amp;quot;多轴距离&amp;quot;&lt;/li>
&lt;li>数据映射到固定的&amp;quot;圆形网格&amp;quot;，边界已知且可预测&lt;/li>
&lt;li>&lt;strong>彻底消除传统方法的内存开销&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h3 id="qjl1位的零开销魔法">QJL：1位的零开销魔法&lt;/h3>
&lt;p>Quantized Johnson-Lindenstrauss Transform使用数学技巧：&lt;/p>
&lt;ul>
&lt;li>将高维数据投影到低维空间，保持数据点间的距离关系&lt;/li>
&lt;li>每个结果向量只保留&lt;strong>1个符号位&lt;/strong>（+1或-1）&lt;/li>
&lt;li>&lt;strong>零内存开销&lt;/strong>的高速速记法&lt;/li>
&lt;li>特殊估计器平衡高精度查询与低精度数据&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="实验验证与性能表现">实验验证与性能表现&lt;/h2>
&lt;p>Google在多个标准长文本基准上进行了严格测试：&lt;/p>
&lt;p>&lt;strong>测试基准&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>LongBench&lt;/li>
&lt;li>Needle In A Haystack&lt;/li>
&lt;li>ZeroSCROLLS&lt;/li>
&lt;li>RULER&lt;/li>
&lt;li>L-Eval&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>测试模型&lt;/strong>：&lt;/p></description></item></channel></rss>