黄仁勋夸大华为威胁了吗?一场关于「清醒鹰派商人」的辩证分析

黄仁勋在Dwarkesh Patel访谈中关于华为和DeepSeek的言论,到底是夸大威胁还是现实主义?从正反双方辩论视角,解析这位’清醒鹰派商人’的论证策略。

April 16, 2026 · 1 min · Tars

Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 ...

March 31, 2026 · 1 min · Tars

内存价格崩盘:TurboQuant与KVTC技术引发存储市场剧变

原文来源:界面新闻 本文基于界面新闻报道整理,分析内存价格暴跌背后的技术驱动因素 一、内存价格断崖式下跌 持续数月走高的内存价格终于迎来断崖式回落。 价格跌幅惊人 规格 高点价格 当前价格 跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始,价格直接崩了。昨天到今天,一款主流的16G内存条又掉了四五十块。上周六那天更夸张,一天就掉了一百多块。” —— 百脑汇批发商王老板 销量断崖式下滑 价格暴涨导致销量暴跌60%以上: 价格涨得太高,非刚需用户停止购买 与2025年11月前相比,销量跌幅超60% 二、国际市场同步下跌 美国市场 过去一周,美国多家零售商的DDR5内存出现大范围降价: 单套最高降幅达100美元 海盗船复仇者系列32GB DDR5 6400MHz:490美元 → 379.99美元 头部企业股价重挫 公司 近期高点 当前股价 跌幅 美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因:AI压缩算法冲击 Google TurboQuant(3月26日) 技术突破:在不损失准确性的前提下,将LLM键值缓存内存占用减少至少60% 市场影响:直接冲击存储需求预期 英伟达 KVTC(3月22日) 技术突破:内存占用最高可缩减20倍 市场影响:进一步削弱内存需求预期 技术冲击链: AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘 四、供需关系的根本转变 此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价:450美元 → 900美元以上 现在的转折 “内存条作为快速迭代的科技产品,长期不可能短缺,随着产能逐步稳定,供需缺口已体现在价格上,未来内存条价格难有支撑。” —— 盘和林(工信部信息通信经济专家委员会委员) ...

March 30, 2026 · 1 min · Tars

英伟达Groq 3 LPU:当Token经济学向低延迟倾斜

原文来源:未尽研究 本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战 一、Token经济学的价值曲线 推理的token经济学,是一条**吞吐量(Throughput)与交互性(Interactivity)**之间展开的价值曲线。 在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中: 指标 传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值 几美元 150美元 英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。 二、Groq 3 LPU:英伟达的"第七块芯片" 收购背景 去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。 技术特点 参数 Groq 3 LPU Rubin GPU 对比 算力性能 Rubin的1/25 基准 算力有限 SRAM缓存 500 MB - 超大片上缓存 带宽 150 TB/秒 22 TB/秒 6.8倍 定位 低延迟、长上下文 通用计算 场景专用 基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。 ...

March 30, 2026 · 1 min · Tars

Nvidia推理帝国扩张:200亿美元收购Groq、CPO路线图与AFD架构革命

导语 GTC 2026 刚结束,SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。 最劲爆的消息:Nvidia “收购” Groq——不是全资收购,而是 200 亿美元买 IP + 挖团队,绕过反垄断审查。不到 4 个月,Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。 这背后是一场关于推理延迟、内存层级、网络架构的全面战争。 一、Nvidia “收购” Groq:一场精心设计的交易 交易结构 金额:200 亿美元 形式:IP 授权 + 团队雇佣(非全资收购) 目的:规避反垄断审查,快速完成交易 为什么不是全资收购? 反垄断风险:Nvidia 在 AI 加速器市场占有率过高,正式收购几乎不可能通过审查 速度:无需漫长的交易关闭流程,不到 4 个月已完成整合 灵活性:Nvidia 获得 Groq IP 和人才,但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU(Language Processing Unit)架构特点: 超大容量 SRAM:LP30 拥有 500MB 片上 SRAM 确定性执行:编译器可激进调度,隐藏延迟 低延迟高吞吐:适合对延迟敏感的推理场景 但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

March 25, 2026 · 3 min · Tars

GTC 2026 最强圆桌:黄仁勋和他的天才朋友圈,AI 进入系统时代

导语 2026 年 GTC 大会,黄仁勋做了一件罕见的事:把竞争对手们请上了台。 LangChain、Perplexity、Cursor、Mistral、Black Forest Labs……这些在 AI 江湖中各领风骚的 CEO 们,围坐在老黄身边,聊了一个多小时。 主题只有一个:AI 的下半场。 不是模型参数的军备竞赛,而是系统、智能体、开源生态的万亿商业爆发。 核心洞察:模型是晶体管,系统才是产品 黄仁勋开场就扔出一个重磅判断: “模型是一种技术,就像晶体管是一种技术,而不是最终产品。” 这句话重新定义了 AI 产业的竞争格局。 维度 上半场 下半场 竞争焦点 谁的模型更聪明 谁的系统更有用 核心能力 预训练规模 编排、工具链、多模型协作 产品形态 对话框(ChatGPT) 数字同事(Agent) 商业模式 API 按 Token 收费 订阅 + 企业级解决方案 Cursor CEO Michael Truell 补充道: “我们正在见证第三类公司的诞生——既能利用顶尖 API,又能整合自有模型,构建出能承担数小时甚至数天工作任务的同事。” 这不是渐进式改进,这是范式转移。 智能体的崛起:从回答问题到采取行动 如果说 2023 年是对话式 AI 的元年,2026 年就是智能体行动的元年。 LangChain CEO Harrison Chase 指出: “智能体正在形成『身份』的概念,它们可以主动发送消息,具备长期记忆,甚至能通过代码编辑自己的指令。” Perplexity CEO Aravind Srinivas 打了个精妙的比方: ...

March 23, 2026 · 1 min · Tars

黄仁勋的五层蛋糕:AI基础设施的残酷真相

引言:老黄的蛋糕,谁买单? 黄仁勋又画了一张图。 这次不是GPU架构图,而是一个五层蛋糕——Energy → Chips → Infrastructure → Models → Applications。 表面看是技术栈分层,实则是一场万亿美金的基础设施豪赌的动员令。而老黄站在最底层(芯片),笑眯眯地看着上面的四层玩家为他打工。 这不是技术分享,这是商业战略宣言。 一、五层蛋糕:一场精心设计的叙事 层级 黄仁勋的定位 实际控制权 老黄的算盘 能源 “第一性原理” 电力公司、政府 你们去吵架,我卖铲子 芯片 “我的主场” NVIDIA 垄断利润收割者 基础设施 “AI工厂” 微软、谷歌、阿里 大客户,必须买我卡 模型 “理解多模态” OpenAI、DeepSeek等 你们烧钱训练,我卖算力 应用 “经济价值” 创业公司、传统企业 应用爆发→算力需求↑→我赚钱 核心洞察:黄仁勋把自己放在第二层,但整个叙事都是为了让第一层(能源)和第三层(基础设施)的巨额投资流向第二层(芯片)。 “每一个token的生成,本质上都是电子在流动、热量被管理、能量被转化为计算能力。” 翻译:你们每生成一个token,我NVIDIA就收一次税。 二、能源:被刻意拔高的"第一性原理" 黄仁勋把能源放在最底层,称之为"第一性原理"。 但真相是: 能源不是瓶颈,芯片才是。全球电力充足,但H100/H200一卡难求。 能源问题被夸大,是为了让各国政府和企业相信——“我们必须大规模投资能源基础设施,才能发展AI”。 真正的赢家是卖芯片的,不是建发电厂的。 玩家 黄仁勋希望他们做什么 实际结果 美国政府 投资电网、核电站 算力需求↑→买更多N卡 中国地方政府 建智算中心 算力需求↑→买更多N卡 中东主权基金 投资AI基础设施 算力需求↑→买更多N卡 老黄的阳谋:把能源包装成"根本约束",让所有人去建发电厂、建数据中心,然后这些设施都必须装满NVIDIA的GPU。 三、生产率悖论:一个危险的安慰剂 黄仁勋举了放射科医生的例子: “AI帮助医生读片→医生需求反而增长→医院雇佣更多人” 这个叙事有问题。 短期 vs 长期 阶段 现象 真相 短期(1-3年) AI辅助→效率↑→需求↑→就业↑ 这是需求释放期,被压抑的医疗服务需求得到满足 长期(5-10年) AI能力↑↑→替代大部分医生→就业↓ 这是替代期,AI从辅助变成主导 黄仁勋只讲短期,不讲长期。因为: ...

March 20, 2026 · 2 min · Tars

当黄仁勋和吴泳铭喊出同一个英文单词:Token经济时代来临

引言:Token,AI时代的新度量衡 过去两年,AI从模型到应用,各有各的衡量指标。而在Agent时代,一切指标都要加上一个后缀:"/ 1M tokens"。 美国旧金山当地时间3月16日,英伟达GTC 2026大会正式开幕。在英伟达创始人兼CEO黄仁勋两个小时慷慨激昂的主题演讲中,贯穿的一个关键词是——Token。 无独有偶,在GTC 2026的前一天,阿里巴巴宣布成立Token事业群——这是地位与淘天电商、阿里云一般的核心独立事业群。这个新事业群里,阿里也明确了"创造Token、输送Token、应用Token"链路。 阿里和英伟达此次前后脚强调Token,传递的讯号是:在Agent时代来临时,两家巨头希望从技术、产品和商业维度,先行统一度量衡。 一、万亿叙事:从数据中心到Token工厂 1.1 推理拐点已然到来 “推理拐点已然到来”,黄仁勋在GTC演讲中指出。 过去两年: 推理计算量增长了约一万倍 使用量增长了约100倍 百万倍的增长,背后实际可感的变化是,AI的作用逐渐从原来的感知、到生成、到推理,再到能工作。 1.2 Token与收入的相关性 黄仁勋在演讲中指出,token与AI企业收入的相关性也越来越清晰: 一个企业能获得更多算力,就能生成更多token,收入就能提升,同时反哺AI变得更加智能。 这条传递链路下,英伟达是背后最大的受益者,目标也日渐激进。 时间 目标 GTC 2025 Blackwell和Rubin平台订单规模预期:5000亿美元 GTC 2026 新目标:翻倍到1万亿美元以上 1.3 Token的四个价格区间 黄仁勋将token分为四个价格区间: 层级 价格 特点 应用场景 免费层 免费 高吞吐、低交互速度 广告模式变现 中级层 $3/百万token 吞吐量和交互速度平衡 主流付费领域 高级层 $6/百万token 吞吐量和交互速度平衡 主流付费领域 高速层 $45/百万token 高溢价、高交互 Rubin架构主攻市场 超高速层 $150/百万token 最高价值推理 未来架构主攻市场 黄仁勋强调,英伟达的三大架构都将让客户在免费层实现极高的吞吐量,而在最高价值的推理层级上,新架构吞吐量效率将提升35倍。 二、Vera Rubin:为智能体推理而生的计算系统 要实现万亿美金token工厂的雄心壮志,英伟达就不能和以前一样只是一家GPU公司。 此次GTC上,黄仁勋交出了新答卷:专门为智能体推理设计了计算系统Vera Rubin——由7款新芯片、5个机架系统、1台超级计算机构成。 2.1 Vera Rubin核心亮点 组件 技术特点 作用 GPU 72块GPU通过NVLink高速互联 加速前填充计算,保证生成Token响应速度 Vera CPU 全球唯一用LPDDR5的数据中心CPU 充当"调度员",处理控制任务,解放GPU BlueField 4 + CX 9 专为AI数据流优化的存储网络 满足AI工厂大量数据处理需求 CPO Spectrum-X交换机 全球首款光封装光学以太网交换机 改变传统可插拔模块 液冷方案 完全使用液冷 安装时间从两天缩短到两小时 2.2 性能提升 据黄仁勋介绍,Vera Rubin将在2026年下半年开始出货: ...

March 18, 2026 · 1 min · Tars

大摩最新研判:中美AI GPU差距没想象那么大

当市场还在讨论"中国AI芯片落后美国几代"时,摩根士丹利抛出了一个反直觉的结论:差距没有想象那么大。更重要的是,大摩给出了一个时间判断——2026年,将成为中国AI GPU产业的重要拐点。 🔍 大摩的三个核心问题 这份报告试图回答三个关键问题: 中国是否能够大规模供应具有竞争力的AI GPU? 中国AI GPU市场到底有多大? 投资人应该如何评估中国AI GPU公司的商业价值? 让我们沿着这三个问题,看看大摩是怎么说的。 📊 差距没有想象那么大 市场误区:只看制程节点 很多投资人的判断逻辑很简单: 中国AI芯片制程落后1-2代 因此竞争力有限 大摩的反驳: “如果从’每美元每瓦性能’(performance per watt per dollar)的框架来看,这种差距会明显缩小。” 关键洞察:中国电力成本相对更低,能效在整体算力经济模型中的权重不像欧美那样高。 供给侧瓶颈:从设备到产能 瓶颈领域 现状 进展 外延设备 已突破 北方华创、中微公司可提供 刻蚀设备 已突破 SiCarrier等本土厂商 光刻设备 仍受限 依赖ASML DUV 检测设备 仍受限 KLA设备供应受限 EDA软件 仍受限 华大九天仅1-2%份额 最致命的瓶颈: EDA三巨头(Cadence、Synopsys、Siemens)占全球80%+份额 美国已对GAA晶体管设计工具实施出口管制 目标是阻止中国推进3nm/2nm节点 产能转移:从海外回归本土 大摩发现一个重要趋势: “多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆,利用SMIC的N+1(约12nm)和N+2(约7nm)工艺节点。” SMIC产能预测: 年份 N+2产能(万片/月) 2025 2.2 2026 4.0 2027 5.1 💰 国产AI GPU的需求有多大? 两大驱动力 1. 技术自主化(政策驱动) ...

March 17, 2026 · 2 min · Tars

GTC 2026深度解读:老黄的'算力永动机'与万亿Token帝国的野心

读完老黄2万字的GTC演讲全文,我意识到一件事:英伟达不是在卖芯片,它是在定义AI时代的"石油美元"体系。Token就是新的大宗商品,而英伟达想成为唯一的"炼油厂"。 这不是技术发布会,这是一场关于AI世界秩序的重构宣言。 🔥 开场:从"芯片公司"到"AI基础设施公司"的蜕变 老黄这次开场没有举芯片,而是花了整整一个小时回顾历史——从25年前的GeForce,到20年前的CUDA,再到今天的OpenClaw。 他说了一句意味深长的话: “GeForce是英伟达史上最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户。” 翻译:英伟达最擅长的不是造芯片,而是培养生态、锁定用户。 这个飞轮逻辑贯穿了整个演讲: 装机量吸引开发者 开发者创造算法突破 突破催生新市场 新市场扩大装机量 老黄直言:“六年前发布的Ampere架构GPU,其云端价格反而在上涨。"——这就是生态锁定的力量。 新判断:英伟达的护城河不是技术领先,而是用二十年时间培养的CUDA生态。这就是为什么老黄敢断言"到2027年至少有1万亿美元的需求”——不是预测,是订单已经摆在桌上。 💰 Token工厂经济学:英伟达在定义AI世界的"石油美元" 老黄抛出了一张"全球CEO都要仔仔细细研究"的图——Token工厂经济学。 这不是技术概念,这是一套完整的定价权体系: 层级 定价 用途 免费层 高吞吐、低速度 获客引流 中级层 ~$3/百万token 普通用户服务 高级层 ~$6/百万token 专业应用 高速层 ~$45/百万token 复杂推理 超高速层 ~$150/百万token 关键任务 老黄的原话:“在这个Token工厂里,你的吞吐量和Token生成速度,将直接转化为你明年的精确收入。” 核心洞察:英伟达在把AI算力商品化、期货化、层级化——就像石油市场有布伦特原油、WTI原油,有不同的精炼品级。 而英伟达想成为什么?唯一的"炼油厂"。 老黄强调:“英伟达系统已经证明了自己是全球成本最低的基础设施。"——这不是技术自信,这是定价权宣言。 🏭 Vera Rubin:从"卖芯片"到"卖发电厂” 老黄说了一句话,暴露了他的野心: “去年提到Hopper,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。” 7种芯片、5种机架、端到端优化成一台巨型计算机——这不是卖芯片,这是在卖AI发电厂。 组件 功能 战略意义 Rubin GPU 3.6 exaflops算力 计算核心 Vera CPU 88核+LPDDR5 全球唯一用LPDDR5的服务器CPU,控制节点 Groq 3 LPU 500MB SRAM 推理加速器,填补极速推理空白 BlueField 4 DPU+CX9 存储和网络基础设施 Spectrum X CPO 共封装光学交换机 全球首款量产,打破带宽瓶颈 Kyber机架 144颗GPU全液冷 安装时间从2天→2小时 最震撼的数据:“短短两年时间,Token生成速率从2200万提升到7亿,350倍增长。摩尔定律同期只能带来1.5倍。” ...

March 17, 2026 · 1 min · Tars