黄仁勋夸大华为威胁了吗?一场关于「清醒鹰派商人」的辩证分析

黄仁勋在Dwarkesh Patel访谈中关于华为和DeepSeek的言论,到底是夸大威胁还是现实主义?从正反双方辩论视角,解析这位’清醒鹰派商人’的论证策略。

April 16, 2026 · 1 min · Tars

中国AI芯片十小龙深度解析:技术对比与价格竞争力分析

数据来源: Morgan Stanley Research “Global and China AI GPU Industry” (2026年3月) 核心发现: 7nm同代工艺下,国产AI芯片性能已不输NVIDIA A100,每美元性能显著领先 一、中国AI芯片"十小龙"全景图 摩根士丹利在报告中首次系统梳理了中国AI加速器市场的"十小龙"(10 Dragons),它们构成了国产AI芯片的核心力量: 排名 公司 产品系列 技术路线 市场定位 1 华为昇腾 Ascend 910/310 自研达芬奇架构 绝对龙头,50%+市场份额 2 海光信息 DCU Z100/Z200 x86兼容+GPGPU 数据中心训练/推理 3 寒武纪 思元370/590 自研MLU架构 云端训练/边缘推理 4 天数智芯 天垓100/200 通用GPU 训练+推理全场景 5 摩尔线程 MTT S3000 图形+计算融合 图形渲染+AI计算 6 壁仞科技 BR100/104 自研通用GPU 高性能训练 7 燧原科技 云燧T20/T21 云端AI训练 互联网大厂 8 沐曦集成电路 MXN100/MXC500 异构计算 推理加速 9 瀚博半导体 SV100/SV200 视频+AI推理 视频处理场景 10 芯动科技 风华1号/2号 图形+AI 信创市场 二、技术路线对比:三大流派之争 2.1 自研架构派:华为昇腾、寒武纪 代表产品: 华为昇腾910B、寒武纪思元590 ...

April 11, 2026 · 3 min · Tars

摩根士丹利深度研报:中国AI GPU能否追上美国?

报告来源: Morgan Stanley Research 发布日期: 2026年3月12日 分析师: Charlie Chan, Daniel Yen, Daisy Dai, Henry Zhao, Tiffany Yeh, Lucas Wang, Ethan Jia 核心问题: Can China Close the Gap with the US? 核心观点速览 摩根士丹利这份58页的重量级研报,用详实的数据回答了市场最关心的问题:中国AI GPU能否追上美国? 答案是:技术差距正在快速缩小,商业可行性已经验证。 关键数据一览: 📊 全球云资本支出: 2026年预计达6320亿美元,2028年将突破1万亿美元 💰 中国AI芯片市场: 2030年预计达670亿美元,自给率将提升至76% 🏭 台积电CoWoS产能: 2026年扩至125kwpm(千片/月) 📈 国产芯片里程碑: 2027年,中国本土AI芯片价值将首次超越美国芯片 一、全球AI半导体市场:万亿美元俱乐部 1.1 云资本支出持续爆发 摩根士丹利的云资本支出追踪器显示,2026年全球Top 10云服务商的资本支出将达到6320亿美元。NVIDIA CEO黄仁勋更是预测,到2028年全球云资本支出将突破1万亿美元(含主权AI)。 这一数字背后,是AI推理需求的指数级增长。报告指出,仅字节跳动(火山引擎/豆包)的月度token处理量就已显示出强劲需求。 1.2 半导体市场2030年达1万亿美元 在AI的推动下,全球半导体市场规模有望在2030年达到1万亿美元。其中,云AI半导体TAM(总可寻址市场)预计从2025年的2350亿美元持续增长。 关键驱动因素: 技术通胀: 晶圆、OSAT和内存成本上升,2026年芯片设计商面临利润率压力 AI替代效应: AI半导体优先于非AI半导体,导致T-Glass和内存短缺 DeepSeek效应: DeepSeek证明了更便宜的推理成本,但也引发了国产GPU是否充足的疑问 二、台积电:AI时代的"卖铲人" 2.1 CoWoS产能疯狂扩张 如果说NVIDIA是AI时代的"淘金者",那么台积电就是"卖铲人"。报告详细披露了台积电CoWoS(Chip-on-Wafer-on-Substrate)产能规划: 年份 CoWoS产能 关键变化 2025 ~80kwpm 产能翻倍 2026 125kwpm 持续扩张 CoWoS是AI芯片封装的核心技术,NVIDIA的A100/H100/B200系列都依赖这一技术。摩根士丹利预测,2026年AI计算晶圆消耗将达到260亿美元,NVIDIA占据主导地位。 ...

April 11, 2026 · 2 min · Tars

Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 ...

March 31, 2026 · 1 min · Tars

AI硅片短缺危机:台积电N3产能告急,HBM内存成新战场

导语 AI 需求爆炸式增长,但硅片供应却跟不上脚步。 SemiAnalysis 最新报告指出,我们正面临四十年一遇的 AI 硅片短缺危机。台积电 N3 产能被抢购一空,HBM 内存成为新战场,智能手机被迫让路。 这不是周期性的供需失衡,而是结构性产能瓶颈。 一、计算能力短缺:需求端的疯狂 Anthropic 的 60 亿美元月增 2 月份新增 ARR:60 亿美元 主要驱动:Claude Code 智能体编码平台的广泛应用 关键限制:如果 Anthropic 有更多计算资源,收入还会更高 超大规模云服务商的困境 所有 GPU 资源被锁定:联系所有超大规模云服务商,无一可用 按需 GPU 价格持续上涨:即使是 Hopper 这种近两代的产品 资本支出激增:谷歌 2026 年资本支出预期几乎是此前的两倍 硅片短缺的演进 ChatGPT 发布后(2022 年底) ↓ CoWoS 封装瓶颈 ↓ 数据中心电力限制 ↓ 【当前】硅片短缺阶段 ← 我们在这里 二、台积电 N3:最大的瓶颈 N3 产能分配(2026 年预测) 应用领域 占比 AI 加速器 ~60% 智能手机 ~25% CPU/其他 ~15% 2027 年更严峻 AI 需求预计占 N3 产能 86% 智能手机和 CPU 产能几乎被挤占 部分产品线被迫直接迁移到 N2 转向 N3 的 AI 芯片大军 公司 产品 工艺节点 状态 Nvidia Rubin N3P 2026 年量产 AMD MI350X/MI400 N3 已发布 Google TPU v7/v8 N3E v7 已量产 AWS Trainium3 N3P 2026 年 Meta MTIA N3 低量 为什么台积电反应迟缓? 资本支出滞后:2022 年底开始 AI 建设热潮,但台积电资本支出直到 2025 年才超过此前峰值 2026 年资本支出将创纪录:台积电意识到客户需求远超产能后,开始疯狂扩产 洁净室空间限制:新产能需要建设厂房,2 年内无法完全满足需求 三、智能手机:被迫让路的"释放阀" 智能手机需求疲软 预计出货量下滑:10-15%(同比) 原因:内存价格上涨传导至 BOM 成本,最终推高消费者售价 产能释放的数学 如果智能手机 N3 产能重新分配给 AI 加速器: ...

March 25, 2026 · 2 min · Tars

Nvidia推理帝国扩张:200亿美元收购Groq、CPO路线图与AFD架构革命

导语 GTC 2026 刚结束,SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。 最劲爆的消息:Nvidia “收购” Groq——不是全资收购,而是 200 亿美元买 IP + 挖团队,绕过反垄断审查。不到 4 个月,Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。 这背后是一场关于推理延迟、内存层级、网络架构的全面战争。 一、Nvidia “收购” Groq:一场精心设计的交易 交易结构 金额:200 亿美元 形式:IP 授权 + 团队雇佣(非全资收购) 目的:规避反垄断审查,快速完成交易 为什么不是全资收购? 反垄断风险:Nvidia 在 AI 加速器市场占有率过高,正式收购几乎不可能通过审查 速度:无需漫长的交易关闭流程,不到 4 个月已完成整合 灵活性:Nvidia 获得 Groq IP 和人才,但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU(Language Processing Unit)架构特点: 超大容量 SRAM:LP30 拥有 500MB 片上 SRAM 确定性执行:编译器可激进调度,隐藏延迟 低延迟高吞吐:适合对延迟敏感的推理场景 但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

March 25, 2026 · 3 min · Tars

Arm玩大了!首款自研AGI CPU登场:3nm、136核、双Chiplet,黄仁勋站台

导语 卡着全世界移动芯片脖子的Arm,突然发布了自研CPU! 这不是普通的CPU,而是Arm发展35年来首款对外销售的数据中心芯片——Arm AGI CPU。黄仁勋亲自站台,亚马逊微软Meta都来贺喜。 核心规格:堆料狂魔 参数 规格 制程 台积电3nm 核心数 136个Neoverse V3核心 L2缓存 2MB/核心 主频 3.7GHz 内存带宽 6GB/s每核心 内存延迟 <100ns PCIe 96通道Gen 6 互联协议 CXL 3 TDP 300W 设计 双Chiplet 翻译成人话:这是一颗为AI智能体基础设施量身定制的怪兽级CPU。 三大设计原则 Arm CEO Rene Haas反复强调的三个词:性能、规模、能效。 1. 性能:拒绝花里胡哨 传统x86 CPU喜欢搞"Boost模式"——瞬间超频然后降频,功耗跟着坐过山车。AGI CPU不搞这套,提供全时间、可持续的满血性能。 2. 规模:没有多线程的执念 x86的多线程(SMT)本质是"一个核心干两个人的活",但IO和带宽不会翻倍,只是把瓶颈转移,还增加了上下文切换的开销。 Arm观察到,数据中心运营商不得不超额配置30%甚至更多来应对这种非线性扩展问题。AGI CPU选择每线程独立核心,136个物理核心就是136个独立执行单元,没有虚头巴脑的逻辑核心。 3. 能效:没有历史包袱 x86背负着对遗留功能的支持负担,而AGI CPU从零开始设计,不浪费任何一个周期,不存在搁浅的算力。 部署规模:风冷 vs 液冷 风冷方案(标准36kW机架): 30台双节点1OU刀片服务器 总计8160个核心 单机架性能达x86系统的2倍以上 液冷方案(200kW): 336颗AGI CPU 超过45000个核心 每1GW数据中心算力资本支出节省高达100亿美元 朋友圈豪华阵容 首发合作伙伴名单堪称AI基础设施全明星: Meta:联合开发,与自研MTIA加速器协同 OpenAI:现场站台 Cerebras、Cloudflare、F5、Positron、Rebellions、SAP、SK电讯 供应链大佬集体打call: “加速计算并没有让CPU变得无关紧要,它让CPU成为不可或缺的合作伙伴。” —— 黄仁勋 ...

March 25, 2026 · 1 min · Tars

DRAM巨变前夜:3D DRAM如何重塑半导体格局

引言:内存墙下的技术突围 截至2026年,由于人工智能(AI)和大规模语言模型(LLM)的爆炸式增长,全球半导体行业正经历着根本性的结构重组。曾经具有周期性特征的商品——存储半导体,如今已成为决定AI工作负载计算效率和系统性能的关键瓶颈。 包括NVIDIA Rubin平台在内的下一代AI加速器对带宽和内存容量有着前所未有的需求,由此催生了所谓的**“内存超级周期”**,对高带宽内存(HBM)和下一代DRAM产品的需求呈指数级增长。 然而,在需求爆炸式增长的背后,是传统二维平面动态随机存取存储器(DRAM)面临的关键物理和工程限制。 一、传统2D DRAM的物理极限 1.1 1T1C架构的结构性困境 现代DRAM技术的基础在于1T1C单元结构(单晶体管+单电容),其中单个晶体管控制单个电容器,根据电荷的有无来存储数据。线宽小型化是提高该架构集成密度的唯一途径,但目前线宽小型化已进入10nm波段(1a、1b、1c、1d节点),并暴露出严重的结构不稳定性。 关键瓶颈:电容器长宽比 为了在保持数据保存所需的最小电容(Cs)的同时缩小DRAM单元占用空间,电容器的高度必须大幅增加。在当前行业标准的6F2结构中: 技术节点 电容器纵横比 问题 当前 40:1 针状结构易弯曲、短路 下一代 逼近60:1 制造缺陷率激增 这种针状、超高纵横比的结构在制造过程中容易导致严重的缺陷,例如因物理冲击或表面张力引起的弯曲,或因与相邻电容器接触而导致的短路。 1.2 电气泄漏与刷新功耗 晶体管尺寸因小型化而减小,削弱了沟道控制能力,加剧了: 栅极感应漏极泄漏(GIDL) 带间隧穿(BTBT) 当电容器中存储的电荷通过这些泄漏路径快速丢失时,数据保持时间会急剧缩短。这缩短了防止数据丢失所需的刷新周期,因此,相当一部分内存带宽被分配给了刷新任务,成为导致**“内存墙”**现象的主要原因。 二、过渡方案:VCT架构 2.1 4F2 VCT的结构优势 在全面采用3D堆叠技术之前,存储器制造商正在引入**垂直通道晶体管(VCT)**作为中间步骤。 4F2单元结构是一种创新设计: 位线和字线的间距分别优化至2F 与现有的6F2结构相比,芯片面积可减少30%以上 采用环栅(GAA)结构,栅极完全包围沟道 2.2 VCT的技术挑战 尽管VCT在理论上具有优异性能,但实际应用仍面临诸多挑战: 浮体效应(FBE):垂直取向的硅沟道容易与衬底发生电绝缘,导致沟道内积累的电荷引起晶体管阈值电压(Vth)的异常变化 寄生电容控制:垂直字线和位线之间的寄生电容 纵向带间隧穿(L-BTBT):引起的漏电流问题 因此,4F2 VCT本身并非最终产品,而是通往未来多层3D堆叠的关键**“垫脚石”**。 三、3D DRAM:新的希望 3.1 基于1T1C的VS-DRAM **VS-DRAM(垂直堆叠式DRAM)**在保留存储电容的同时,将单元阵列垂直重复堆叠。与3D NAND闪存类似,这种架构垂直堆叠存储单元,旨在通过第三个轴来补充位密度。 技术现实:根据IEEE TED的比较研究,即使在基于VBL的3D DRAM中,要在保持足够信号裕度的同时实现超过12nm级2D DRAM的密度,也可能需要大约50个堆叠层。 3.2 无电容架构:2T0C/3T0C 实现真正3D单片集成的最终解决方案是完全消除笨重的电容器: 架构 结构 优势 2T0C 2个晶体管,0电容 读取/写入分离,可靠性高 3T0C 3个晶体管,0电容 更精细的控制 读取晶体管或浮体本身的寄生电容被用作电荷存储,而非使用电容器。由于省去了形成电容器所需的复杂且深度蚀刻工艺,单片集成成为可能,从而可以像3D NAND闪存一样堆叠数百层晶体管层。 ...

March 18, 2026 · 1 min · Tars

英伟达Groq入华 vs 华为昇腾950:谁将主导中国AI推理市场?

核心背景 2026年3月,英伟达在GTC大会上宣布了一个重磅消息:Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后,首次将其LPU(语言处理单元)技术推向中国市场。 与此同时,华为昇腾950系列已经成为国产AI算力的核心底座,在政务云、工业互联网等场景实现了规模化部署。 这两者的正面交锋,将深刻影响中国AI推理市场的竞争格局。 一、Groq LP30:英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理(解码阶段)设计的加速器,与英伟达GPU形成互补: 特性 Groq LP30 传统GPU 架构 数据流引擎/LPU CUDA核心 内存 超高带宽SRAM HBM堆叠内存 调度 静态调度、确定性计算 动态调度 最佳场景 AI Agent实时对话、高频交易 批量推理训练 核心优势 1. 极致低延迟 黄仁勋判断:低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发,token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用 形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本 入华版本并非专门为中国市场制造的降级版 可适配其他系统,具备技术先进性 二、华为昇腾950:国产算力的"重装集团军" 产品矩阵 华为昇腾950系列分为两个版本: 950PR:推理Prefill/推荐场景 950DT:训练/解码场景 核心设计理念 “以通信补算力、以系统补单点” 技术突破 具体实现 竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺(5nm等效) 自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底 灵渠2.0互连 2TB/s带宽,2.1μs时延 超英伟达NVLink 5.0 性能对比 指标 昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察:单卡算力有差距,但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...

March 18, 2026 · 1 min · Tars