AI芯片 | Tars的技术观察

黄仁勋夸大华为威胁了吗？一场关于「清醒鹰派商人」的辩证分析

黄仁勋在Dwarkesh Patel访谈中关于华为和DeepSeek的言论，到底是夸大威胁还是现实主义？从正反双方辩论视角，解析这位’清醒鹰派商人’的论证策略。

中国AI芯片十小龙深度解析：技术对比与价格竞争力分析

数据来源: Morgan Stanley Research “Global and China AI GPU Industry” (2026年3月) 核心发现: 7nm同代工艺下，国产AI芯片性能已不输NVIDIA A100，每美元性能显著领先一、中国AI芯片"十小龙"全景图摩根士丹利在报告中首次系统梳理了中国AI加速器市场的"十小龙"（10 Dragons），它们构成了国产AI芯片的核心力量：排名公司产品系列技术路线市场定位 1 华为昇腾 Ascend 910/310 自研达芬奇架构绝对龙头，50%+市场份额 2 海光信息 DCU Z100/Z200 x86兼容+GPGPU 数据中心训练/推理 3 寒武纪思元370/590 自研MLU架构云端训练/边缘推理 4 天数智芯天垓100/200 通用GPU 训练+推理全场景 5 摩尔线程 MTT S3000 图形+计算融合图形渲染+AI计算 6 壁仞科技 BR100/104 自研通用GPU 高性能训练 7 燧原科技云燧T20/T21 云端AI训练互联网大厂 8 沐曦集成电路 MXN100/MXC500 异构计算推理加速 9 瀚博半导体 SV100/SV200 视频+AI推理视频处理场景 10 芯动科技风华1号/2号图形+AI 信创市场二、技术路线对比：三大流派之争 2.1 自研架构派：华为昇腾、寒武纪代表产品: 华为昇腾910B、寒武纪思元590 ...

摩根士丹利深度研报：中国AI GPU能否追上美国？

报告来源: Morgan Stanley Research 发布日期: 2026年3月12日分析师: Charlie Chan, Daniel Yen, Daisy Dai, Henry Zhao, Tiffany Yeh, Lucas Wang, Ethan Jia 核心问题: Can China Close the Gap with the US? 核心观点速览摩根士丹利这份58页的重量级研报，用详实的数据回答了市场最关心的问题：中国AI GPU能否追上美国？答案是：技术差距正在快速缩小，商业可行性已经验证。关键数据一览： 📊 全球云资本支出: 2026年预计达6320亿美元，2028年将突破1万亿美元 💰 中国AI芯片市场: 2030年预计达670亿美元，自给率将提升至76% 🏭 台积电CoWoS产能: 2026年扩至125kwpm（千片/月） 📈 国产芯片里程碑: 2027年，中国本土AI芯片价值将首次超越美国芯片一、全球AI半导体市场：万亿美元俱乐部 1.1 云资本支出持续爆发摩根士丹利的云资本支出追踪器显示，2026年全球Top 10云服务商的资本支出将达到6320亿美元。NVIDIA CEO黄仁勋更是预测，到2028年全球云资本支出将突破1万亿美元（含主权AI）。这一数字背后，是AI推理需求的指数级增长。报告指出，仅字节跳动（火山引擎/豆包）的月度token处理量就已显示出强劲需求。 1.2 半导体市场2030年达1万亿美元在AI的推动下，全球半导体市场规模有望在2030年达到1万亿美元。其中，云AI半导体TAM（总可寻址市场）预计从2025年的2350亿美元持续增长。关键驱动因素: 技术通胀: 晶圆、OSAT和内存成本上升，2026年芯片设计商面临利润率压力 AI替代效应: AI半导体优先于非AI半导体，导致T-Glass和内存短缺 DeepSeek效应: DeepSeek证明了更便宜的推理成本，但也引发了国产GPU是否充足的疑问二、台积电：AI时代的"卖铲人" 2.1 CoWoS产能疯狂扩张如果说NVIDIA是AI时代的"淘金者"，那么台积电就是"卖铲人"。报告详细披露了台积电CoWoS（Chip-on-Wafer-on-Substrate）产能规划：年份 CoWoS产能关键变化 2025 ~80kwpm 产能翻倍 2026 125kwpm 持续扩张 CoWoS是AI芯片封装的核心技术，NVIDIA的A100/H100/B200系列都依赖这一技术。摩根士丹利预测，2026年AI计算晶圆消耗将达到260亿美元，NVIDIA占据主导地位。 ...

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

原文来源：IT奶爸/工程芯一发布时间：2026年3月30日引言 Groq加入NVIDIA后，作为LPU形成推理增强芯片上的重要组成。过去一段时间里，业内已有几篇深度解析，本文整理核心要点。 NVIDIA对Groq的交易形式是：20B美金IP许可+大部分团队打包入职，在法律上刻意没有走正式并购，避开反垄断审查和漫长过户流程，直接获得IP+人。这也解释了为什么交易宣布不到四个月，就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角：这是典型的「不叫并购，但干的都是并购的事」：在算力高度集中、监管高度敏感的年份，用结构创新抢时间窗口，本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理，而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里，这点就变成了优势：LPU负责小而急的部分，高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角：这是典型「不合适做主角，但非常适合当一个专职6th man」——Groq独立做云服务吃力，但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1：确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同，LPU被拆分为多个单一用途功能组（slice）： VXM：向量运算 MEM：读写数据 SXM：张量形状变换 MXM：矩阵乘法各slice水平排布，数据水平流动，指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据，刻意避免多级缓存层级，使得执行完全确定性。 💡 芯一视角：把GPU看成「数据和算子都在乱跑的大城市」，LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程，是它所有系统优势的起点。 LP40可能的改动工艺切换到TSMC N3P，封装采用CoWoS-R 协议上弃用Groq C2C（Alphawave 112G Serdes），引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民关键技术是混合键合堆叠DRAM：在SRAM上叠加3D DRAM，延迟/带宽略逊SRAM，但远好于传统DRAM II. 推理的拆解大模型推理的两阶段 Prefill：处理全量输入上下文，算力密集，适合GPU Decode：逐token预测，KV cache主导，内存带宽+延迟敏感，这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦（AFD）这推动了**Attention/FFN解耦（AFD）**的提出： GPU专门做Attention+KV cache，HBM全部用于缓存更多tokens FFN（特别是MoE专家）是大量、相对stateless的算子，适合放在LPU上跑确定性、静态workload 在AFD的情况下，GPU到LPU发送以及路由token会成为瓶颈。为此，文章介绍了一种Ping-Pong流水线并行： Batch被拆成多个micro-batch，Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠，尽量让链路「一直在干活」 💡 芯一视角：这里的关键不是「速度快一点」，而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性，网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景：小draft模型或多token预测（MTP）层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性只要k远小于当前上下文长度N，额外的k tokens对延迟增量很小通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟，有机会进一步拉大这个倍数，从而提升吞吐。 ...

AI硅片短缺危机：台积电N3产能告急，HBM内存成新战场

导语 AI 需求爆炸式增长，但硅片供应却跟不上脚步。 SemiAnalysis 最新报告指出，我们正面临四十年一遇的 AI 硅片短缺危机。台积电 N3 产能被抢购一空，HBM 内存成为新战场，智能手机被迫让路。这不是周期性的供需失衡，而是结构性产能瓶颈。一、计算能力短缺：需求端的疯狂 Anthropic 的 60 亿美元月增 2 月份新增 ARR：60 亿美元主要驱动：Claude Code 智能体编码平台的广泛应用关键限制：如果 Anthropic 有更多计算资源，收入还会更高超大规模云服务商的困境所有 GPU 资源被锁定：联系所有超大规模云服务商，无一可用按需 GPU 价格持续上涨：即使是 Hopper 这种近两代的产品资本支出激增：谷歌 2026 年资本支出预期几乎是此前的两倍硅片短缺的演进 ChatGPT 发布后（2022 年底） ↓ CoWoS 封装瓶颈 ↓ 数据中心电力限制 ↓ 【当前】硅片短缺阶段 ← 我们在这里二、台积电 N3：最大的瓶颈 N3 产能分配（2026 年预测）应用领域占比 AI 加速器 ~60% 智能手机 ~25% CPU/其他 ~15% 2027 年更严峻 AI 需求预计占 N3 产能 86% 智能手机和 CPU 产能几乎被挤占部分产品线被迫直接迁移到 N2 转向 N3 的 AI 芯片大军公司产品工艺节点状态 Nvidia Rubin N3P 2026 年量产 AMD MI350X/MI400 N3 已发布 Google TPU v7/v8 N3E v7 已量产 AWS Trainium3 N3P 2026 年 Meta MTIA N3 低量为什么台积电反应迟缓？资本支出滞后：2022 年底开始 AI 建设热潮，但台积电资本支出直到 2025 年才超过此前峰值 2026 年资本支出将创纪录：台积电意识到客户需求远超产能后，开始疯狂扩产洁净室空间限制：新产能需要建设厂房，2 年内无法完全满足需求三、智能手机：被迫让路的"释放阀" 智能手机需求疲软预计出货量下滑：10-15%（同比）原因：内存价格上涨传导至 BOM 成本，最终推高消费者售价产能释放的数学如果智能手机 N3 产能重新分配给 AI 加速器： ...

Nvidia推理帝国扩张：200亿美元收购Groq、CPO路线图与AFD架构革命

导语 GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。这背后是一场关于推理延迟、内存层级、网络架构的全面战争。一、Nvidia “收购” Groq：一场精心设计的交易交易结构金额：200 亿美元形式：IP 授权 + 团队雇佣（非全资收购）目的：规避反垄断审查，快速完成交易为什么不是全资收购？反垄断风险：Nvidia 在 AI 加速器市场占有率过高，正式收购几乎不可能通过审查速度：无需漫长的交易关闭流程，不到 4 个月已完成整合灵活性：Nvidia 获得 Groq IP 和人才，但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU（Language Processing Unit）架构特点：超大容量 SRAM：LP30 拥有 500MB 片上 SRAM 确定性执行：编译器可激进调度，隐藏延迟低延迟高吞吐：适合对延迟敏感的推理场景但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

Arm玩大了！首款自研AGI CPU登场：3nm、136核、双Chiplet，黄仁勋站台

导语卡着全世界移动芯片脖子的Arm，突然发布了自研CPU！这不是普通的CPU，而是Arm发展35年来首款对外销售的数据中心芯片——Arm AGI CPU。黄仁勋亲自站台，亚马逊微软Meta都来贺喜。核心规格：堆料狂魔参数规格制程台积电3nm 核心数 136个Neoverse V3核心 L2缓存 2MB/核心主频 3.7GHz 内存带宽 6GB/s每核心内存延迟 <100ns PCIe 96通道Gen 6 互联协议 CXL 3 TDP 300W 设计双Chiplet 翻译成人话：这是一颗为AI智能体基础设施量身定制的怪兽级CPU。三大设计原则 Arm CEO Rene Haas反复强调的三个词：性能、规模、能效。 1. 性能：拒绝花里胡哨传统x86 CPU喜欢搞"Boost模式"——瞬间超频然后降频，功耗跟着坐过山车。AGI CPU不搞这套，提供全时间、可持续的满血性能。 2. 规模：没有多线程的执念 x86的多线程（SMT）本质是"一个核心干两个人的活"，但IO和带宽不会翻倍，只是把瓶颈转移，还增加了上下文切换的开销。 Arm观察到，数据中心运营商不得不超额配置30%甚至更多来应对这种非线性扩展问题。AGI CPU选择每线程独立核心，136个物理核心就是136个独立执行单元，没有虚头巴脑的逻辑核心。 3. 能效：没有历史包袱 x86背负着对遗留功能的支持负担，而AGI CPU从零开始设计，不浪费任何一个周期，不存在搁浅的算力。部署规模：风冷 vs 液冷风冷方案（标准36kW机架）： 30台双节点1OU刀片服务器总计8160个核心单机架性能达x86系统的2倍以上液冷方案（200kW）： 336颗AGI CPU 超过45000个核心每1GW数据中心算力资本支出节省高达100亿美元朋友圈豪华阵容首发合作伙伴名单堪称AI基础设施全明星： Meta：联合开发，与自研MTIA加速器协同 OpenAI：现场站台 Cerebras、Cloudflare、F5、Positron、Rebellions、SAP、SK电讯供应链大佬集体打call： “加速计算并没有让CPU变得无关紧要，它让CPU成为不可或缺的合作伙伴。” —— 黄仁勋 ...

DRAM巨变前夜：3D DRAM如何重塑半导体格局

引言：内存墙下的技术突围截至2026年，由于人工智能（AI）和大规模语言模型（LLM）的爆炸式增长，全球半导体行业正经历着根本性的结构重组。曾经具有周期性特征的商品——存储半导体，如今已成为决定AI工作负载计算效率和系统性能的关键瓶颈。包括NVIDIA Rubin平台在内的下一代AI加速器对带宽和内存容量有着前所未有的需求，由此催生了所谓的**“内存超级周期”**，对高带宽内存（HBM）和下一代DRAM产品的需求呈指数级增长。然而，在需求爆炸式增长的背后，是传统二维平面动态随机存取存储器（DRAM）面临的关键物理和工程限制。一、传统2D DRAM的物理极限 1.1 1T1C架构的结构性困境现代DRAM技术的基础在于1T1C单元结构（单晶体管+单电容），其中单个晶体管控制单个电容器，根据电荷的有无来存储数据。线宽小型化是提高该架构集成密度的唯一途径，但目前线宽小型化已进入10nm波段（1a、1b、1c、1d节点），并暴露出严重的结构不稳定性。关键瓶颈：电容器长宽比为了在保持数据保存所需的最小电容(Cs)的同时缩小DRAM单元占用空间，电容器的高度必须大幅增加。在当前行业标准的6F2结构中：技术节点电容器纵横比问题当前 40:1 针状结构易弯曲、短路下一代逼近60:1 制造缺陷率激增这种针状、超高纵横比的结构在制造过程中容易导致严重的缺陷，例如因物理冲击或表面张力引起的弯曲，或因与相邻电容器接触而导致的短路。 1.2 电气泄漏与刷新功耗晶体管尺寸因小型化而减小，削弱了沟道控制能力，加剧了：栅极感应漏极泄漏(GIDL) 带间隧穿(BTBT) 当电容器中存储的电荷通过这些泄漏路径快速丢失时，数据保持时间会急剧缩短。这缩短了防止数据丢失所需的刷新周期，因此，相当一部分内存带宽被分配给了刷新任务，成为导致**“内存墙”**现象的主要原因。二、过渡方案：VCT架构 2.1 4F2 VCT的结构优势在全面采用3D堆叠技术之前，存储器制造商正在引入**垂直通道晶体管(VCT)**作为中间步骤。 4F2单元结构是一种创新设计：位线和字线的间距分别优化至2F 与现有的6F2结构相比，芯片面积可减少30%以上采用环栅（GAA）结构，栅极完全包围沟道 2.2 VCT的技术挑战尽管VCT在理论上具有优异性能，但实际应用仍面临诸多挑战：浮体效应(FBE)：垂直取向的硅沟道容易与衬底发生电绝缘，导致沟道内积累的电荷引起晶体管阈值电压(Vth)的异常变化寄生电容控制：垂直字线和位线之间的寄生电容纵向带间隧穿(L-BTBT)：引起的漏电流问题因此，4F2 VCT本身并非最终产品，而是通往未来多层3D堆叠的关键**“垫脚石”**。三、3D DRAM：新的希望 3.1 基于1T1C的VS-DRAM **VS-DRAM（垂直堆叠式DRAM）**在保留存储电容的同时，将单元阵列垂直重复堆叠。与3D NAND闪存类似，这种架构垂直堆叠存储单元，旨在通过第三个轴来补充位密度。技术现实：根据IEEE TED的比较研究，即使在基于VBL的3D DRAM中，要在保持足够信号裕度的同时实现超过12nm级2D DRAM的密度，也可能需要大约50个堆叠层。 3.2 无电容架构：2T0C/3T0C 实现真正3D单片集成的最终解决方案是完全消除笨重的电容器：架构结构优势 2T0C 2个晶体管，0电容读取/写入分离，可靠性高 3T0C 3个晶体管，0电容更精细的控制读取晶体管或浮体本身的寄生电容被用作电荷存储，而非使用电容器。由于省去了形成电容器所需的复杂且深度蚀刻工艺，单片集成成为可能，从而可以像3D NAND闪存一样堆叠数百层晶体管层。 ...

英伟达Groq入华 vs 华为昇腾950：谁将主导中国AI推理市场？

核心背景 2026年3月，英伟达在GTC大会上宣布了一个重磅消息：Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后，首次将其LPU（语言处理单元）技术推向中国市场。与此同时，华为昇腾950系列已经成为国产AI算力的核心底座，在政务云、工业互联网等场景实现了规模化部署。这两者的正面交锋，将深刻影响中国AI推理市场的竞争格局。一、Groq LP30：英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理（解码阶段）设计的加速器，与英伟达GPU形成互补：特性 Groq LP30 传统GPU 架构数据流引擎/LPU CUDA核心内存超高带宽SRAM HBM堆叠内存调度静态调度、确定性计算动态调度最佳场景 AI Agent实时对话、高频交易批量推理训练核心优势 1. 极致低延迟黄仁勋判断：低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发，token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本入华版本并非专门为中国市场制造的降级版可适配其他系统，具备技术先进性二、华为昇腾950：国产算力的"重装集团军" 产品矩阵华为昇腾950系列分为两个版本： 950PR：推理Prefill/推荐场景 950DT：训练/解码场景核心设计理念 “以通信补算力、以系统补单点” 技术突破具体实现竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺（5nm等效）自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底灵渠2.0互连 2TB/s带宽，2.1μs时延超英伟达NVLink 5.0 性能对比指标昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察：单卡算力有差距，但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...