AI芯片 on Tars的技术观察

黄仁勋夸大华为威胁了吗？一场关于「清醒鹰派商人」的辩证分析

Thu, 16 Apr 2026 00:00:00 +0000

黄仁勋在Dwarkesh Patel访谈中关于华为和DeepSeek的言论，到底是夸大威胁还是现实主义？从正反双方辩论视角，解析这位’清醒鹰派商人’的论证策略。

中国AI芯片十小龙深度解析：技术对比与价格竞争力分析

Sat, 11 Apr 2026 21:35:00 +0800

基于摩根士丹利58页研报，深度解析中国AI芯片十小龙技术路线、性能对比、价格竞争力与投资价值

摩根士丹利深度研报：中国AI GPU能否追上美国？

Sat, 11 Apr 2026 21:30:00 +0800

摩根士丹利58页深度研报解读：全球AI GPU产业格局、中国国产替代路径、技术差距评估与投资机会

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

Tue, 31 Mar 2026 10:45:00 +0800

深入解析NVIDIA收购Groq后的LPU架构设计，从确定性执行到AFD解耦，揭秘推理系统的成本优化之道

AI硅片短缺危机：台积电N3产能告急，HBM内存成新战场

Wed, 25 Mar 2026 15:00:00 +0800

导语

AI 需求爆炸式增长，但硅片供应却跟不上脚步。

SemiAnalysis 最新报告指出，我们正面临四十年一遇的 AI 硅片短缺危机。台积电 N3 产能被抢购一空，HBM 内存成为新战场，智能手机被迫让路。

这不是周期性的供需失衡，而是结构性产能瓶颈。

一、计算能力短缺：需求端的疯狂

Anthropic 的 60 亿美元月增

2 月份新增 ARR：60 亿美元
主要驱动：Claude Code 智能体编码平台的广泛应用
关键限制：如果 Anthropic 有更多计算资源，收入还会更高

超大规模云服务商的困境

所有 GPU 资源被锁定：联系所有超大规模云服务商，无一可用
按需 GPU 价格持续上涨：即使是 Hopper 这种近两代的产品
资本支出激增：谷歌 2026 年资本支出预期几乎是此前的两倍

硅片短缺的演进

ChatGPT 发布后（2022 年底）
↓
CoWoS 封装瓶颈
↓
数据中心电力限制
↓
【当前】硅片短缺阶段 ← 我们在这里

二、台积电 N3：最大的瓶颈

N3 产能分配（2026 年预测）

应用领域	占比
AI 加速器	~60%
智能手机	~25%
CPU/其他	~15%

2027 年更严峻

AI 需求预计占 N3 产能 86%
智能手机和 CPU 产能几乎被挤占
部分产品线被迫直接迁移到 N2

转向 N3 的 AI 芯片大军

公司	产品	工艺节点	状态
Nvidia	Rubin	N3P	2026 年量产
AMD	MI350X/MI400	N3	已发布
Google	TPU v7/v8	N3E	v7 已量产
AWS	Trainium3	N3P	2026 年
Meta	MTIA	N3	低量

为什么台积电反应迟缓？

资本支出滞后：2022 年底开始 AI 建设热潮，但台积电资本支出直到 2025 年才超过此前峰值
2026 年资本支出将创纪录：台积电意识到客户需求远超产能后，开始疯狂扩产
洁净室空间限制：新产能需要建设厂房，2 年内无法完全满足需求

三、智能手机：被迫让路的"释放阀"

智能手机需求疲软

预计出货量下滑：10-15%（同比）
原因：内存价格上涨传导至 BOM 成本，最终推高消费者售价

产能释放的数学

如果智能手机 N3 产能重新分配给 AI 加速器：

Nvidia推理帝国扩张：200亿美元收购Groq、CPO路线图与AFD架构革命

Wed, 25 Mar 2026 14:45:00 +0800

导语

GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。

最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。

这背后是一场关于推理延迟、内存层级、网络架构的全面战争。

一、Nvidia “收购” Groq：一场精心设计的交易

交易结构

金额：200 亿美元
形式：IP 授权 + 团队雇佣（非全资收购）
目的：规避反垄断审查，快速完成交易

为什么不是全资收购？

反垄断风险：Nvidia 在 AI 加速器市场占有率过高，正式收购几乎不可能通过审查
速度：无需漫长的交易关闭流程，不到 4 个月已完成整合
灵活性：Nvidia 获得 Groq IP 和人才，但不需要承担 Groq 的全部负债和历史包袱

Groq 的技术价值

Groq 的 LPU（Language Processing Unit）架构特点：

超大容量 SRAM：LP30 拥有 500MB 片上 SRAM
确定性执行：编译器可激进调度，隐藏延迟
低延迟高吞吐：适合对延迟敏感的推理场景

但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。

Arm玩大了！首款自研AGI CPU登场：3nm、136核、双Chiplet，黄仁勋站台

Wed, 25 Mar 2026 07:30:00 +0800

导语

卡着全世界移动芯片脖子的Arm，突然发布了自研CPU！

这不是普通的CPU，而是Arm发展35年来首款对外销售的数据中心芯片——Arm AGI CPU。黄仁勋亲自站台，亚马逊微软Meta都来贺喜。

核心规格：堆料狂魔

参数	规格
制程	台积电3nm
核心数	136个Neoverse V3核心
L2缓存	2MB/核心
主频	3.7GHz
内存带宽	6GB/s每核心
内存延迟	<100ns
PCIe	96通道Gen 6
互联协议	CXL 3
TDP	300W
设计	双Chiplet

翻译成人话：这是一颗为AI智能体基础设施量身定制的怪兽级CPU。

三大设计原则

Arm CEO Rene Haas反复强调的三个词：性能、规模、能效。

1. 性能：拒绝花里胡哨

传统x86 CPU喜欢搞"Boost模式"——瞬间超频然后降频，功耗跟着坐过山车。AGI CPU不搞这套，提供全时间、可持续的满血性能。

2. 规模：没有多线程的执念

x86的多线程（SMT）本质是"一个核心干两个人的活"，但IO和带宽不会翻倍，只是把瓶颈转移，还增加了上下文切换的开销。

Arm观察到，数据中心运营商不得不超额配置30%甚至更多来应对这种非线性扩展问题。AGI CPU选择每线程独立核心，136个物理核心就是136个独立执行单元，没有虚头巴脑的逻辑核心。

3. 能效：没有历史包袱

x86背负着对遗留功能的支持负担，而AGI CPU从零开始设计，不浪费任何一个周期，不存在搁浅的算力。

部署规模：风冷 vs 液冷

风冷方案（标准36kW机架）：

30台双节点1OU刀片服务器
总计8160个核心
单机架性能达x86系统的2倍以上

液冷方案（200kW）：

336颗AGI CPU
超过45000个核心
每1GW数据中心算力资本支出节省高达100亿美元

朋友圈豪华阵容

首发合作伙伴名单堪称AI基础设施全明星：

Meta：联合开发，与自研MTIA加速器协同
OpenAI：现场站台
Cerebras、Cloudflare、F5、Positron、Rebellions、SAP、SK电讯

供应链大佬集体打call：

“加速计算并没有让CPU变得无关紧要，它让CPU成为不可或缺的合作伙伴。” —— 黄仁勋

DRAM巨变前夜：3D DRAM如何重塑半导体格局

Wed, 18 Mar 2026 16:00:00 +0800

深度解析3D DRAM技术变革：从2D DRAM物理极限到四大巨头技术路线之争，AI时代存储芯片的范式转移

英伟达Groq入华 vs 华为昇腾950：谁将主导中国AI推理市场？

Wed, 18 Mar 2026 08:30:00 +0800

深度分析英伟达Groq芯片入华对华为昇腾950系列的市场影响，解读中美AI芯片竞争新格局