数据中心 | Tars的技术观察

数据中心水耗危机？一个汉堡的代价是668年AI使用

导语 “数据中心正在耗尽世界的水资源！” 这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实：世界上最大的数据中心之一，年用水量仅相当于 2.5 家汉堡店。更惊人的是：吃一个汉堡的水足迹，足够你每天使用 AI 30 次，连续使用 668 年。一、被夸大的水危机争议的根源数据中心水消耗确实在增加，但问题被严重夸大：缺乏标准：水核算没有统一标准，比较混乱忽视关键变量：冷却架构、电力来源、地理位置、当地水资源稀缺程度标题党：“数据中心正在扼杀世界"的叙事缺乏 context 真正的关键变量变量影响冷却架构干式 vs 湿式 vs 绝热，水耗差异巨大电力来源燃气轮机 vs 煤电，水耗不同地理位置气候决定冷却需求水回收可彻底解决问题二、Colossus 2：世界最大数据中心的水账基本信息位置：孟菲斯（Memphis）用途：xAI Grok 模型训练当前 IT 容量：400MW（计划扩展至 1GW+）冷却系统：混合架构（130台干式冷却器 + 135台绝热冷却单元）水足迹拆解 1. 冷却水消耗（大头）参数假设： PUE：1.15 利用率：70% 年产生热量：2.8 TWh 绝热辅助运行：30% 蒸发率：0.45 gal/kWh 结果：年蒸发量：2.67 亿加仑冲洗/排放：6600 万加仑（提取但未消耗） 2. 发电水消耗当前使用：航改型简单循环燃气轮机水耗：零 3. 芯片制造水消耗（供应链嵌入） GPU：~20 万颗 CPU：~10 万颗 HBM3e：160 万个晶圆：>32,000 片每片晶圆水耗：1,800-2,200 加仑结果： ...

Nvidia推理帝国扩张：200亿美元收购Groq、CPO路线图与AFD架构革命

导语 GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。这背后是一场关于推理延迟、内存层级、网络架构的全面战争。一、Nvidia “收购” Groq：一场精心设计的交易交易结构金额：200 亿美元形式：IP 授权 + 团队雇佣（非全资收购）目的：规避反垄断审查，快速完成交易为什么不是全资收购？反垄断风险：Nvidia 在 AI 加速器市场占有率过高，正式收购几乎不可能通过审查速度：无需漫长的交易关闭流程，不到 4 个月已完成整合灵活性：Nvidia 获得 Groq IP 和人才，但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU（Language Processing Unit）架构特点：超大容量 SRAM：LP30 拥有 500MB 片上 SRAM 确定性执行：编译器可激进调度，隐藏延迟低延迟高吞吐：适合对延迟敏感的推理场景但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

Arm玩大了！首款自研AGI CPU登场：3nm、136核、双Chiplet，黄仁勋站台

导语卡着全世界移动芯片脖子的Arm，突然发布了自研CPU！这不是普通的CPU，而是Arm发展35年来首款对外销售的数据中心芯片——Arm AGI CPU。黄仁勋亲自站台，亚马逊微软Meta都来贺喜。核心规格：堆料狂魔参数规格制程台积电3nm 核心数 136个Neoverse V3核心 L2缓存 2MB/核心主频 3.7GHz 内存带宽 6GB/s每核心内存延迟 <100ns PCIe 96通道Gen 6 互联协议 CXL 3 TDP 300W 设计双Chiplet 翻译成人话：这是一颗为AI智能体基础设施量身定制的怪兽级CPU。三大设计原则 Arm CEO Rene Haas反复强调的三个词：性能、规模、能效。 1. 性能：拒绝花里胡哨传统x86 CPU喜欢搞"Boost模式"——瞬间超频然后降频，功耗跟着坐过山车。AGI CPU不搞这套，提供全时间、可持续的满血性能。 2. 规模：没有多线程的执念 x86的多线程（SMT）本质是"一个核心干两个人的活"，但IO和带宽不会翻倍，只是把瓶颈转移，还增加了上下文切换的开销。 Arm观察到，数据中心运营商不得不超额配置30%甚至更多来应对这种非线性扩展问题。AGI CPU选择每线程独立核心，136个物理核心就是136个独立执行单元，没有虚头巴脑的逻辑核心。 3. 能效：没有历史包袱 x86背负着对遗留功能的支持负担，而AGI CPU从零开始设计，不浪费任何一个周期，不存在搁浅的算力。部署规模：风冷 vs 液冷风冷方案（标准36kW机架）： 30台双节点1OU刀片服务器总计8160个核心单机架性能达x86系统的2倍以上液冷方案（200kW）： 336颗AGI CPU 超过45000个核心每1GW数据中心算力资本支出节省高达100亿美元朋友圈豪华阵容首发合作伙伴名单堪称AI基础设施全明星： Meta：联合开发，与自研MTIA加速器协同 OpenAI：现场站台 Cerebras、Cloudflare、F5、Positron、Rebellions、SAP、SK电讯供应链大佬集体打call： “加速计算并没有让CPU变得无关紧要，它让CPU成为不可或缺的合作伙伴。” —— 黄仁勋 ...