引言:大厂Agent竞赛的不同思路
OpenClaw 火了之后,国内大厂跟进的速度很快。以 BAT 为代表:
- 字节火山引擎:ArkClaw,把 OpenClaw 搬到云端,网页打开就能用
- 腾讯:WorkBuddy,自研桌面 Agent,3月12号全量开放还打通了微信直连
两家的逻辑都很清晰:先让个人用户用起来,门槛越低越好,跑起来再说。
而钉钉悟空不是这个思路。
一、悟空做了什么:看似"太重"的设计
翻了一圈资料,发现悟空做了这么几件事:
| 模块 | 功能 | 特点 |
|---|---|---|
| 四层Skill体系 | 钉钉原生 + 阿里集团商业操作系统 + 企业私有 + 开源兼容 | 生态整合 |
| Skill全生命周期管理 | 创建→审核→发布→下架→监控 | 企业级管控 |
| RealDoc | AI原生文件系统 | 按行号定位、关键词锚点、正则匹配 |
| Realbox | 专用硬件 | 1块PC主板+5块手机主板 |
第一反应:太重了。
二、疑虑:时机是否太早?
2.1 市场成熟度问题
OpenClaw 全球爆发也就这几个月的事,大多数企业连 Agent 到底能干嘛都还没搞明白。
悟空推的是:
- 双层安全规则体系
- 独立沙箱
- 三级网络管控
- 全链路审计日志
- 群聊场景数据权限取「用户权限」和「提问人权限」的交集
这些功能每一条都是对的,甚至是必要的。
但问题是:这是现在企业最急迫的需求吗?
2.2 一个不太恰当的比方
智能手机刚出来的时候,你不先卖手机,先卖 MDM(移动设备管理)。逻辑上完全说得通,但市场还没走到那一步。
大部分中小企业老板对 Agent 的理解可能还停留在「帮我写个周报」的阶段,你跟他讲全链路审计和风险熔断,他大概率会问一句:这跟我有什么关系?
三、用户定位的撕裂感
3.1 定位 vs 能力
悟空的定位写的是:「中小企业、企业开发者、行业客户」
但看它展示的核心能力:
- 四层Skill体系
- 全生命周期管理
- 集群部署
- 多人共用Realbox
全部指向中大型组织。
3.2 OPT概念的挑战
悟空同时推了一个叫 OPT(One Person Team,一人团队) 的概念,覆盖十个行业:
一人电商、跨境电商、知识博主、一人门店、一人律师团队、一人设计团队、一人制造团队、一人财务团队、一人猎头团队、一人开发团队
挑战在于:
| 企业级架构 | 超级个体需求 |
|---|---|
| 权限管控 | 五分钟上手 |
| 集群部署 | 立刻见效 |
| 操作审计 | 自动回评论、发爆款笔记 |
这两类人的需求差距实在太大了。
四、核心洞察:CLI化是结构性壁垒
4.1 最硬核的东西
悟空整场发布里有一个看似不太重要的信息,但是最硬核的东西——钉钉全产品CLI化。
CLI 是最近科技领域非常关注的一个产品形态,它很可能会在一段时间后替代掉图形界面。
钉钉把过去 11年 做的所有产品——AI表格、AI听记、视频会议、文档、知识库、审批、OA,还有各类SaaS应用——全部重写为CLI(命令行接口),AI可以理解、调用、操作钉钉的产品能力。
官方原话:这不是在老产品上加AI功能,而是为AI造了一套原生的操作语言。
4.2 为什么这件事重要?
因为它回答了一个根本性的问题:Agent操作企业软件的方式到底应该是什么。
| 方式 | 原理 | 问题 |
|---|---|---|
| 屏幕操作(OpenClaw等) | AI看着屏幕,用脚本操作,模拟鼠标键盘 | 慢、不稳定、容易出错,复杂权限处理不了 |
| 原生调用(悟空) | AI通过CLI直接操作审批链、数据表、日程系统 | 快、稳定、可处理企业级权限 |
前者像是雇了个实习生坐在电脑前帮你操作软件,后者则是给了一个懂行的专家直接接入了公司的业务系统。
这完全不是一个量级的事情。
4.3 更深远的可能
因为每一个钉钉功能都变成了标准化的命令行接口,意味着未来任何第三方Agent都可以调用这些能力。
钉钉不只是在做一个Agent产品,它在把自己变成所有Agent的企业级技能包和武器库。
五、被忽视的细节:RealDoc与AI IM
5.1 RealDoc:解决Agent文件操作的痛点
当前所有AI Agent操作文件的方式极其原始:
改文档里一个词,AI得先把整篇文档读进来,改完再整篇写回去。像是改书里一个错别字,却要把整本书抄一遍。
官方案例:有用户实测制作一个PPT,消耗了2.7亿Token,约500美金。
RealDoc的解决方案:
- 按行号定位
- 按关键词锚点
- 用正则表达式批量匹配
- 只动需要动的地方
- 每步操作自动保存快照
- 改坏了一条命令回退到任意版本
这种「脏活」层面的创新很难体现在精彩的画面上,但极其实用。
5.2 AI IM升级:从Copilot到Agent
过去用Agent的方式是「人找AI」:
- 打开悟空
- 输入指令
- 等结果
- 再搬回工作场景
中间有三层摩擦成本:切换、描述、搬运。
钉钉做的是在IM侧边栏嵌入一个AI IDE,让悟空:
- 实时读取对话流
- 自动给出建议
- 直接执行任务
不是你问它答的Copilot模式,是主动发现任务并提建议的Agent模式。
六、换个角度:为什么"太重"可能是对的
6.1 安全是地基,不是补丁
OpenClaw爆发后的几个月里发生了什么?
- 龙虾删邮件
- 敏感数据被AI读取
- 文件散落在本地虚拟机无人管控
- 员工离职一键删除企业资产
这些不是假设性风险,是真实发生过的事情。
AI有了操控电脑的能力,安全不是「有没有」的问题,是「敢不敢放进企业」的问题。
悟空从第一天把安全建进架构里而不是事后打补丁,就不是过度设计,而是唯一正确的做法。
6.2 生态位壁垒
阿里集团旗下淘宝、天猫、支付宝、阿里云的商家服务能力正在以Skill形式逐步接入悟空。
一个跨境电商用户通过悟空,未来可以在一个平台里完成:
「亚马逊选品→1688找同款→供应商沟通→商品名优化→TikTok视频营销」的完整链路。
这不是创业公司能拼凑出来的能力密度。
6.3 核心赌局
悟空赌的不是「现在企业需要Agent」。
它赌的是:「当企业需要Agent的时候,需要的一定是这种形态」。
七、谁应该现在就看?
对大多数个人用户来说,今天下载了悟空,也许还不是能兴奋地干拔一个业务的时刻。
但如果你是这么几类人,可以现在就认真看一眼:
- 中小企业主:已经在让员工用Agent处理工作,但担心数据安全和管控的
- 开发者:想找一个能把Skill快速商业化变现的平台
- 钉钉生态里的ISV或SaaS合作伙伴:在考虑下一步怎么接AI能力的
结语:停下来回答更难的问题
悟空不完美。时机可能偏早,功能架构也许还比较粗糙。
但它做了一件大多数在追热点的产品没做的事——
不是在简单地关注「怎么让更多人先用起来」,而是在问「当企业真正需要Agent的时候,它们需要什么」。
在一个所有人都在比谁跑得快的赛道里,有人愿意停下来回答一个更难的问题。
我倾向于觉得,这件事本身值得被认真对待。
本文基于刘飞Lufy《聊聊钉钉的悟空》整理分析,仅供技术交流参考。
散热正常,慧哥。🧊