CLI复兴!命令行搞定一切,大厂纷纷下场
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
AI Agent时代,命令行成了智能体的母语。
2026年3月的最后几天,钉钉、飞书、企业微信几乎同时开源了自己的CLI(Command Line Interface,命令行界面)工具。



没有发布会,没有广告,程序员们却在GitHub上疯狂给这些项目点星。
目前,钉钉dws拿到了1300多颗星,飞书lark-cli冲到了4400多颗,企业微信wecom-cli十几小时就攒了700多颗。
GitHub上早期著名的开源项目,CLI-Anything收获近2.5万+星标,OpenCLI也已经9000+星标,两个独立开源项目,用不同的方式,都想把整个互联网变成命令行。
过去40年人类花大力气,在CLI的地基上,给计算机穿上图形界面的外衣,现在AI来了,CLI变成AI智能体的标准交互方式。
AI的母语为什么是命令行
计算机科学早期就是CLI交互,后来的图形用户界面(Graphical User Interface,简称GUI)是为人类设计的,对AI Agent来说,GUI现在反而制造了解析障碍。
GUI通过按钮、菜单、弹窗来降低人类的记忆成本,你看到一个齿轮图标就知道是设置,看到一个放大镜就知道是搜索。
AI Agent要解析这些视觉元素,需要消耗大量算力做视觉识别、坐标计算,甚至模拟鼠标操作。这好比让一位精通文字指令的专业人士,去翻阅一本满是图标和弹窗的儿童绘本,效率极低。
CLI是另一种交互范式。
纯文本、结构化,参数、标识符、输出格式都遵循明确的语法规范。
AI Agent无需处理任何视觉信息,直接通过标准化指令调用系统能力,干净利索,没有歧义。
主流大模型对CLI语法的理解准确率接近90%,远高于私有MCP扩展,Agent适配几乎零学习成本。
GitHub的Octoverse 2025报告记录了这一趋势。
AI原生项目的贡献者数量同比增长150%,远超开源项目整体中位数水平。
2025年12月,OpenClaw项目登上GitHub星标总榜,截至2026年3月底已收获超过34万颗星标,成为GitHub历史上星标最多的仓库,超越了React。
OpenClaw的核心定位就是完全本地运行加全平台CLI兼容,它用事实证明了CLI作为AI交互接口的巨大吸引力。
CLI还继承了Unix系统最经典的管道能力。
通过管道运算符,多个单功能命令可以串联成复杂工作流。
例如,在钉钉dws中,一行命令就能完成从搜索部门成员到提取用户ID再到创建会议的全流程自动化:

无需额外开发中间层,无需搭建集成服务,纯文本在管道中流转,每个环节的输入输出都是确定性的。
对企业而言,CLI的价值还体现在安全、性能和合规三个刚性需求上。
性能方面,AI原生CLI的内存占用仅为同类GUI工具的1/10。某头部金融机构的测试数据显示,同时调度100个客服Agent时,CLI版本的资源占用仅为GUI的12%,单个Agent的响应延迟从1.2秒降至0.3秒。企业需要大规模部署Agent时,这个性能差距会直接转化为成本差距。
安全方面,钉钉dws用PBKDF2加AES-256-GCM加密存储用户凭证,密钥由设备MAC地址生成,凭证无法跨设备解密。
微软Copilot CLI通过三重权限校验将越权操作风险降低97.3%。
所有操作都生成可追溯的审计日志,管理员可配置域名白名单进行访问控制。
合规方面,CLI的纯文本交互天然适配数据本地化要求。数据不出终端,日志全程留痕,这对受强监管的行业来说是硬性门槛。
三大平台同一条赛道起跑
2026年3月27日到29日,三天之内,钉钉、飞书、企业微信先后开源各自的CLI工具。时间窗口如此密集,绝非巧合。
钉钉开源了dingtalk-workspace-cli(简称dws),采用Apache-2.0协议。
定位很明确:AI时代钉栈生态的统一控制平台。项目基于Go 1.25编写,编译后是单二进制文件,无额外依赖,支持macOS、Linux、Windows及多架构环境。
用户无需安装Python、Node.js等运行时,一行命令就能完成安装。
dws的设计完全围绕AI Agent优先展开。它将钉钉2000多个开放API封装为104个标准化命令,覆盖AI多维表格、聊天消息、日历、待办、通讯录、考勤、汇报七大产品线。
开发者通过dws --help就能掌握所有用法,还原生支持Claude Code、Cursor等主流Agent执行环境。
一个关键的细节设计是Schema动态发现功能。AI Agent无需预先硬编码接口信息,通过dws schema命令就能查询所有工具的参数规范。
想调用AI表格查询接口,执行dws schema aitable.query_records,就能获取必填参数、可选参数和响应结构。智能输入纠错功能还能自动将非标准参数格式转换为Unix规范,修正拼写错误。内置的jq过滤器让Agent精准提取所需字段,将大模型Token消耗降低约60%。
dws的Agent Skill系统将钉钉产品能力封装成13个预构建的Python脚本,覆盖会议预约、日报汇总、销售线索跟进等高频场景。
开发者一次配置就能调用钉钉能力,在Claude Code中输入一句自然语言指令,Agent会自动调用dws的相关命令完成操作。
飞书紧随其后,3月28日发布lark-cli公测版,采用MIT协议。
飞书的战略定位是构建Agentic Workspace(智能体工作空间)的核心枢纽,目标是实现人员、工具、数据的全闭环自动化。
lark-cli最核心的技术设计是三层命令架构。Shortcuts层以加号为前缀,内置智能默认值逻辑,比如lark-cli calendar +agenda就能查看今日日程,指令简短,适合快速操作和Agent调用。
API Commands层与飞书开放平台API一一对应,覆盖100多个常用接口,适合需要精细控制参数的场景。
Raw API层支持直接调用飞书全部2500多个API,为边缘场景提供最大灵活性。三层架构同时满足人类开发者的易用性需求和AI Agent的高效调用。
lark-cli基于Go 1.23编写,支持npm全局安装,前端开发者无需学习Go编译流程就能直接使用。
结构化输出支持JSON、table、csv等多种格式,JSON输出严格遵循Schema规范,Agent可直接解析。
针对大文档导入等场景,飞书设计了三阶段并发管道机制,某企业测试显示,1000页飞书文档导入,GUI需要12分钟,CLI只需3分钟,效率提升约4倍。
lark-cli内置19个结构化Skill,覆盖11大核心业务领域,每个Skill都有明确的意图识别规则和参数约束。
Agent无需理解飞书API的细节,只需调用对应的Skill方法就能完成任务。
企业微信在3月29日加入战局,开源了wecom-cli,由WecomTeam官方组织维护,使用Rust编写,通过npm分发,同样采用MIT协议。
wecom-cli开放了7大高频能力品类:消息与通讯录、文档与智能表格、日程与会议、待办任务。
具体到命令层面,覆盖通讯录成员查询、待办的创建与状态更新、会议的预约与取消、消息记录的拉取与发送、日程的增删改查、文档的创建与编辑、智能表格的结构与数据管理。
它提供了12个开箱即用的AI Agent Skill,可直接集成到Claude Code、Cursor等工具中。当前最大的使用门槛是企业规模限制,仅对10人以下企业开放。
三家平台的CLI工具技术路线各有不同,底层逻辑高度一致:将自身产品能力封装为标准化指令集,降低AI Agent的调用门槛,争夺AI Agent入口权。
把万物变成命令行
钉钉、飞书、企业微信是在为自己的生态搭建CLI入口,CLI-Anything和OpenCLI做的事情则更加彻底:它们想要把整个软件世界都变成命令行。
CLI-Anything由香港大学数据科学实验室(HKUDS)开发。
它的思路是从源码出发:扫描桌面软件的源代码,把GUI操作映射到底层API,然后用Python的Click框架自动生成一套CLI。
GIMP、Blender、LibreOffice、Inkscape、Krita、Audacity这些有开源代码的桌面软件,它都能自动生成对应的命令行工具。
CLI-Anything的工作流程是一个7阶段流水线:分析源码结构、设计CLI接口、实现命令逻辑、规划测试用例、编写测试代码、生成文档、发布到CLI-Hub注册中心。
开发者只需提供一个软件路径或GitHub仓库地址,CLI-Anything就能自动完成从分析到发布的全流程。
目前已支持16款以上的桌面应用,生成的CLI通过了1839个以上的单元测试和端到端测试。每个生成的CLI还附带SKILL.md文件,AI Agent可以通过这个文件自动发现和使用对应工具。
打个比方,CLI-Anything像一位逆向工程师,拆开软件的外壳去理解内部结构,然后为它量身定制一套命令行接口。
OpenCLI由开发者jackwener创建,2026年3月14日上线。技术路线与CLI-Anything截然不同,它从浏览器出发。不需要源码,不需要API文档,直接通过Chrome浏览器操作目标网站或桌面应用,把你在浏览器里能做的事情变成一条条命令。
OpenCLI的架构颇为巧妙。
它在Chrome浏览器中安装一个轻量级扩展(Browser Bridge),本地运行一个小型守护进程(Daemon),通过WebSocket将CLI命令和浏览器连接起来。
整个链路是:CLI命令输入终端,本地Daemon接收指令,通过WebSocket发送给Chrome扩展,扩展在浏览器中执行操作,结果格式化输出回终端。你在终端输入opencli bilibili hot,Daemon就把指令通过WebSocket发给Chrome扩展,扩展在B站页面中抓取热门视频数据,格式化后返回。
关键的一点是,整个过程复用的是Chrome浏览器中已经登录的session。
你在B站登录了,OpenCLI就能用你的账号获取数据,不需要单独配置Cookie或API Key。密码和凭据从头到尾都没有离开过浏览器。
Daemon设计得十分克制,空闲5分钟自动退出,默认监听localhost:19825,不会常驻后台消耗资源。
OpenCLI为AI Agent专门设计了三个命令。
explore命令接收一个网站URL,自动发现该网站有哪些API可以调用,它会真的打开浏览器,点击、滚动、观察网络请求,把能用的API端点全部记录下来。
synthesize命令拿到explore的结果后,自动生成对应的CLI适配器,开发者不用写一行代码。
cascade命令自动探测目标网站的认证策略,从最简单的公开API开始,试不通就升级到Cookie认证,再不行就拦截网络请求提取签名,一共五个级别逐级尝试。
一条opencli generate --goal "hot"命令就能完成探索、生成适配器、注册的全流程。
AI Agent拿到一个从未见过的网站,也能自己摸索出怎么用命令行操控它。
OpenCLI目前内置了66个以上的适配器,覆盖B站、知乎、小红书、Twitter/X、Reddit、YouTube、雪球、BOSS直聘等30多个站点和应用。
对Electron应用的支持是OpenCLI近期的一个重要突破。
飞书、VS Code、Slack、Discord、Notion、Figma桌面版,这些现代桌面应用几乎都基于Chromium内核。OpenCLI利用Chrome DevTools Protocol(CDP)直接和这些应用的内核通信,为每个应用分配固定端口,通过DOM操作来读取和注入内容。
处理React等框架的富文本编辑器时,OpenCLI没有直接设置value属性(那样框架内部状态不会更新),而是用document.execCommand('insertText')模拟真实文本输入,绕过了框架的状态管理。
这意味着Agent可以直接在Cursor里写代码,在Notion里写文档,在Discord里发消息,全程命令行操作。
每个命令都支持JSON、YAML、Markdown、CSV等多种输出格式,Agent拿到的是结构化数据,可以直接处理。
两个项目走的是互补路线。有源码的桌面软件交给CLI-Anything搞定,没源码的网站和Electron应用交给OpenCLI处理。合在一起,覆盖了几乎所有的软件形态。
从拼功能到抢接口
微软和谷歌也在布局AI原生CLI工具,设计思路各有侧重。
微软的Copilot CLI基于Semantic Kernel构建,支持自然语言转Shell命令,可调用Windows系统和微软365的能力。
Semantic Kernel的长期记忆和检索增强生成(Retrieval-Augmented Generation,简称RAG)能力,让Agent能完成复杂知识密集型任务。
比如用户用自然语言查询Excel数据,Agent会自动生成PowerShell脚本执行。核心意图是强化Windows和微软365生态的粘性,但在企业协同场景的深度上,无法像钉钉那样调用考勤、审批等本土化协同能力。
谷歌的Gemini CLI基于Gemini 3.1 Pro构建,主打全模态交互,支持文本、图像、音频等多种输入方式,围绕ReAct工作流构建,Agent先推理再调用工具。
比如上传手写待办清单图片,Agent能识别内容并创建谷歌任务。短板在于操作日志需上传云端,无法满足网络安全等级保护2.0等本地化合规要求,限制了在国内企业级市场的渗透。
这些布局反映了同一个行业趋势。企业服务的竞争逻辑正在发生根本性变化。
传统企业服务拼的是功能丰富性,谁的功能多谁赢。
AI Agent时代拼的是接口的标准化与开放性,谁能成为Agent调用企业服务的首选接口,谁就能占据主导。
钉钉和飞书通过开源CLI,将自身生态能力封装为标准化指令集,争夺AI Agent入口权。
当Agent习惯通过dws或lark-cli调用企业协同能力,用户的生态粘性自然形成,迁移成本也随之升高。
企业级自动化也在从单点自动化走向全链路自动化。
此前的企业自动化多局限于单一功能,自动发日报、自动建会议,各自为政。
CLI让跨系统、跨场景的全链路自动化成为可能。
某企业通过dws实现了一条完整链路:从CRM读取新客户数据,在钉钉创建联系人,生成跟进待办,发送DING提醒,同步跟进结果回CRM。
据钉钉统计,实现全链路自动化的企业,协同效率平均提升40%,项目周期缩短30%。
国际竞争的赛道也在转移。
此前全球AI Agent竞争聚焦大模型能力,参数量和benchmark分数是主战场。
钉钉、飞书的CLI布局,让竞争焦点落到了企业级场景落地能力上。
中国厂商对本土企业协同场景的理解远超国际厂商,钉钉的DING消息、飞书的多维表格,都是贴合中国市场需求的产品设计,在场景落地层面具备天然优势。
AI原生CLI的演进方向已经清晰可见。
更智能,支持Agent用自然语言调用命令,自适应调整参数;更安全,适配国密算法,细粒度权限控制,本地化审计日志;更开放,支持跨生态命令调用,兼容更多Agent框架。
人机交互的核心,正在从人类适应机器,转变为机器适应人类与Agent。
过去40年,人类一直在做翻译,把机器语言翻译成人类能理解的图形界面。
Agent来了,机器语言不需要翻译,直接跟Agent说就好。任务交给Agent,我们等待结果交付。
参考资料:
https://github.com/HKUDS/CLI-Anything
https://github.com/jackwener/opencli
https://github.com/DingTalk-Real-AI/dingtalk-workspace-cli
https://github.com/larksuite/cli
https://github.com/WecomTeam/wecom-cli
END
点击图片立即报名👇️





