Chrome 引入 WebMCP:让网页直接为 AI 提供原生接口,告别 UI 自动化
在 Chrome 刚刚发布的 146 版本中,加入了一项很有意思的实验能力:WebMCP。
简单总结就是:网页可以直接把自己的能力暴露给 AI Agent 调用。过去 AI 想操作网页,只能模拟人的操作;而 WebMCP 的思路是:让网页直接提供“函数接口”。
AI 不再操作 UI,而是直接调用工具。这其实是一次挺重要的架构变化。
过去:AI 操作网页只能模拟人类
在 WebMCP 出现之前,如果 AI Agent 想和网页交互,一般需要借助浏览器自动化工具,比如:
Puppeteer
Playwright
这些工具底层其实依赖的是 Chrome DevTools Protocol(CDP)。
CDP 可以理解为一套浏览器远程控制协议,它允许程序直接控制浏览器,例如:
点击按钮
填写表单
获取 dom
执行 JavaScript
很多自动化工具(例如 Puppeteer、Playwright)本质上都是通过 CDP 在控制浏览器。
整体流程通常是:
Agent → 自动化脚本 → 浏览器 → 网页Agent 并不真正理解网页功能,它只是模拟用户行为:
打开网页
找输入框
输入内容
点击按钮
目前主流 Agent 大致有三种实现方式。
DOM 自动化
最传统的方式是读取 DOM。例如:
click("#submit")
fill("#email")这种方式和爬虫很像,速度快、成本低,但 UI 一旦变化就容易失效。
截图 + 视觉模型
另一种方式是让 AI“看网页”。例如:
OpenAI Operator
Claude Computer Use
流程通常是:
截图页面 → AI理解界面 → 找按钮 → 执行动作这种方式理论上可以操作任何网页,但成本比较高。一次页面理解往往会消耗几万甚至十几万 tokens。
DOM + Screenshot 混合
很多 Agent 框架会同时使用:
DOM
Screenshot
Accessibility tree
DOM 提供结构信息,截图提供视觉信息。
但不管是哪种方式,本质上都是:让 AI 去适配人类设计的 UI。
如果把目前 Agent 操作网页的方式放在一起,大致可以分成三类:
| 维度 | 视觉 Agent | CDP / 浏览器自动化 | WebMCP(Chrome 原生) |
|---|---|---|---|
| 是否需要额外后端 | 否 | 是 | 否 |
| Token 消耗 | 极高 | 中等 | 很低 |
| 准确率 / 稳定性 | 低 | 中等 | 高(显式声明) |
| 登录态继承 | 困难 | 复杂 | 天然继承 |
| 开发成本 | 无需改网站 | 需要后端桥接 | 前端几行代码 |
可以看到,WebMCP 最大的变化其实不是“更快”,而是:网页第一次可以为 AI 提供正式接口。
WebMCP:让网页直接提供 Agent 工具
WebMCP 想解决的问题其实很简单:让网页直接为 AI 提供接口。
如果网页实现了 WebMCP,浏览器就可以把网页能力暴露给 Agent。
相比传统自动化方案,这其实是一次架构变化:
过去:
Agent → 自动化脚本 → 浏览器 → 网页现在:
Agent → Browser → Web Page(MCP Tools)网页可以声明:
有哪些工具
工具需要什么参数
返回什么结果
例如电商网站可以提供:
search_products(query)AI 可以直接调用:
search_products("iphone")网页返回 JSON 数据即可。
整个过程甚至不需要操作 UI。
前端代码可以注册 Agent 工具
WebMCP 提供了浏览器原生 api,例如:
if ('modelContext' in navigator) {
navigator.modelContext.registerTool({
name: "search_products",
description: "搜索商品",
inputSchema: {
type: "object",
properties: {
query: { type: "string" }
},
required: ["query"]
},
execute: async (params) => {
return await api.search(params);
}
});
}这样网页就可以向 AI 暴露一个工具。
Agent 不需要操作 UI,直接调用即可。
甚至可以“零代码”接入
WebMCP 还支持一种声明式方式。
很多网站甚至不需要写 JS,只需要给表单加几个属性,例如:
<form
>="search_products"
>="搜索商品">
<input name="query" required>
<button type="submit">搜索</button>
</form>浏览器会把这个表单自动转换成 Agent 工具。
AI 可以直接调用:
search_products("iphone")而不需要真正提交 UI 表单。
WebMCP 为什么重要
传统 Agent 操作网页通常是:
截图 → AI解析UI → 找元素 → 点击一次页面解析可能需要几万 tokens。
而 WebMCP 的方式是:
Agent → 调用工具 → 返回 JSONToken 消耗往往可以降低一个数量级。
更重要的是:稳定性会大幅提高。
因为 AI 不再依赖 UI。
目前的状态
WebMCP 目前仍然是早期实验版。
在 Chrome 146 中可以通过 flag 启用:
chrome://flags/#enable-webmcp-testing同时网站也需要主动实现 WebMCP。
所以短期内它不会取代网页自动化。
但如果未来越来越多网站开始提供 Agent Tools,AI 与互联网交互的方式可能会发生一次很大的变化。
本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!