Chrome 引入 WebMCP:让网页直接为 AI 提供原生接口,告别 UI 自动化

更新日期: 2026-03-16 阅读: 32 标签: 浏览器

在 Chrome 刚刚发布的 146 版本中,加入了一项很有意思的实验能力:WebMCP

简单总结就是:网页可以直接把自己的能力暴露给 AI Agent 调用。过去 AI 想操作网页,只能模拟人的操作;而 WebMCP 的思路是:让网页直接提供“函数接口”。

AI 不再操作 UI,而是直接调用工具。这其实是一次挺重要的架构变化。


过去:AI 操作网页只能模拟人类

在 WebMCP 出现之前,如果 AI Agent 想和网页交互,一般需要借助浏览器自动化工具,比如:

  • Puppeteer

  • Playwright

这些工具底层其实依赖的是 Chrome DevTools Protocol(CDP)。

CDP 可以理解为一套浏览器远程控制协议,它允许程序直接控制浏览器,例如:

  • 点击按钮

  • 填写表单

  • 获取 dom

  • 执行 JavaScript

很多自动化工具(例如 Puppeteer、Playwright)本质上都是通过 CDP 在控制浏览器。

整体流程通常是:

Agent → 自动化脚本 → 浏览器 → 网页

Agent 并不真正理解网页功能,它只是模拟用户行为

  • 打开网页

  • 找输入框

  • 输入内容

  • 点击按钮

目前主流 Agent 大致有三种实现方式。

DOM 自动化

最传统的方式是读取 DOM。例如:

click("#submit")
fill("#email")

这种方式和爬虫很像,速度快、成本低,但 UI 一旦变化就容易失效。

截图 + 视觉模型

另一种方式是让 AI“看网页”。例如:

  • OpenAI Operator

  • Claude Computer Use

流程通常是:

截图页面 → AI理解界面 → 找按钮 → 执行动作

这种方式理论上可以操作任何网页,但成本比较高。一次页面理解往往会消耗几万甚至十几万 tokens。

DOM + Screenshot 混合

很多 Agent 框架会同时使用:

  • DOM

  • Screenshot

  • Accessibility tree

DOM 提供结构信息,截图提供视觉信息。

但不管是哪种方式,本质上都是:让 AI 去适配人类设计的 UI

如果把目前 Agent 操作网页的方式放在一起,大致可以分成三类:

维度视觉 AgentCDP / 浏览器自动化WebMCP(Chrome 原生)
是否需要额外后端
Token 消耗极高中等很低
准确率 / 稳定性中等高(显式声明)
登录态继承困难复杂天然继承
开发成本无需改网站需要后端桥接前端几行代码

可以看到,WebMCP 最大的变化其实不是“更快”,而是:网页第一次可以为 AI 提供正式接口


WebMCP:让网页直接提供 Agent 工具

WebMCP 想解决的问题其实很简单:让网页直接为 AI 提供接口。

如果网页实现了 WebMCP,浏览器就可以把网页能力暴露给 Agent。

相比传统自动化方案,这其实是一次架构变化:

过去:

Agent → 自动化脚本 → 浏览器 → 网页

现在:

Agent → Browser → Web Page(MCP Tools)

网页可以声明:

  • 有哪些工具

  • 工具需要什么参数

  • 返回什么结果

例如电商网站可以提供:

search_products(query)

AI 可以直接调用:

search_products("iphone")

网页返回 JSON 数据即可。

整个过程甚至不需要操作 UI。


前端代码可以注册 Agent 工具

WebMCP 提供了浏览器原生 api,例如:

if ('modelContext' in navigator) {
  navigator.modelContext.registerTool({
    name: "search_products",
    description: "搜索商品",
    inputSchema: {
      type: "object",
      properties: {
        query: { type: "string" }
      },
      required: ["query"]
    },
    execute: async (params) => {
      return await api.search(params);
    }
  });
}

这样网页就可以向 AI 暴露一个工具。

Agent 不需要操作 UI,直接调用即可。


甚至可以“零代码”接入

WebMCP 还支持一种声明式方式

很多网站甚至不需要写 JS,只需要给表单加几个属性,例如:

<form
  >="search_products"
  >="搜索商品">
  <input name="query" required>
  <button type="submit">搜索</button>
</form>

浏览器会把这个表单自动转换成 Agent 工具。

AI 可以直接调用:

search_products("iphone")

而不需要真正提交 UI 表单。


WebMCP 为什么重要

传统 Agent 操作网页通常是:

截图 → AI解析UI → 找元素 → 点击

一次页面解析可能需要几万 tokens。

而 WebMCP 的方式是:

Agent → 调用工具 → 返回 JSON

Token 消耗往往可以降低一个数量级

更重要的是:稳定性会大幅提高

因为 AI 不再依赖 UI。


目前的状态

WebMCP 目前仍然是早期实验版。

在 Chrome 146 中可以通过 flag 启用:

chrome://flags/#enable-webmcp-testing

同时网站也需要主动实现 WebMCP。

所以短期内它不会取代网页自动化。

但如果未来越来越多网站开始提供 Agent Tools,AI 与互联网交互的方式可能会发生一次很大的变化。

本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!

链接: https://fly63.com/article/detial/13423

相关推荐

浏览器禁用了javascript,各种浏览器如何开启javascript的方法总汇

您的浏览器禁用了JS脚本运行,请启用该功能。怎么解除浏览器禁用js?这篇文章将总结整理各个浏览器如何开启、禁用javascript的方法总汇。

监听浏览器刷新及关闭

为保证‘高度安全性’,用户每次退出页面或浏览器都要清除登陆信息,每次进入系统都要重新登陆(每次登陆还要手机验证码等乱七八糟的验证信息,,,求用户的心里阴影面积),但是刷新页面不可以清除登陆信息。

Js实现阻止浏览器返回的功能

无论pc端还是移动端,浏览器都会带有后退按钮或后退键.主要方便我们能返回以前访问过的页面,但有时候我们不得不关闭这个功能.尤其是对于一些推广落地页,用户进入后不希望它返回

window.open被拦截的解决方法总汇

介绍window.open方法被浏览器拦截的处理方式。在 Chrome 的安全机制里,非用户直接触发的 window.open 方法,是会被拦截的,这是由于浏览器为了维护用户安全和体验,下面采用几种变通方法解决:表单提交的方式、onclick事件、延迟打开等

Chrome浏览器crx格式插件安装教程

谷歌浏览器在旧版本(大概是v67版本)之前安装crx插件都非常简单,直接将crx拖放到浏览器内就可以安装了。但是之后的新版本(目前已经升级到v80版本)就只允许用户通过谷歌应用商店安装插件

如何将网站设置为浏览器首页

提示:按 Ctrl + D 即可添加网址到浏览器收藏夹中,方便下次访问fly63导航。下面是如何设置首页的方法。Google Chrome浏览器设为首页的方法;Firefox火狐浏览器设为首页的方法

完美解决安卓端百度浏览器屏蔽fixed悬浮元素的问题

h5活动页面底部有个悬浮图片按钮,使用fixed悬浮定位在底部,但是在安卓端的百度浏览器下打开,却发现该图片一闪而过,在百度浏览器中消失不见。

Fiddler无法正常抓取谷歌等浏览器的请求_解决方案

fiddler会自动给浏览器设置一个代理127.0.0.1端口8888,并且记忆浏览器的代理设置,所有的请求先走fiddler代理,再走浏览器代理。解决方案:关闭SwitchyOmega代理,或者使用其代理中的系统代理选项。即可解决问题。

js判断浏览器内核是否是safari浏览器

PC端只有Chrome有Safari字段吗?为什么不需要判断其他浏览器?其实360,QQ等浏览器的userAgent字段也会带有Safari字段,但是由于他们基于Chrome二次开发的,所有也会携带有Chrome字段。

常用浏览器内核及分类

浏览器是网页运行的平台,常用的浏览器有 IE、火狐(Firefox)、谷歌(Chrome)、Safari和Opera等。我们平时称为五大浏览器。 浏览器内核分成两部分:渲染引擎和 JS 引擎

点击更多...

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!