WebMCP来了!谷歌发布AI与网页交互新标准,前端可直接给AI开“后门”

更新日期: 2026-03-16 阅读: 24 标签: 交互

作为天天跟 dom、交互、浏览器打交道的前端人,谷歌这波 WebMCP 的发布,绝对不是一次普通更新,而是直接掀翻了 AI 与 Web 交互的底层逻辑。

Chrome 团队正式推出 WebMCP(Web模型上下文协议),简单说:AI 智能体终于不用再伪装成人,去点按钮、看页面了。

目前在 Chrome 146 预览版中,开启对应 flag 就能直接体验。它只靠一个 api:navigator.modelContext,就让 AI 绕过整个前端 UI,直接跟 Web 应用内核对话。

以前 AI 订机票,要截图标注、识别按钮、模拟点击,跟人一样一步步操作。现在有了 WebMCP,Agent 直接调用底层协议,一句话完成预订。用开发者的话说:WebMCP 就是 UI 里的 API

这标志着,AI 与网页的交互,正式从视觉模拟,跃迁到逻辑直连


以前的 Agent 有多蠢?前端看了都头疼

现在主流 AI Agent 操作网页的方式,在前端眼里又笨又脆弱:

  • 截屏识图,消耗大量 token

  • 抓取 DOM,靠选择器定位元素

  • 模拟点击,页面一改直接失效

  • 反复确认状态,效率极低

网站稍微改个样式、换个结构,AI 直接“瘫痪”。这种基于视觉的交互,本质上是强行让 AI 去适应人类的界面,而不是让网页适配 AI。

WebMCP 的出现,直接把这套方案彻底淘汰。


前端狂喜:不用写后端,JS 直接给 AI 开“绿色通道”

更让前端关注的是,WebMCP 根本不是谷歌单打独斗。早在 2025 年 8 月,谷歌 + 微软就联手共建这个标准,现在已开源在 GitHub。

过去想让 AI 调用网站功能,前端还得去写 Node、Python 后端服务,跨语言、跨栈麻烦不断。WebMCP 直接把能力放在浏览器端,用我们最熟悉的前端 JS 就能实现:

  • 不用额外部署服务

  • 直接复用现有前端代码

  • 统一用户与 AI 的界面与状态

  • 权限、登录、状态全部同步

Chrome 官方提供了两套接入方式,前端一看就懂:

声明式 API:在 html 里直接定义标准操作,简单快捷

<form
  >="search_products"
  >="搜索商品">
  <input name="query" required>
  <button type="submit">搜索</button>
</form>
<!-- AI 可直接调用:search_products("iphone") -->

命令式 API:用 JS 实现复杂动态交互

if ('modelContext' in navigator) {
  navigator.modelContext.registerTool({
    name: "search_products",
    description: "搜索商品",
    inputSchema: {
      type: "object",
      properties: {
        query: { type: "string" }
      },
      required: ["query"]
    },
    execute: async (params) => {
      return await api.search(params);
    }
  });
}

谷歌工程师甚至直接定义:WebMCP 就是 AI 时代的 USB-C


不再“猜按钮”,网页直接给 AI 发“操作说明书”

WebMCP 的核心思路,前端一眼就能抓住精髓:

别只给像素,直接发布工具

不让 AI 去猜按钮是干嘛的、输入框填什么,而是网站主动提供:

  • 有哪些可用操作(查询、下单、筛选、预订等)

  • 标准 JSON 输入输出结构,减少幻觉

  • 统一的页面状态与共识

过去是:乱点、重试、碰运气。未来是:直接调用 book_flight(参数)。

控制权也回归到网站和开发者手里:我们定义 AI 能做什么、怎么传数据


前端未来:网页分成两层,一半给人,一半给 AI

如果 WebMCP 成为通用标准,未来的 Web 会彻底分层:

  • 一层给人:好看的 UI、交互、品牌视觉

  • 一层给 AI:结构化工具、函数、极速执行

未来的产品比拼,不再只是界面好不好看,而是给 AI 的“工具契约”够不够清晰、好用。

电商、出行、客服、自动化……所有依赖网页操作的场景,都会被重构:

  • 购物:一句话自动比价、领券、下单

  • 出行:直接组合最优行程,无需翻页筛选

  • 工单:AI 自动填写、提交,无需人工填表


前端视角总结:这不是淘汰前端,是升级前端

很多人看到“AI 绕过 UI”,第一反应是:前端要没了?

恰恰相反。WebMCP 不是干掉前端,而是把前端的价值从“画页面”拉高到 “定义 AI 与世界的接口”

以前我们写页面给人用,未来我们还要写标准、Schema、工具、协议给 AI 用。

AI Agent 不再是网页的“外来访客”,而是和用户平级的一等公民。用户、AI、网页,三者在同一个界面里协同工作。

作为前端,这波不是危机,是一次全新的赛道开局。Web 的下一个时代,叫 Agentic UI。而定义它的人,很大概率还是我们。

本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!

链接: https://fly63.com/article/detial/13434

相关推荐

RN混合开发,React Native与原生android和ios的交互通信

React-Native新版本(从原生发送消息到JS),Android/iOS原生模块给ReactNative发送事件,通知监听,通过DeviceEventEmitter,NativeEventEmitter通过原生应用通讯。

H5页面基于接口实现数据交互

对于现在APP开发来说,目前流行的两个方式是原生和H5。就如同之前业界程序猿争论的BS和CS之争一样,业界对于H5和原生也有不小的争论。对于前者的争论在于PC端,后者在于移动端上体现。

H5必知必会之与App交互

本文将就此主题深入探讨H5与App交互的几种常见模式。首先声明,本文涉及的H5与App交互协议和模式没有什么特别独到之处,相反,它们恰恰是在业界既有经验基础上结合项目实际归纳提炼出来的。

three.js 事件交互

在three.js中,展示的一切内容都是在canvas中绘制的,所以点击事件点击到物体上是无法获取点击对象的,要获取点击的对象要使用RayCaster,用于在三维空间中进行鼠标拾取

网站交互、开发方式和前端框架介绍

这个世界唯一不变的可能就是变化,历史的车轮滚滚向前,它不会因任何人的消极缓慢而停止。时代抛弃你时,连一声再见都不会说。从最开始的Javascrpit、到后来的Jquery、(ExtJs、EasyUI、MiniUI)、Bootstrap、Layui

设计师们做UI设计和交互设计、界面设计等一般会去什么网站呢?

明明可靠颜值吃饭,却偏偏要靠才华立身,UI设计师就是这样一群神奇的物种。面对“大的同时小一点”、“五彩斑斓黑”、“下班之前给我”……这些甲方大大刁钻的需求,设计师每天都在咬牙微笑讨生活。

前后端交互技术有哪些

我们都知道,一个完整的IT项目是由多个不同岗位的成员共同完成,包含UI规划、前端开发、后端开发、测验等。为了完成项目的完整性,前后端需求运用技能完成联通。不过,前后端交互技能有哪些呢?

CSS 状态管理,玩出花样了!

CSS用于交互的方式无非就那么几种:伪类::hover、:link、:active ...动画:animation过渡动画:transition,这些交互方式组合起来,真的可以玩出一些花样,例如我们本文的主题,CSS的状态管理

前端交互体验优化:塑造用户体验的全方位实践

用户与界面的每一次交互,本质上是在寻求「行为 - 结果」的确定性。前端开发中,即时反馈的核心在于通过视觉信号明确告知用户「系统已响应」,避免操作断层导致的焦虑感。

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!