AI生成每个像素：Flipbook让网页告别HTML代码

更新日期: 2026-04-24 阅读: 17 标签: 像素分享

你打开浏览器，屏幕上每一帧画面都是AI模型实时生成的。没有HTML，没有CSS，没有布局引擎。这就是Flipbook带来的新体验。

Flipbook是前OpenAI研究员Zain Shah和他的团队发布的一个实验性原型。它的核心理念很简单：用AI模型直接生成屏幕上的每个像素，而不是用传统的网页技术来搭界面。

体验地址：flipbook.page

它和普通网页有什么不同

现在的网页，都是HTML定义结构，CSS控制样式，JavaScript负责交互。开发一个页面要写不少代码，改起来也很麻烦。

Flipbook完全换了个思路。你看到的每个页面就是一张AI生成的图像。点击图像里的任何地方，系统会生成一张新图像，让你继续深入探索。整个界面没有HTML代码，没有固定的链接，也没有预设的按钮。连文字都是图像里的像素，不是真正的文字。

这种交互方式很像在翻一本无限延伸的书。点哪里，就深入到哪里。想回去？导航栏里记录了你的浏览路径，点一下就能返回。

背后是什么技术在支撑

Flipbook用了一套复杂的实时推理系统。

当你点击图像上的某个区域，这个位置会通过WebSocket发到后端的GPU服务器。服务器上的AI模型根据你的点击位置和当前的上下文，生成一张新的图像，再传回你的屏幕。

为了保证速度，系统做了不少优化。它不会等整张图完全生成好才发给你，而是边生成边传，你看到第一块数据就开始渲染。这样可以减少等待时间。

视频模式用的是Lightricks公司的LTX开源视频模型。这个模型经过优化后，能以1080p分辨率、每秒24帧的速度，通过WebSocket实时传视频流到你的屏幕上。

用来做什么比较合适

目前Flipbook最适合做“视觉化解释”。

举个例子：你想了解智能手机各个部件是干什么的。在Flipbook输入这个问题，它生成一张带标注的手机拆解图。你对“SoC”感兴趣，点一下，它就生成一张专门解释SoC的图。还想了解GPU，再点一下，又是一张新图。

这种一层层深入的方式，比看文字舒服很多。抽象的东西变得好懂了。

我试过让它解读一个明星的表情。它能把眉毛、眼睛、嘴角这些细节都分析出来，说得头头是道。

还有人拿它来做数学题。复杂的题目变成可视化的图解，解题思路一下就清楚了。

会有哪些问题

缺点也很明显。首先是慢。生成一张图要几十秒，不像普通网页那样秒开。团队自己也说，目前Flipbook功能有限，主要还是围绕视觉解释来设计的。

其次是成本问题。普通网页的渲染基本免费，客户端算一下就完了。但Flipbook需要在服务器端持续用GPU做推理，带宽和算力的成本高出几十倍。

Zain Shah在发布帖里提到，随着模型变得更准确、更有状态，值得用这种方式做的事情会越来越多。甚至那些看起来需要结构化UI的事情，比如编程，也可以这么做。

会对前端开发有什么影响

现在还说不准。Flipbook只是一个原型，离大规模实用还有距离。

但它至少证明了一件事：用AI模型直接生成交互界面这条路走得通。以后也许不需要写那么多HTML和CSS了，后端只管数据和状态，界面交给AI来渲染。

HTML离被淘汰还早，但这波AI界面革命确实开始了。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

链接: https://fly63.com/article/detial/13703

上一页: Web 自动化 Agent 完整教程，让 Agent 操作浏览器下一页: HyperFrames 入门教程：用HTML和CSS写视频，前端开发者的新工具

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!