AI生成每个像素:Flipbook让网页告别HTML代码
你打开浏览器,屏幕上每一帧画面都是AI模型实时生成的。没有HTML,没有CSS,没有布局引擎。这就是Flipbook带来的新体验。
Flipbook是前OpenAI研究员Zain Shah和他的团队发布的一个实验性原型。它的核心理念很简单:用AI模型直接生成屏幕上的每个像素,而不是用传统的网页技术来搭界面。
体验地址:flipbook.page
它和普通网页有什么不同
现在的网页,都是HTML定义结构,CSS控制样式,JavaScript负责交互。开发一个页面要写不少代码,改起来也很麻烦。
Flipbook完全换了个思路。你看到的每个页面就是一张AI生成的图像。点击图像里的任何地方,系统会生成一张新图像,让你继续深入探索。整个界面没有HTML代码,没有固定的链接,也没有预设的按钮。连文字都是图像里的像素,不是真正的文字。
这种交互方式很像在翻一本无限延伸的书。点哪里,就深入到哪里。想回去?导航栏里记录了你的浏览路径,点一下就能返回。
背后是什么技术在支撑
当你点击图像上的某个区域,这个位置会通过WebSocket发到后端的GPU服务器。服务器上的AI模型根据你的点击位置和当前的上下文,生成一张新的图像,再传回你的屏幕。
为了保证速度,系统做了不少优化。它不会等整张图完全生成好才发给你,而是边生成边传,你看到第一块数据就开始渲染。这样可以减少等待时间。
视频模式用的是Lightricks公司的LTX开源视频模型。这个模型经过优化后,能以1080p分辨率、每秒24帧的速度,通过WebSocket实时传视频流到你的屏幕上。
用来做什么比较合适
举个例子:你想了解智能手机各个部件是干什么的。在Flipbook输入这个问题,它生成一张带标注的手机拆解图。你对“SoC”感兴趣,点一下,它就生成一张专门解释SoC的图。还想了解GPU,再点一下,又是一张新图。
这种一层层深入的方式,比看文字舒服很多。抽象的东西变得好懂了。
我试过让它解读一个明星的表情。它能把眉毛、眼睛、嘴角这些细节都分析出来,说得头头是道。
还有人拿它来做数学题。复杂的题目变成可视化的图解,解题思路一下就清楚了。
会有哪些问题
缺点也很明显。首先是慢。生成一张图要几十秒,不像普通网页那样秒开。团队自己也说,目前Flipbook功能有限,主要还是围绕视觉解释来设计的。
其次是成本问题。普通网页的渲染基本免费,客户端算一下就完了。但Flipbook需要在服务器端持续用GPU做推理,带宽和算力的成本高出几十倍。
Zain Shah在发布帖里提到,随着模型变得更准确、更有状态,值得用这种方式做的事情会越来越多。甚至那些看起来需要结构化UI的事情,比如编程,也可以这么做。
会对前端开发有什么影响
现在还说不准。Flipbook只是一个原型,离大规模实用还有距离。
但它至少证明了一件事:用AI模型直接生成交互界面这条路走得通。以后也许不需要写那么多HTML和CSS了,后端只管数据和状态,界面交给AI来渲染。
HTML离被淘汰还早,但这波AI界面革命确实开始了。
本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!