扫一扫分享
Imagen 是一种文本到图像的扩散模型,具有深层次的语言理解能力,可以通过输入文本创建逼真的图像。Imagen 使用大型 frozen T5-XXL 编码器将输入的文本编码为嵌入,然后条件扩散模型将文本嵌入映射到 64×64 的图像中,之后再进一步利用超分辨率扩散模型生成 256×256 和 1024×1024 的图像。而它的表现甚至比 DALL-E 2 要更好。
Imagen 团队表示 :“虽然我们对一部分训练数据进行了过滤,以去除噪音和不良内容,如色情图像和有毒语言,但我们也使用了 LAION-400M 数据集,众所周知,该数据集包含大量不当内容,包括色情图像、种族歧视和有害的社会刻板印象。
Imagen 依赖于在未记录的网络规模数据上训练的文本编码器,从而继承了大型语言模型的社会偏见和局限性。因此,Imagen 存在对有害的刻板印象和表述进行编码的风险,这促使我们决定在没有进一步保障措施的情况下,不发布 Imagen 供公众使用。”
手机预览