谷歌DeepMind团队与麻省理工学院(MIT)合作推出了一款名为“Fluid”的新模型,该模型在文生图领域取得了显著成果。据科技媒体The Decoder报道,Fluid模型在参数规模达到105亿时,能够生成最佳的图像效果。
在文生图领域,自回归模型与扩散模型一直存在竞争。扩散模型通过迭代减少随机噪声来生成高质量数据,而自回归模型则依赖于序列中的前面元素来预测下一个元素。
Fluid模型之所以能够在文生图领域脱颖而出,关键在于其采用了连续tokens和随机生成顺序两个创新设计。连续tokens能够更精确地图像信息存储,减少信息丢失,而随机生成顺序则让模型在每一步都能预测任意位置的多个像素,从而更好地理解整体图像结构。
在重要基准测试中,Fluid模型超越了Stable Diffusion 3扩散模型和谷歌此前的Parti自回归模型。与Parti相比,Fluid在参数规模远小于Parti的情况下,仍能在MS-COCO上达到相同的FID分数。