谷歌创建了一个神经网络Imagen,它能够根据文本描述生成图像。为了识别文本请求,神经网络使用自然语音处理算法所基于的大型语言模型。
接下来,算法改进了尺寸为64×64的原理图,直到人工智能意识到它不能再在指定参数方面做得更好。之后,图像大小增加到 256 x 256 像素。
因此,已经高质量的图像达到1024×1024的大小。这不是通过缩放来实现的 - 神经网络的三个阶段中的每一个都改善了图片中的细节。
例如,在图像的第一个版本中,部件的宽度只能为 3 像素,而在第二个版本中,则为 12 像素,依此类推。该公司相信,其神经网络生成的图像具有“前所未有的照片级真实感”。
开发人员将Imagen与OpenAI的类似神经网络DALL-E 2进行了比较。根据谷歌的说法,测试人员在比较Imagen和DALL-E 2的图像时,更有可能选择Imagen进行更准确和可靠的工作。
然而,该公司承认,Imagen和DALL-E 2无法应对“骑马宇航员”的要求 - 神经网络不断将宇航员放在马背上,反之亦然。
Imagen 在封闭测试模式下工作,并非所有人都可以使用。开发人员担心用户会使用神经网络来生成不可接受的图像,从而加剧社会接受的偏见和刻板印象。