谷歌创建了一个神经网络根据描述生成图像

谷歌创建了一个神经网络Imagen，它能够根据文本描述生成图像。为了识别文本请求，神经网络使用自然语音处理算法所基于的大型语言模型。

接下来，算法改进了尺寸为64×64的原理图，直到人工智能意识到它不能再在指定参数方面做得更好。之后，图像大小增加到 256 x 256 像素。

因此，已经高质量的图像达到1024×1024的大小。这不是通过缩放来实现的 - 神经网络的三个阶段中的每一个都改善了图片中的细节。

例如，在图像的第一个版本中，部件的宽度只能为 3 像素，而在第二个版本中，则为 12 像素，依此类推。该公司相信，其神经网络生成的图像具有“前所未有的照片级真实感”。

开发人员将Imagen与OpenAI的类似神经网络DALL-E 2进行了比较。根据谷歌的说法，测试人员在比较Imagen和DALL-E 2的图像时，更有可能选择Imagen进行更准确和可靠的工作。

然而，该公司承认，Imagen和DALL-E 2无法应对“骑马宇航员”的要求 - 神经网络不断将宇航员放在马背上，反之亦然。

Imagen 在封闭测试模式下工作，并非所有人都可以使用。开发人员担心用户会使用神经网络来生成不可接受的图像，从而加剧社会接受的偏见和刻板印象。



郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。