研究人员正在用更少的标签训练图像生成AI

导读生成AI模型倾向于学习复杂的数据分布，这就是为什么他们擅长于生成类似人类的语言并且能够说服汉堡和面孔的图像。但是训练这些模型

生成AI模型倾向于学习复杂的数据分布，这就是为什么他们擅长于生成类似人类的语言并且能够说服汉堡和面孔的图像。但是训练这些模型需要大量标记数据，并且根据手头的任务，必要的语料库有时会供不应求。

解决方案可能在于Google和苏黎世联邦理工学院的研究人员提出的方法。在预印本服务器Arxiv.org上发表的一篇论文(“ 使用较少标签生成高保真图像 ”)中，他们描述了一个“语义提取器”，它可以从训练数据中提取特征，以及为整个训练推断标签的方法。从标记图像的一小部分设置。他们说，这些自我和半监督技术可以在像ImageNet这样的流行基准测试中胜过最先进的方法。

简而言之，该论文的作者解释说，不是为鉴别者提供真实图像的手工注释的地面真实标签，而是提供推断的标签。”

在研究人员提出的几种无监督方法之一中，他们首先使用上述特征提取器在目标训练数据集上提取特征表示 - 一组用于自动发现原始数据分类所需表示的技术。然后，他们执行聚类分析 - 即，将表示分组，使得同一组中的表示与其他组中的表达共享更多共同点。最后，他们训练一个GAN - 一个由两部分组成的神经网络，由生成样本和鉴别器组成，通过推断标签来尝试区分生成的样本和真实样本。

在另一种称为“共同训练”的预训练方法中，论文的作者利用无监督，半监督和自我监督方法的组合来推断与GAN训练同时发生的标签信息。在无监督步骤中，他们采用以下两种方法之一：完全删除标签，或为实际图像分配随机标签。相比之下，在半监督阶段，当标签可用于真实数据的子集时，它们在鉴别器的特征表示上训练分类器，它们用于预测未标记的真实图像的标签。

为了测试技术的性能，研究人员开发了ImageNet--一个包含130多万个训练图像和50,000个测试图像的数据库，每个图像对应1,000个对象类别中的一个 - 并通过从每个图像中随机选择一部分样本获得部分标记的数据集阶级(即“救火车”，“山脉”等)。在使用无人监督，预训练和共同训练方法对第三代Google张量处理单元(TPU)吊舱的1,280个核心上的每个GAN进行三次训练后，他们将输出质量与两个评分指标进行了比较：Frechet Inception距离(FID)和初始分数(IS)。

无监督方法并不是特别成功 - 与基线8.4和75相比，它们分别实现了大约25和20的FID和IS。使用自我监督和聚类的预训练将FID降低了10%并且ID增加了大约10 %，并且经过共同训练的方法获得的FID为13.9，IS为49.2。但到目前为止，最成功的是自我监督：它以20%的标签数据实现了“最先进”的表现。

在未来，研究人员希望研究这些技术如何应用于“更大”和“更多样化”的数据集。“未来的工作有几个重要方向，”他们写道，“[但]我们相信这是实现极少数高保真图像合成最终目标的第一步。”