GENIMAGE: A MILLION-SCALE BENCHMARK FOR DETECTING AI-GENERATED IMAGE

点击下载原文pdf❤️

研究背景 生成模型发展引发担忧，假图像传播影响社会稳定； eg：AI生成的五角大楼着火照片影响股市

根据论文图表⬇️

现有假图像检测数据集存在局限，如UADFV规模小，ForgeryNet仅关注人脸、早期通用数据集依赖GAN且数据有限。 –>GenImage数据集构建的必要性

数据集构建

包含超100万对真假图像，使用ImageNet所有真实图像，依1000个标签生成1350000张假图像

用8种生成模型生成假图像，每个模型为每类生成近相同数量图像，保证数据集平衡，输入句子依ImageNet标签，部分模型输入语言有调整

扩散模型（diffusion model）： Midjourney、 Wukong、 Stable Diffusio、 ADM、 GLIDE、 VQDM;

生成对抗网络（GAN）： BigGAN –>其中SD V1.5最为逼真

数据集基准检测

假图像检测器

假人脸检测器（Fake Face Detector）：专为人脸伪造检测设计，依赖人脸图像的特定特征。

代表模型：

F3Net：通过分析频率成分划分和真假人脸频率统计差异进行检测
GramNet：利用全局纹理特征提升检测的鲁棒性和泛化性

特点：

训练数据仅为人脸图像，难以直接泛化到非人脸领域
设计思路可启发通用检测器的开发（eg：频率分析、纹理特征）

通用假图像检测器（General Fake Image Detector） 突破人脸内容的限制，检测各类假图像（如GAN或扩散模型生成）。

代表模型：

Spec：以频谱为输入，直接在真实图像中合成GAN伪影，无需依赖特定GAN生成的训练数据 CNNSpot：基于ResNet-50的二分类器，通过特定的预处理、后处理和数据增强优化

特点：

现有方法在混合GAN和扩散模型生成图像的数据集上性能不足
急需开发针对此类混合特征的专用检测器

检测器能轻松识别同一生成器生成的假图像，说明生成器会留下高度一致的痕迹（如特定频率模式、纹理特征等）。而我们需要提升检测器的泛化能力，即独立于所使用的生成器来区分图像真伪的能力。 →跨生成器图像分类

单模型跨生成器图像分类

先在SD V1.4上用七种不同的方法训练的模型然后用八种不同的检测器进行检验 //该表格可反应模型在特定训练数据下的泛化能力，根据各检测器检测准确率平均之前数据可知，Swin-T的泛化能力最强

多模型全组合测试

对每个方法都用8个生成器训练8个模型然后在8个生成器上测试并取平均值 //该测试模式反映了方法在所有可能生成器组合下的综合性能

退化图像处理

图像在传播过程中经常遇到退化问题（eg：低分辨率、压缩和噪声干扰）

检测器应该对这些挑战具有鲁棒性

→通过评估检测器在这些退化图像上的性能，使之更准确的模拟实际条件

作为baseline model，ResNet-50，DeiT-S和Swin-T都呈现出类似的效果 //数据十分相近
CNNSpot对JPEG压缩和高斯模糊都具有鲁棒性 //因为CNNSpot在训练过程中使用JPEG压缩和高斯模糊作为额外的数据预处理

数据预处理即是方法论

数据分析

真实图像和生成图像的频率分析对比

GAN伪影以规则网格的形式显示来自扩散模型的图像比BigGAN更接近真实的图像
reasons：
在文献Adversarial Perturbations Fool Deepfake Detectors中有提到，上采样方法（上卷积或转置卷积）导致GAN无法正常地近似训练数据的频谱分布，所以GAN生成的图像有较多伪影
因为匹配较低的频率对于所生成的图像的感知质量更重要，而训练期间较少的权重被附加到较高的频率，扩散模型不会在频谱中产生网格状伪影，但是对于较高的频率表现出系统性的不匹配
为验证检测器是否能泛化到不同图像内容类别

数据集： • 训练集：从GenImage的1000类中抽取子集（10、50、100），每类生成固定数量图像 • 测试集：覆盖全部1000类，每类50张生成图像，并且来自8种生成器 • 真实图像比例：每类真实图像与生成图像数量相同（平衡数据）

控制变量分析可得到，数据集标签的数量对准确度的影响程度远大于数据数量的影响程度
假图像检测器的泛化能力高度依赖训练数据的类别覆盖度，其中100类以上可达到较好效果

CONCLUSION：SD V1.4和SD V1.5与Wukong的训练产生了最佳的整体泛化性能

GenImage范围广：不仅包含传统的人脸（face）和艺术作品（art）图像，还涵盖更广泛的类别。 数据来源：

LFW：用于人脸识别的公开数据集，从中选取了10,000张真实人脸图像，并生成相同数量的合成人脸
Laion-Art：基于Laion-5B的子集，筛选出美学评分高的艺术作品，并从中选取10,000张真实艺术图像，同时生成10,000张合成艺术图像

泛化性能优异：

人脸检测：99.9% 准确率（区分LFW真实人脸 vs. SDV1.4生成人脸）
艺术图像检测：95.0% 准确率

结论：该数据集在跨内容（人脸、艺术）检测任务上表现出强泛化能力。

结论

GenImage是一个专为检测生成模型生成的虚假图像而设计的大规模数据集，其规模、图像内容和生成器多样性均超越以往的数据集和基准。
研究提出了两项任务——跨生成器图像分类和退化图像分类，用于评估现有检测器在GenImage上的性能。
此外，通过对数据集的详细分析，研究揭示了GenImage如何推动开发适用于真实场景的虚假图像检测器。

GENIMAGE

GENIMAGE: A MILLION-SCALE BENCHMARK FOR DETECTING AI-GENERATED IMAGE

数据集构建

数据集基准检测

假图像检测器

单模型 跨生成器图像分类

多模型 全组合测试

退化图像处理

数据分析

reasons：

为验证检测器是否能泛化到不同图像内容类别

泛化性能优异：

结论

相关文章

说点什么…

单模型跨生成器图像分类

多模型全组合测试